河套 IT TALK——TALK 47:(原创)波士顿动力的 Atlas 最近又亮瞎了双眼

河套 IT TALK——TALK 47:(原创)波士顿动力的 Atlas 最近又亮瞎了双眼

一次完成复杂任务的尝试

一个月前,就在互联网都在热炒ChatGPT的时候,波士顿动力(Boston Dynamics)在官方油管频道上发布了一个他们的招牌人形机器人(Humanoid)Atlas的实验视频。和之前展示的Atlas跑步、跳舞、翻跟头的单纯运动视频不同,在这个视频里,Atlas在一个更为复杂的作业环境中,接到了一个辅助人类工作的任务,然后Atlas利用身边的简单工具,巧妙地将任务完成。

观看视频请点击跳转

从这个视频中,我们能看到Atlas大致将这个把工具包递给高架上的工人的任务分解为以下几个子任务来分别实现:

  1. 找到工具包,并拿起工具包,以及测算尝试,根据自身的能力,做出判断采用什么方式送给高架顶端的工人:是直接扔上高架?还是登陆到架子第二层再扔上去?又或者如何亲手递给架子最高处的工人?(这一步视频中仅通过Atlas两次来回的观看来替代,在真实场景中,这个过程可能要复杂得多),本场景的动作应该仅仅是机器人演示编排的示例。
  2. 如果上述判断选择在架子第二层扔给工人,Atlas需要思考如何登到架子的第二层,以及通过什么工具实现这一点?(找到木板搭桥,以便能从台阶穿过木板,登陆到架子第二层)
  3. 拿起工具包,走上架子第一层,跳到第二层,转身将工具包扔给工人。
  4. 意识到正前方有一个障碍物,将障碍物推下架子(这个应该是刻意设计的,因为Atlas本可以原路返回)。
  5. 通过推下去的箱子,跳到地面上(中间玩了一个变态把戏(Sick Trick)的空翻完美着地)。

视频在十几个小时内,观看量达到了百万人,很多网友感慨其动作的流畅性,很多人甚至说,自己都做不到Atlas这么完美,特别是最后的那个540度空翻,简直是绝了。

外行看热闹,内行看门道,这短短80秒的视频,到底展示了Atlas怎样的黑科技呢?

完美表现背后的黑科技

波士顿动力后来又发布了一个拍摄幕后花絮的视频,透露了背后的一些技术细节:

观看视频请点击跳转

具体实现,按照通常机器人组成划分,主要包括感知、自治和执行三个部分。

首先,就是感知能力。所谓的感知,就是环境预判和物品预判。除了检测到周围有什么物品之外,还需要去理解物体的属性,包括它的形状、重量、材质、摆放状态等等,这就是感知能力(Perception)。Atlas感知周遭世界的方式,跟人类的眼球类似,但是并不完全相同。

它的头部有两个摄像头,一个是彩色相机,另一个则是深度相机,用称为 LIDAR的技术通过飞行时间(Time of flight,缩写TOF)来测量距离。通过发射纳秒级的高功率光脉冲来捕获相关场景的深度信息。借助 Atlas 的飞行时间深度相机,会以每秒 15 帧的速度从其环境中生成点云,这是一个距离测量的大集合。然后感知软件使用多平面分割算法识别表面。依靠这两个摄像头,Atlas来寻找环境中的形状和其他特征,来识别关键物体的信息。

其次,就是根据感知信息,自主理解意图以确定该怎么行动。理解物品的属性,还要去思考这个物体的状况和自身能力的匹配,以及思考或者预判按照什么方式去操作这个物品,以达到其希望达到的目的,这就是自主(Automony)。举个例子:人们在拿物品的时候,要掂量一下物品的重量,然后才能决定是用手直接抓起来,还是用双臂去抬起来,以及如果太沉的物品,还要判断是要先蹲下去再抬起来,以免伤到了腰椎。人拿物品运动的时候,也需要判断,这个物品很轻,就可以拎着跑;如果很沉,就得慢慢托着走,急不得;如果太沉,还得背着,扛着,或者借助其他工具。人做到这个,也是从小在运动方面不断训练得到能力,机器人也是如此。这个视频中,我们看到机器人在拿木板的时候,是小心翼翼地,动作并不剧烈,因为它要准确地把木板搭在梯子和架子之间,而拿工具包后,就跑着走了,而且在拎起工具包,它也有了一个基本判断,就是知道这个物体是可以在架子第二层稳稳扔到架子顶部的,所有的这些都是模型预测的魅力。

模型预测,会通过轨迹优化来预判行为逻辑,需要的是之前训练的技能库来支撑,每次Atlas学习新的技能都会更新技能库,然后根据前面感知系统获取的数据,机器人会快速选择到底以合适的行为来完成目标。复杂的行为会调动全身四肢的所有部件协调完成(比如空翻)。

最后,就是控制执行。能让Atlas健步如飞,灵巧地跑动起来以及保证一切动作都能行如流水,一气呵成,甚至能完成那个堪称完美的后空翻,这都需要大量的机械自动化的能力,Atlas 高 1.52 m,重 86 kg,三台车载计算机以及用于移动的电池驱动电动机。它的四肢全部由液压驱动器提供动力,具有 28 个液压接头:每条腿 6 个,每只手臂 6 个,背部关节 3 个,颈部间距 1 个。Atlas 依靠其较低的手臂和腿部的自由度 (DOF) 保持平衡。手腕是多功能的,可以连接不同的手或工具,并增加了手腕旋转的自由度以执行任务。

前面我们提到了模型预测库,其实是不精准的模型。一个简单的模型会错过关于机器人动力学的重要细节,但一个复杂的模型可能需要太多的计算才能实时运行。所以必须要在二者之间寻找一个平衡。机器人在具体动作后,它的控制器(也称为模型预测控制 MPC)会使用动态模型来预测运动在未来将如何发生细微的变化,然后利用优化算法来计算最佳移动策略和应急响应。这种应急响应会非常快速地调整机器人的姿态、机械器件的力量以及处理时间周期等等。比如同样是从箱子上跳下来,具体箱子是40厘米高,还是50厘米高,MPC都会微调以应对具体的变化。机器人每个关节的运动、机器人每个连杆的动量,以及机器人施加在它携带或投掷的物体上的力。

540度的非对称空翻,要比正常的跑酷复杂困难得多,因为这种扭曲增加了常规后空翻中不存在的不对称性。不仅数学更复杂,而且在空翻过程中,Atlas还需要卷起胳膊和腿,并在合适的时机,再优雅地舒展开,并在落地过程中,迅速寻找合适体态以达到平衡。MPC在工作时候,使Atlas就像花样滑冰运动员一样,Atlas开始空翻动作时,它需要双臂张开以存储角动量,在空中翻滚过程中收紧双臂双腿尽可能缩成球形以增加旋转角速度,然后在落地时再次张开双臂双腿以减轻落地速度和维系平衡,整个动作只需要不到一秒钟。Atlas 控制团队的软件工程师 Robin Deits 在公司博客文章中说:“我们几乎在机器人的每个关节中都使用了所有可用的力量。”。“这个技巧恰好是机器人能做的极限”。

相信这个视频会让很多人意识到,机器人帮助人类承接复杂繁重的体力劳动的时代应该不会很遥远了。

但事实真的如此吗?让我们先理性回顾一下波士顿动力的历史,再做判断。

波士顿动力的前世今生

相信,在机器人圈里没有多少人不知道波士顿动力这个金字招牌,但是可能很少人知道这家公司真正的历史背景。

如果寻根溯源,还要从马克·雷伯特(Marc Raibert)说起。这位总是穿着Aloha衬衫的光头大叔,现在已经74岁了。毫不夸张地说,马克·雷伯特一辈子基本上都在坚持不懈地做一件事,就是多足机器人的研究。

1973年,雷伯特获得了东北大学电子工程学士学位,并于 1977 年获得麻省理工学院博士学位。他的论文题目是“通过状态空间模型进行电机控制和学习”。毕业后,在1977 年至 1980 年间,他在喷气推进实验室和加州理工学院从事机器人传感和控制方面的工作。1980年转到卡内基梅隆大学计算机科学系和机器人研究所任教并成立了腿部实验室(CMU Leg)。1986年,他来到麻省理工学院继续担任电气工程和计算机科学的教授,也把他的腿部实验室直接搬了过去。下面的视频,我们能看到这个实验室早期的一些研究。

观看视频请点击跳转

腿部实验室帮助建立了高动态机器人的科学基础。这些机器人的灵感来自于动物的敏捷、灵巧、感知和平衡感,以及优雅的动作。马克·雷伯特在很多场合的演讲都喜欢拿攀登陡峭山峰的山羊作为例子来阐述这个话题。他惊叹于山羊在崎岖不平的山崖上健步如飞的那种非凡力量,甚至小山羊都是如此,也在他的内心深处产生了一个梦想:将双足和四足机器人技术推进到超自然状态(advance bipedal and quadrupedal robotics to a supernatural state.)。而他不管是在腿部实验室,还是后来成立波士顿动力,一直以来都坚定地地践行他对这个梦想的追求。

超自然(supernatural )这个词儿,带有浓重的宗教色彩,原本是用在神秘主义中的。尽管雷伯特没有进一步解释这个词的含义,但我理解他真正想表达的应该是奇迹,也就是超越多足动物原本的自然生理极限,跳得更高,跑得更快,运动的得更为灵活,以及能在更为严酷的自然环境中从容生存。

在当时那个时代,腿部实验室的研究和当时主流机器人研究路径完全不同,过于特立独行、惊世骇俗。当时市面上大部分的机器人的运动特点都是非常缓慢的、稳健的、机械的、有板有眼的,而且这仿佛也成为工业化生产的机器人默认的共识。而腿部实验室这种蹦蹦跳跳,很难站稳的单腿或者多腿跳跃机器人,无故障运行时间(MTTF)短到无法被商业资本赏识,在当时那个唯利是图的时代,除了娱乐性的杂技表演,这个实验室的研究成果实在看不到实用的、赚钱的应用前景,而经常被称为华而不实,甚至哗众取宠。

1992年,马克·雷伯特将腿部实验室从MIT剥离出来,在国防高级研究计划局(DARPA)的资助下(DARPA在美国是个神奇的存在,下次有机会好好聊一聊这个机构),成立了波士顿动力公司。尽管马克·雷伯特当时在机器人腿部实验室的研究已经搞了12年,而且得到了DARPA的资助,但他仍然不确定是否会继续搞下去,上文也提到了,因为拉不到商用赞助,这个实验室的研究仿佛在沙漠中行走,艰难且看不到成功的方向。

波士顿动力公司第一个合同是和美国海军空战中心训练系统部(NAWCTSD)签署的,用 DI-Guy 制作的交互式3D计算机模拟代替飞机发射操作的海军训练视频,用于真实人体模拟的软件。项目交付很成功。说白一点儿,如果沿着这个方向继续走下去,波士顿动力很可能会成为一家建模和仿真公司,而不是机器人公司。

根据马克·雷伯特的回忆,是索尼帮助他们坚定了信仰。波士顿动力接下来有一个契机,默默地给索尼工作了五年,并制作了一个从未见天日的宠物狗AIBO的原型,后来又帮助索尼研究了小型机器人QRIO,并帮助其开发了机器人编舞的工具。这些工作彻底唤醒了马克·雷伯特对机器人的热情,随后,在DARPA的支持下,波士顿动力给BigDog写了一份提案,并毫无悬念地很快获得了批准。

观看视频请点击跳转

马克·雷伯特是一个不善于自我宣传、甚至是抵制媒体的教授。给军方做的BigDog项目视频仅仅上传到他们自己的网站上,骨子里的清高,让他觉得过分地宣传是不体面的一件事。2004年,有心的机器人爱好者把BigDog上传到了油管上。在2008年,DARPA的50年周年晚宴上,马克·雷伯特和DARPA 的负责人 托尼·特瑟(Tony Tether )介绍自己的时候,对方立即兴奋地说:“BigDog,油管上三百五十万浏览量!”他才明白,互联网宣传是多么的重要。同年,波士顿动力在油管上注册了官方账号,很快这个账号就成了科技界的网红。后面的故事,应该就是大家熟知的内容了。

独特的企业座右铭

和很多机器人公司以确保平均无故障时间 (MTTF)不同,波士顿动力并不把MTTF看的很重要。其他机器人公司因为担心被高昂费用制造出来的机器人出故障,就会刻意把机器人的动作调慢,变得稳妥,也刻意减少外部干扰,让机器人的工作环境达到最小变量,仿佛是对待温室的花朵一般来开发、运行和维护。波士顿动力反其道而行之,不但在现实环境中训练机器人,而且还刻意给机器人设计各种刁难的变量。

观看视频请点击跳转

在很多视频里,我们不仅仅看到这些机器人在沙漠、森林、河滩、沼泽、沙地、山坡、厚雪和冰面上行走、奔跑和摔跤,通过各式各样的极端现实环境去磨练,更甚者,我们还在视频中经常看到,测试员人为地给机器人制造额外的麻烦,比如用手推,用脚踹,用棒子捅,刻意改变物品的位置,故意使绊子。这种下狠手往往让观看视频的网友对“受虐”的机器人产生同情,甚至觉得波士顿动力的测试员都是冷血变态,甚至有懂CGI的网友直接创造了Bosstown Dynamics的伪视频,来讽刺波士顿动力对机器人的这种行为。这都是彻底误会了这家公司的本意。之所以波士顿动力这么干,不担心机器人出错,不担心磕磕碰碰,因为机器人摔坏了,可以再修,再改进,再测试,不断调优,不断进步,才能保证下次避免类似情况出现时机器人能从容应对。

波士顿动力这个座右铭是非常厉害的。这就仿佛教育孩子一样,越娇惯的孩子越养不好,越磨练的孩子越成事,是一个道理。如果我们最终的目的,就是让机器人在现实世界纷繁复杂,不可预测的环境中从容生存,就应该教会他们如何应对各种各样的意外。这种座右铭也和这家公司希望制造的机器人的初衷是吻合的。

波士顿动力的目标就是构建高机动性的机器人。他们想制造的机器人,是只要人能去的地方,这些机器人就都能去,甚至环境恶劣到人去不了的,这些机器人也能轻松应对。这就不是整洁有序的工厂和流水线了,而是广袤无际未知的自然界和人造环境。这种环境中里,不可避免地需要灵巧地穿过陡峭的岩石小径、泥泞的沼泽、光滑的冰面、拐来拐去的楼梯、狭窄杂乱的过道、拥挤的人流车流、五花八门各种类型的门,以及可能遭遇很多外在环境的突然改变,甚至是意图不明的冒犯者。他们希望机器人最终会像人和动物一样移动以及反应,那种在复杂运动中保持平衡快速应对的特质,能够将自己的运动能力发挥到极致的一种优雅和栩栩如生。

酷炫技术与市场需求之间的巨大鸿沟与资本的无奈

毫无疑问,波士顿动力这种对待测试机器人的这种粗暴和野蛮,背后意味着巨大的成本投入,这种烧钱的无底洞多少还是刺激了资本家们的神经。为了能持续在商业成果不够显著的波士顿动力上持续运作下去,这家命运多舛的公司,接连换过多个金主爸爸。

BigDog因为噪音过大无法商用,最终DARPA停止了对波士顿动力的资助。2013年12月13日,谷歌以未知价格收购,从DARPA接棒,不到4年,2017年6月8日,又以1.65 亿美元的价格易手给软银,然后短短2年不到,软银又以11亿美元的价格卖给了现代汽车集团。那么,现代集团是否会有足够的耐心等待,并持续不断地为它烧钱呢?如果赚钱问题不得到根本的解决,波士顿动力未来还是要免不了面对易主的命运。

从波士顿动力频繁易主的现象,我们也能侧面印证多足机器人产业化过程的不易。商业社会,一切都是以市场需求为导向的。从技术到市场,需要的不单单是成熟的技术、可控的产业链,还需要有“痒点”或者“痛点”需求相匹配。技术和市场之间,这个“痒点”或者“痛点”需求就是跨越二者鸿沟的桥梁。从这一点上来看,任何一家牛逼的技术公司,如果仅仅是炫技,是无法强扭市场来买单的。

观看视频请点击跳转

需求问题解决不了,这个“痒点”或者“痛点”找不到,人们就会去自然地比较成本。拿Spot为例,目前每只Spot Mini的价格是74500美金,如果再需要配备一个酷炫的机器手臂,还需要再花38950美金。如果一个产业工人的价格,低于Spot的价格,而且效率还会更高,为什么工程队要去买Spot呢?同样,如果一个消防犬的成本和响应速度,远优于Spot的时候,为什么消防队要去买Spot呢?

只要那个多足机器人的运动能力上,达不到真正超越人类和自然生物的奇点,所有的相关研究,会一直被认为是一个烧钱的买卖。博得眼球没有错,但是要是市场需求上不来,规模化成本始终降不下去,那么必然市场也就打不开,故事讲得再动听,视频拍得再酷炫,冷静下来,还是要经受残酷无情市场的鞭挞与考验。