课代表系列——AI大事最快最全解读,本文关注OpenAI投资的人形机器人1X techonologies最新发布的NEO机器人,以此为线索揭开1X机器人这家公司所采用的特别的技术路径及定位考量。
AI未来指北作者 郝博阳 周小燕
虽然逛完世界机器人大会后,部分投资人对腾讯科技表示,在人形机器人赛道“一个也不想投了”,但看到OpenAI投资的人形机器人公司1X生产的NEO机器人后,他们竟又开始有信心了。
连一直反对将机器人做成人形的海银资本创始人王煜全也被惊讶到,他对腾讯科技表示,“NEO的动作非常地自然协调,完全摆脱了人们对于机器人的刻板印象”,“刚看到1X这款机器人时,我第一反应甚至是以为衣服下面有个真人。”
我们也同样被它的流畅惊艳到,但除此之外,我们更想了解的是,为何它会在家庭场景“轮式”模式的天下里,选择使用“双足”模式?
在上述的报道中我们曾提到,服务于工业场景的机器人,超过80%都会在下半身的设计里面采用“双足”模式。而家庭场景的任务标准化程度更低、任务更加琐碎并且突发状况更高频,这就要求家用机器人安全又安静。相比较于“双足”高成本、控制算法不成熟导致行走站立不稳定、噪音大等问题,轮式在平坦路面的运转更安静、稳定性更强。
而NEO另辟蹊径,它就是家庭场景中罕见的“双足”模式机器人。
在展示视频中,NEO十分“柔软”,若没有它背后吊着的那根线,乍看上去就像一个真实的人类正在厨房收拾高脚杯。
它能在没有任何指令的情况下,仅依靠自己的“观察”就预测出人类做家务的下一步操作。
NEO移动起来很安静,但调高展示视频的音量,还是可以听到NEO俯身拿起背包时,所发出的细微的嗡嗡声。
和很多看上去“人高马大”的人形机器人不同,NEO看上去就像一个邻家小哥,穿着休闲的服装来你家做客,在你做家务的时候可以帮忙打个下手。
NEO身高1.65米,全身拥有55个自由度,它的体重只有30公斤,几乎比大部分同级别身高的人形机器人轻1/3~1/2,但是NEO的力气并不小,据Medium报道,NEO负载20公斤,其握力足以举起70公斤(154磅)的重物。
(图:国内外“成年人身高”区间的人形机器人体重对比)
从参数来看,NEO“身板”小,但力气并不低于行业主流人形机器人。在这一众的双足人形机器人中,也只有NEO明确定位服务家庭应用场景,其它双足机器人基本都服务于工业场景。
双足人形机器人在工业场景很合适,但一旦切换成家庭模式就会面临许多挑战。
挑战的核心在于,“双足”的机械结构复杂,需要调动更多关节来维持机器人运转,必然会需要更高的功率,如果要应用于家庭场景,就必须解决高功率损耗带来的一系列连锁问题,比如散热和噪音。
相比之下,在工业场景中,机器人通常在仓库或封闭的工厂中工作,这些地方往往已经配备了冷藏或降温设备来协助散热,因此双足机器人在这些环境下并不需要过多担心高温的影响。
作为“打工人”,对外形的要求也不高,它们可以半裸(裸露着零部件),甚至挂着电线在工厂走来走去,没有“衣服”也有助于散热,比如波士顿动力的液压Atlas就可以“凶猛”地来回奔跑。
(图:波士顿动力 液压Atlas)
此外,工业环境本身充斥着各种机械声响,双足机器人关节的移动声和行走时的脚步声也就显得不那么引人注意了。
但一旦切换到家庭场景,这些在工业场景里不显眼的问题就全部成了BUG:机器人的散热性能不高可能引发火灾,噪音太大可能令人神经衰弱,零部件外露尤其对于有孩子的家庭而言存在极大的安全隐患。
而轮式的功耗低,天然地少了散热、噪音这类烦恼。
这就意味着,要把“双足”机器人搬进家庭场景,必须从本体上进行优化和改造。
1X机器人AI副总裁Eric Jiang提供了生产NEO的解决思路,对机器人核心部件“电机”进行优化,他在最近的访谈中表示,和很多人形机器人采用“小电机、大齿轮比、高动能”的思路相反,NEO的关键密码是电机“高扭矩、小齿轮比、低动能。”
那么,如何理解Eric Jiang说的这句话呢?我们可以先简要理解一下人形机器人“电机”和“齿轮比”的关系。
类比人类,人形机器人的运动类型其实只有两种:直线运动和旋转运动。比如,在1X的展示视频中,有几秒钟NEO向人类“招了招手”,解剖这个动作的组成部分是:先右手伸手(直线运动),再摆手(旋转运动)。
如果尝试拆解,你会发现人形机器人的整个运动系统都是这两种运动的组合。
其中,直线运动由人形机器人的“电机+丝杠”组合实现,而旋转运动由“电机+减速器”实现,在这里我们重点关注旋转运动的实现,“电机+减速器”帮助机器人完成“关节”旋转,和轮式相比,“双足”主要涉及到的运动也体现在关节部分。
“齿轮比”核心影响到的正是旋转运动的速度,也就是“电机+减速器”的组合速度。
简单来说,“齿轮比”是指电机的输出速度与实际执行部件的速度之间的比例。举例来说,如果人形机器人双腿移动速度是V,高齿轮比意味着电机的运转速度高,低齿轮比意味着电机运转速度低。
很多人形机器人是高齿轮比(例如10:1),那么电机的速度经过齿轮减速后,机器人关节的运动速度会变慢。这种配置更适合需要大力量但不要求高速运动的场合。
如果采用的是低齿轮比(例如3:1),电机的速度经过较小的减速,机器人关节的运动速度会更快。这种配置适合需要快速反应和灵活操作的场合。
NEO通过低齿轮比的设置,降低电机的输出速度,就能够降低核心关节的功耗。
电机的低齿轮比,意味着牺牲了电机的运转速度,Eric Jiang在他写的技术文档《Motor Physics》中表示,NEO采用“高扭矩”来弥补电机低运转可能带来的力量不足问题,他也表示,“大多数电机的功率不足以施加大量扭矩,因此机械工程师采用高速电机并为其添加齿轮,以速度换取扭矩。”
(图:Eric Jiang发表的技术文档《Motor Physics》截图,表述机械工程师以电机速度换扭矩)
这就解释了为什么目前很多双足机器人只能在工业场景使用:“大多数人形机器人公司选择在工厂而不是家庭中部署他们的机器人,因为它们依赖于僵硬、高度齿轮化的驱动系统。这些系统在人群周围并不安全,必须用笼子围起来。”
从这个角度来看,1X团队寻找到了让双足机器人在家庭场景下,安全运转的硬件路径,所以NEO可以穿着人类的衣服,而不用担心因为散热性能差导致衣服燃烧。
其实,1X的上一代机器人EVE做的是轮式,在NEO这一代才转为双足,本质原因依旧是场景适配问题。
家庭场景十分复杂,会要求机器人将手伸到桌子底下取东西、从柜台上捡东西,一个轮式底盘的机器人,由于底座占据了空间,必须要“伸长”胳膊才能够到一些家庭角落,Eric Jiang认为,“这种情况下,机器人应该像人类一样利用自身重心的变化取东西”,比如遇到东西掉落在橱柜角落的情景时,机器人应该和人一样,可以抬起一条腿,并且将一只手按在桌子上,利用自己的重心变化够到物件。
Eric Jiang在访谈中还抛出一个例子,为什么很多书架的最底端都留有一定的空间缝隙?“就是为了方便人类将脚趾伸进去”,这样人可以身体贴着书架取书。
所以,双足可以缩小机器人的运动足迹,而轮子底座无法适配琐碎的家庭场景。
能泛化的机器人已经踩在门槛上了?
(图:Physical Intelligence)
这与其说是机器人公司,不如说这是一家具身大模型公司。
而1X的机器人也不例外。
1X的AI副总裁Eric Jang对大模型融入机器人的相关经验相当丰富,在2022年加入1X之前,他曾经在谷歌Deepmind在SayCan的项目中领导一个小组。而这个项目是最早试图融合语言模型与机器人的具身智能尝试。
在今年2月,1X 就发布了自己旗下EVE进行全神经网络任务的视频,小火了一把。在一场24年4月的GRASP SFI分享会上,我们可以看出这个模型的整体运作逻辑。
其分开也是一个Pipeline(工作流形式)。首先运用一个DIT(Diffusion-Transformer)模型,结合自然语言的命令,用Diffusion去生成一个关于未来自身位置的预测图像。然后将这个预测和当前图像,以及目标物体放进一个新的Transformer模型中,去预测后续需要的机械活动。
从视频里我们可以看到,EVE可以分类物品、搬运,甚至能够自己给自己充电(怪不得叫EVE)。其中部分任务也能做到双手持握。但仔细判别这个视频,其实EVE当时的能力也仅限于识别、抓取,和放置物品上,之后将这些基础能力组合成一个个具体任务,比如装箱、搬运、分类。
到今年八九月的时候,基本上接入大模型赛道的机器人公司都可以做到这些能力了。
比如Figure 01 在二月末就放出了自家机器人用大模型驱动冲咖啡的视频,在其中它甚至还能自行纠错。
(图:Figure 01在演示视频中冲咖啡)
然而,在这之后,Figure 和 1X 就在模型上走向了不同的路径。
3月份Figure 选择了直接搭载GPT-4o,让它的机器人有了很强的对话和逻辑能力。他们用了一条Pipeline(工作流)来完成整合三个模型。
先由GPT-4o大模型来识别语言,规划动作。之后再由其自有神经策略层,也就是自己训练的端到端任务模型执行动作。同时用自己的身体控制模型来保持机器人的平衡。
(图:Figure官方解释其模型构成)
(图:1X开发的自然语言控制界面)
(图:全流程分解任务控制)
Eric Jang曾在纪录片中进行了与一般业界担忧相反的的表态,“很多人高估了数据采集方面的瓶颈。而从实践上看,在之后的12个月内,数据可能越来越不重要。“
他对数据的自信来源于过往实践。1X在数据采集上的逻辑一直和其他机器人企业略有不同。
其他的企业一般会利用所有可用的手段,尽可能收集大量的数据。其手段包括利用将模拟机器人放在类似虚幻5这样的模拟物理环境中去搜集大量数据,或利用视频数据截取人类对物品操作的视频,提取信息。
但当下其实最常用的主流方法,就是利用遥操作(Training From Demostration),通过人类佩戴VR给机器人演示的方法获取数据。
而这种遥操作的采集,一般都是将机器人放在一个非常固定的“数据采集工厂”环境中,尽可能的高效的采集足够多的数据。哪怕其中有一些重复和相似性。
(图:特斯拉的数据采集工厂)
据Eric Jang 表述,目前他们用的方法是种很“笨”的方法。与特斯拉所用的这种看似高效的集中采集模式相比,1X选择了坚持还原到多样的生活场景中去采集。所以我们能看到它们在很多极不相同的空间中进行采集,而非在工厂中。他们也没有采用视频训练和模拟数据,坚持只用遥操做采集的数据。
(图:EVE的训练场景,多样到惊人)
首席执行官 BerntBornich 在采访中曾表明,“多样性是人形机器人数据中最重要的方面。从消费级机器人非结构化环境中的多样性中学习,将使真正智能的通用型机器人成为可能。智慧源自思想的多样性。”
在X1看来,在机器人最终落地的家庭和办公环境因其无固定结构且随人类使用而不断变化,必须要有足够的多样性数据才有意义。因此Eric Jang给出的 1X数据采集公式是 “多样性>质量>数量>算法”。
为了实现这种采集的多样性,1X专门组织了一支机器人操作员团队,都精挑细选,他们都能通过一套简单的非编语言图形界面,去亲自训练一些行为模型。对此,Eric Jang在技术博客中写到,“1X是我所知的首家让数据采集员自行训练机器人能力的公司。这大大缩短了模型达到优良状态所需的时间,因为数据采集人员能迅速获得反馈,了解其数据质量如何以及实际需要多少数据才能解决机器人任务。我预见这将成为未来机器人数据采集的普遍模式。”
所以他们不是只有采集工人,而是有一群能直接微调模型的采集工程师。他们会在具体任务中识别哪些地方不工作,针对这些场景收集数据,然后重新训练和调整模型,并重复这个过程直到模型完善。采训一体。
(图:在1X的领英上,这些操作员的招聘全是正式工,非外包,月薪6000-8000美元,大约是美国平均月薪的1.5倍)
这些“笨”方法保证了采集数据的质量和多样性,每个数据都尽量“有用”。在近几天的采访中,Rric表示,“如果你在一个工厂部署机器人,那里重复执行完全相同的任务,这些数据基本没什么用。”
这种相对精细的采集毫无疑问会拖慢数据量级的增长,但它的效果是非常显著的。
(左图:1X搜集的数据小时数,右图:1X搜集的动作多样性)
根据Eric Jang的技术分享,直到2024年3月,他们总共收集了1400小时的训练数据,涉及7000种不同的独特动作。而他同时表示,EVE机器人在这些数据的训练下,目前能具有数百项独立能力。
对比之下,RT-2在训练中用了130,000个示例,13台机器人花了整整17个月进行搜集。这些如果平均每个示例5秒,这些示例的总长也能够达到上万小时。它能执行700个不同指令的任务。