就在不久前,机器人初创公司 Generalist AI 发布了他们的 GEN-0 模型,声称首次在机器人领域建立了类似语言模型的 scaling law,即随着预训练数据和计算量的增加,下游任务性能呈现可预测的幂律提升。
他们的训练数据规模达到惊人的 27 万小时真实世界操作视频,远超目前公开的任何机器人数据集。这一发现在业内引发了广泛关注,因为它意味着机器人智能可能终于踏上了与大语言模型类似的可预测增长轨道。
今天,另一家知名的机器人初创 Physical Intelligence 又发表了一项研究,从另一个角度佐证了规模效应的存在,而且揭示了一个此前容易被忽略的现象:不仅机器人策略本身会从规模中获益,从异质数据源汲取知识的能力同样是规模的产物。
![]()
图丨相关论文(Physical Intelligence)
具体而言,当 VLA(Vision-Language-Action,视觉-语言-动作)模型在足够多样化的场景、任务和机器人形态上完成预训练之后,一种此前难以实现的能力会以“涌现”的方式出现:模型突然具备了从人类视频中学习技能并迁移到机器人执行的能力。而在预训练规模不足时,无论你怎么精心设计对齐机制,这种跨具身形态的迁移效果都难以令人满意。
![]()
(Physical Intelligence)
让机器人观看人类操作视频来学习技能,是业内目前探索的重要路径之一。它的吸引力显而易见:人类视频俯拾皆是,而机器人示范数据的采集成本高昂且进展缓慢。然而现实是,直接把人类视频喂给机器人模型训练,效果往往令人失望。
视觉上,人类的手与机器人的夹爪形态迥异;运动学上,人体关节自由度与机器人末端执行器的动作空间天差地别。这道“跨具身形态”的鸿沟横亘在人机之间,此前的解决方案大多依赖于各种精心设计的对齐技术,关键点追踪、潜在动作编码、奖励建模、仿射变换等等。Physical Intelligence 这项研究的核心贡献在于表明,在足够的预训练规模下,这些显式对齐步骤可能根本不需要。
这项研究由 Physical Intelligence 联合 Georgia Tech 的研究人员完成。第一作者 Simar Kareer 是 Georgia Tech 计算机视觉方向的博士生,此前他就以 EgoMimic 项目在业内崭露头角。那套系统用 Meta 的 Project Aria 眼镜录制人类第一人称视频,让机器人通过模仿学习掌握叠衣服等家务技能,性能提升幅度达 400%。
EgoMimic 的成功依赖于一系列精心设计的跨域对齐技术,这也是此前该领域的通行做法。而这次的新研究则试图回答一个更激进的问题:如果完全不做显式对齐,纯粹依靠预训练规模,能否让模型自己学会跨越具身形态的鸿沟?
为此,研究团队设计了一套简单到近乎粗暴的联合训练方案。他们把人类视频当作 VLA 训练混合数据中的“又一种机器人形态”来处理,采用与机器人数据完全相同的训练目标:低层级的末端执行器轨迹预测和高层级的子任务语言预测。
人类手部的 3D 姿态通过手势追踪技术提取,映射为类似机器人末端执行器的相对运动;子任务标注则与机器人数据的标注格式保持一致。在微调阶段,人类数据与对应任务的机器人数据按 50:50 的比例混合。没有任何域适应模块,没有对抗训练,没有手工设计的特征对齐。
研究团队刻意不去额外“照顾”模型,把那些常见的域适应与显式对齐组件都拿掉,只保留最朴素的共同训练配方,用这种近乎苛刻的设置来检验:模型能否仅凭预训练打下的基础,把这些异质数据真正消化并转化为可执行的策略。
实验结果呈现出一条清晰的分界线。当 VLA 模型没有经过预训练或只在有限数据上预训练时,加入人类视频非但没有帮助,有时甚至会产生负迁移效应。但随着预训练数据的多样性逐步提升,从 25% 到 50%、75%,直至完整的多机器人跨形态预训练,人类视频带来的增益开始显著上升。在他们的四项泛化基准测试中,最强版本的模型几乎将整体性能翻了一番。
![]()
(Physical Intelligence)
这四项基准覆盖了不同维度的泛化挑战。场景泛化测试中,机器人需要在从未见过的公寓里整理调料架或梳妆台,而这些新场景只出现在人类视频中。物体泛化测试中,机器人要收拾桌上的新厨具,同样是人类数据引入的品类。最具说服力的是任务泛化测试:机器人数据只演示过把鸡蛋放进蛋托的动作,而人类视频额外展示了按颜色分拣鸡蛋的操作。
结果是,未经人类数据训练的模型只会随机放置,分拣正确率约 57%;而联合训练后的模型达到了 78% 的准确率,平均每次多正确放置 4 个鸡蛋。机器人从人类视频中学会了“分拣”这个它从未在机器人示范中见过的语义概念。
而且,这种能力并非线性增长,而是在跨过某个预训练门槛后才突然显现出来。
以鸡蛋分拣任务为例,单纯增加预训练多样性并不能让只用机器人数据训练的模型学会分拣,因为分拣这个概念根本不存在于机器人数据中。但增加预训练多样性却能让模型更有效地从人类视频中获取这一知识。
类似地,在梳妆台整理任务上,50% 预训练规模以下的模型从人类视频中获益甚微甚至出现负迁移,但在 75% 到 100% 的预训练规模区间,增益开始稳定累积。这种非线性的涌现模式与大语言模型中观察到的现象如出一辙:某些能力不是渐进出现的,而是在跨越特定规模门槛后突然“解锁”。
研究团队进一步分析了这种涌现现象背后的机理。通过对模型最后一层视觉令牌的 t-SNE 降维可视化,他们发现了一个有趣的规律:在弱预训练条件下,人类数据和机器人数据的表征呈现出明显的分离态势,模型似乎在用两套不同的“语言”理解这两类数据。但随着预训练多样性增加,两类数据的表征开始逐渐重叠,最终趋于高度混合。
换言之,充分多样化的预训练使得模型形成了“具身无关”的中间表示,人类手臂的挥动和机械臂的伸展在这个表示空间里可以被映射到语义相近的区域。这就解释了为什么显式对齐变得不再必要,模型自己完成了这项工作。
另外,这项研究也揭示,人类数据并不是万能的。在某些任务上,人类视频的效果接近于直接使用目标机器人数据,研究团队在整理梳妆台和分拣鸡蛋任务上观察到了这一点。但在收拾餐桌的测试中,真实机器人数据仍然明显优于人类数据。
研究者将人类数据与来自另一款 UR5 机器人的跨形态迁移数据做了对比,发现两者表现出相似的迁移特性:都比基线有所提升,但都不及目标机器人自身的数据。所以,在 VLA 的数据混合策略中,人类视频更应该被视为一种有价值的补充数据源,而非完全替代方案。
另一个细节是腕部相机的作用。研究团队让人类数据采集者佩戴类似机器人腕部相机的微型摄像头,以缩小传感器配置上的域差距。在某些任务上,这些额外视角确实带来了性能提升,但在另一些任务上影响甚微。这提示我们,人类数据采集的传感器配置可能需要根据目标任务的特点进行权衡。
目前困扰整个行业的核心瓶颈之一是高质量机器人示范数据的采集成本。遥操作需要专业人员花费大量时间,而且容易引入操作失误。如果人类视频能够有效补充机器人数据,那么数据采集的边际成本将大幅降低。普通人佩戴智能眼镜从事日常活动产生的视频流,理论上都可以成为机器人学习的素材。
Figure AI 最近宣布的 Project Go-Big 计划走的就是这条路线,他们与房地产巨头 Brookfield 合作,打算从其遍布全球的十万余套住宅单元中大规模采集人类生活视频,并声称已经实现了从纯人类视频到机器人导航的零样本迁移。
不过,Physical Intelligence 的研究也给这种愿景设置了一个前提条件:想要有效利用人类视频,你首先得有一个足够强大的预训练基础。没有经过充分多样化预训练的模型,拿到再多人类视频也是枉然。也就是说,你必须先投入大量资源构建多样化的机器人预训练数据集,才能“解锁”从人类视频中学习的能力。
![]()
(Physical Intelligence)
还有一点值得关注:这项研究使用的人类数据量相当有限,每个任务仅 3 到 5 小时,远不及网络上可获取的海量人类活动视频。研究者也坦承,他们目前的数据采集方式仍然是片段式的,尚未涉足“在野”环境下的被动采集。未来如何有效利用这些非结构化、非片段式的人类视频数据,仍是一个开放问题。但至少,这项研究确立了一个重要的基线:在适当的预训练条件下,即便是相对少量的人类视频也能产生可观的迁移效果。
回顾整个发现的内在逻辑,其实并不难理解。充分多样化的预训练迫使模型学会抽象,因为它必须找到不同机器人形态、不同场景、不同任务之间的共性才能有效泛化。
这种被迫形成的抽象能力,恰好也是跨越人机鸿沟所需要的。当模型的内部表示不再紧密绑定于某一种特定的视觉外观或运动学参数,而是捕捉到更高层级的语义和意图,人类手臂和机械手臂之间的差异就变得不再是无法逾越的障碍。
大语言模型领域的研究者很早就注意到,某些能力只有在模型规模跨越特定门槛后才会涌现。现在看来,机器人基础模型也存在类似的规模门槛效应,只不过这里的“规模”不仅指参数量,更关键的是预训练数据在场景、任务和具身形态三个维度上的多样性。对于那些正在规划机器人数据采集策略的团队来说,这是一个值得认真对待的发现:数据量固然重要,但数据的多样性可能更加关键。
参考资料:
1.https://www.pi.website/download/human_to_robot.pdf
2.https://www.pi.website/research/human_to_robot
运营/排版:何晨龙





京公网安备 11011402013531号