当前位置: 首页 » 资讯 » 科技头条 » 正文

新加坡国立大学研究团队让机器人"学会"人类动作

IP属地 中国·北京 科技行者 时间:2026-05-22 22:16:04


这项由新加坡国立大学Show Lab实验室主导的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.12038,感兴趣的读者可通过该编号查阅完整论文。

**机器人缺少"动作教材",怎么办?**

教一个孩子骑自行车,最好的方式是让他看别人骑,然后自己练。但对于机器人来说,这件事要复杂得多。你不能直接把一段人骑车的视频丢给机器人说"你照着做"——因为人有皮肤、有肌肉、有关节角度,而机器人是钢铁骨骼、液压关节、传感器阵列,两者的"身体语言"完全不同。

更头疼的是,机器人的种类繁多。特斯拉的Optimus、优必选的Walker、Figure公司的Figure 03……每一款机器人都有自己独特的外形和结构,想让它们各自学会同一个动作,就得给每一种机器人单独准备配套的训练视频。这不仅费时费力,还根本无法规模化——毕竟机器人新型号每年都在涌现。

正是为了解决这个困境,新加坡国立大学的研究团队提出了一套名为**OmniHumanoid**的框架。它的核心思想可以用一句话概括:**把"动作的灵魂"和"机器人的外壳"分开学习**。动作是可以跨越身体形态传递的共同语言,而每款机器人的外貌特征则单独记忆。这样一来,当一款全新机器人出现时,系统不需要重新学习所有动作,只需要"认识"这款新机器人长什么样就够了。

**一、问题的根源:动作与外表纠缠在一起**

回到骑车的比喻。假设你的任务是把一段姚明打篮球的视频,转换成一段机器人打篮球的视频。听起来简单,实际上难点重重。

第一个难点是"身体语言不通用"。姚明投篮时手腕的弯曲角度,依赖的是人类骨骼的特定构造。机器人的手臂关节数量不同、旋转范围不同,机械臂的末端也不是手掌,而是夹爪或者五指机械手。直接套用姚明的动作数据,机器人要么动不了,要么动出奇怪的姿势。

第二个难点是"没有配对数据"。理想情况下,你应该有一段视频,里面同时显示姚明打球,旁边站着一个机器人做完全相同的动作。这样的"配对视频"是训练系统的最佳素材。但现实中,给每一对"人类动作+机器人动作"都准备这种配对素材,成本极其高昂,几乎不可能大规模实现。

第三个难点是"机器人太多太复杂"。不同机器人的外观差异极大,有的是白色流线型,有的是黑色工业风,有的只有上半身,有的是全身型。通用的视频编辑工具在处理这些高自由度机器人身体时,往往会产生肢体扭曲、身份混乱、时间前后不一致等问题。

第四个难点是速度太慢。高质量的视频到视频转换,通常需要几十个去噪步骤,生成一段视频可能要花费几分钟甚至更长时间。这对于需要大量生成训练数据的应用场景来说,根本无法接受。

这四个难点共同构成了跨形态视频生成领域的主要障碍,而OmniHumanoid的设计就是专门针对这四个方向展开的。

**二、TAPE原则:一个统一的设计哲学**

研究团队为自己的系统制定了四条设计准则,合称**TAPE原则**。这四个字母分别代表:可迁移的运动(Transferable motion)、无配对数据适应(paired-free Adaptation)、形体保真(embodiment Preservation)、生成效率(generation Efficiency)。

可以把这四条原则理解为一个优秀翻译官的素质要求。一名顶级翻译,首先要能抓住原话的"意思精髓"(可迁移运动),在没有原文对照的情况下也能完成翻译任务(无配对适应),翻译结果听起来完全像目标语言的母语使用者(形体保真),而且翻译速度足够快(生成效率)。OmniHumanoid的设计,正是沿着这四个维度同时推进的。

**三、核心架构:两个分工明确的"学习部门"**

OmniHumanoid的整体架构建立在一种叫做"扩散变换器"(Diffusion Transformer,简称DiT)的深度学习模型基础之上。不了解这个概念也没关系——把它理解为一台非常复杂的视频制作机器就好。这台机器的内部被分成了两个功能截然不同的部门。

第一个部门叫做**共享运动迁移模型**。它负责处理输入的源视频(比如人类做某个动作的视频),从中提取出"动作的本质"——不是这个人长什么样,而是这个动作的节奏、轨迹、与环境的交互方式。这个部门的知识是所有机器人共享的,它学到的是"举手这个动作的时序规律",而不是"人类的手臂看起来是什么颜色"。

第二个部门叫做**形体专属LoRA模块**。LoRA是一种参数高效的微调技术,可以理解为一个非常小巧的"个性化插件"。每一款机器人都有自己专属的一个LoRA模块,里面存储的是这款机器人的外形特征——它的关节形状、颜色风格、比例结构等等。当系统需要生成某款机器人的视频时,就加载对应的LoRA插件,整个过程就像给机器换上不同的"皮肤包"一样快速方便。

这两个部门的分工带来了一个关键好处:当一款全新机器人出现时,不需要重新训练第一个部门(共享运动模型),只需要单独训练一个新的LoRA插件就够了。更妙的是,训练这个新插件不需要配对数据——只需要给系统看一些这款新机器人的视频,让它"认识"这款机器人长什么样,就完成了适应工作。

**四、单向信息流:防止"串味"的关键设计**

两个部门分工明确固然重要,但如果它们之间的信息可以随意流通,麻烦就来了。试想一下,如果负责"外形"的部门把机器人的钢铁质感悄悄传递给负责"动作"的部门,动作模型就会被这些外形特征"污染",学到的运动规律就不再是纯粹的动作本质,而是带有某种机器人外形偏好的动作特征。下次遇到完全不同外形的机器人,它就会因为"先入为主"而产生偏差。

为了解决这个问题,团队设计了一种叫做**单向信息流**的机制,用技术语言来说就是一个不对称的注意力掩码。规则非常清晰:负责生成目标视频的去噪分支(含有形体LoRA)可以从运动条件分支中读取信息,但运动条件分支绝对不会受到形体LoRA的影响。

用一个更形象的比喻来说明:动作部门就像一个指挥官,它把"现在要做举手动作"的指令发给形体部门;形体部门负责用自己熟悉的身体语言把这个指令表达出来,但形体部门的回应不会反过来影响指挥官的判断。信息只从指挥官流向执行者,不会反向渗透。

实验结果清楚地验证了这个设计的重要性。当研究团队去掉这个单向设计,让两个部门的信息自由交流时,形体一致性的评分从8.43分骤降到2.53分,运动一致性评分也从9.06分跌至6.35分。这说明两个因素的互相干扰确实是导致生成质量下降的核心原因,而单向设计有效地切断了这种干扰。

**五、两阶段训练:先"认脸",再"学动作"**

有了这套分工架构,训练过程就自然分成了前后两个阶段,逻辑上非常清晰。

第一阶段叫做**形体LoRA预训练**。对于每一款已知的机器人(或人类角色),系统只需要看一批这款机器人的普通视频——不需要和任何其他机器人配对,就是普通的单人视频。在这个阶段,主干模型完全冻结,只有对应的LoRA参数在更新。系统通过大量观看这款机器人的外观,学会了"它的样子"。这就像让一个素描学生专心研究模特的外形特征,先把长相记清楚。

第二阶段叫做**共享运动迁移训练**。这个阶段需要用到配对视频数据——不同外形的机器人做相同动作的视频对。此时所有LoRA模块都被冻结,只有共享运动模型的参数在更新。训练时,系统会根据当前批次样本涉及的目标机器人,自动加载对应的LoRA,然后优化运动迁移的质量。

为了防止模型在训练中对某一款机器人产生偏好,团队引入了一个叫做**滚动LoRA加载策略**的设计——每隔50个训练步骤,激活的LoRA模块就轮换一次,按照当前批次的目标机器人自动切换。这就像让同一个导演轮流给不同演员执导同一场戏,确保导演学到的是"这场戏的精髓",而不是某个演员的个人风格。

对于全新的、从未见过的机器人,适应过程简单到令人惊喜:只需要准备几十段这款新机器人的视频,训练一个新的LoRA插件,整个共享运动模型完全不需要动。这意味着,随着市场上新机器人型号不断出现,整个系统的扩展成本极低,真正实现了"一劳永逸"式的可扩展性。

**六、合成数据集:专门为这项任务"定制"的训练素材**

好的系统需要好的训练数据,但现实中几乎不存在"不同机器人做完全相同动作"的配对视频。于是研究团队自己动手,用Unity游戏引擎构建了一套专用的合成数据集。

整个数据集的构建思路就像舞台剧导演拍摄同一剧本的多个版本:故事内容、场景布置、摄影角度全部相同,但每次换一个不同的演员出演。具体来说,团队从Humoto运动库中选取了超过700种人形运动序列,涵盖物体操作、环境交互、行走移动、日常全身活动等多个类别。然后,这些动作被"重新适配"到十款不同的人形资产上——其中包括五款人形机器人和五款数字人类角色。

重新适配的过程需要仔细处理骨骼对齐问题。团队在Blender软件中把所有角色的骨骼对齐到统一的拓扑结构,然后在Unity中完成动作重定向,建立跨形态之间的关节级别对应关系。这样,无论是人类角色还是机器人,"弯曲右臂"这个动作在所有角色身上都是同步发生的,保证了运动对齐的精度。

场景方面,团队从网络3D平台收集了100个多样化的场景,涵盖办公室、工厂、户外空间等环境。在每个场景中,场地布局、摄像机视角和动作序列完全固定,唯一变化的是角色的外形。最终,所有视频以1920×1080的分辨率、30帧每秒的帧率渲染,每段视频约包含300帧画面。

按照训练和测试的分工,团队将训练形体之间的配对样本组合,共形成了7200个跨100个场景的配对训练样本。为了真实评估泛化能力,有一款机器人(Unitree G1)被完整地从所有训练阶段中排除,只用于测试。测试集还包含训练阶段未出现的动作任务和场景配置,确保评估反映的是真正的泛化能力,而不是对训练数据的机械记忆。

**七、流式蒸馏:让速度从蜗牛变成猎豹**

即便系统的生成质量再好,如果速度太慢,实用价值也会大打折扣。常规的扩散模型生成视频需要经过50个去噪步骤,相当于每生成一帧画面都要来回打磨50遍,速度极慢。OmniHumanoid的双向生成器在这个框架下速度仅有0.10帧每秒——也就是说,生成10秒的视频大约需要100秒。

为了大幅提升效率,团队引入了**流式视频到视频蒸馏**技术。"蒸馏"这个概念可以这样理解:让一个经验丰富的老师(双向生成器)教一个学生(因果流式模型),学生不需要经历老师走过的所有学习弯路,直接学习老师的"精华判断"。

这个流式学生模型采用了**因果注意力结构**——简单来说,生成第N段视频时,只能看到第0到N-1段的内容,不能提前看到后面的内容。这就像一个即兴说书人,只能根据已经讲过的故事接着往下编,而不是把整本书读完再从头复述。这种结构允许视频以"自回归"的方式一段接一段地生成,大大节省了计算资源。

蒸馏过程分两步进行。第一步是在因果注意力掩码下,用标准的去噪分数匹配目标来初始化学生模型,让它具备基本的生成能力。第二步是"自强迫少步蒸馏"——让学生在自己的生成轨迹上继续优化,同时使用冻结的双向教师模型提供分布对齐指导(VSD损失),以及一个对抗性判别器来提升局部细节的清晰度(GAN损失)。整体训练目标是这三项损失的加权组合。

最终结果是,去噪步骤从50步压缩到仅需4步,推理速度从0.10帧每秒飙升到4.96帧每秒,整整提升了近50倍。在单张NVIDIA H200 GPU上,系统能以720p分辨率实时生成跨形态视频。代价是生成质量有所下降:PSNR(图像重建质量指标)从25.47分降至23.34分,运动一致性评分从9.06降至8.90,但形体一致性仍保持在8.09,整体质量依然远超其他基准方法。

**八、实验结果:和同类方法的全面比较**

为了检验OmniHumanoid的实际效果,研究团队在两个完全不同的测试场景下进行了评估。

第一个是**合成保留形体基准测试**,专门用来测试系统对完全陌生机器人的适应能力。测试对象是Unitree G1机器人——这款机器人从未在任何训练阶段出现过,系统对它完全陌生。由于是合成场景,测试集中存在真实的目标视频,可以直接计算像素级别的重建质量指标,包括PSNR(峰值信噪比,越高越好)、SSIM(结构相似性,越高越好)和MSE(均方误差,越低越好)。

第二个是**真实世界基准测试**,包含50段来自人类日常活动和网络机器人演示的真实视频,场景涵盖厨房、车库、实验室、剧院等多种室内环境。由于没有配对的真实目标视频,这个测试只能进行无参考评估,评估工具是Gemini 3 Flash视觉语言模型,它从运动一致性、形体一致性和背景一致性三个维度给出评分。

参与比较的方法包括:Runway的Gen-4(商业API,零样本评估)、快手的Kling O1和Kling O3(商业API,零样本评估)、万象的Wan2.1-VACE(开源,在合成数据集上微调)以及X-Humanoid(最接近的同类开源方法,同样在合成数据集上微调)。

在合成保留形体基准上,OmniHumanoid的PSNR达到25.47,远高于X-Humanoid的23.03和其他所有方法;SSIM为0.9039,MSE仅为0.0033,均是所有方法中最优的。在运动一致性上得分9.06,形体一致性8.43,背景一致性9.94,综合总分7.92,全面领先。在真实世界基准上,Kling O1以8.53的综合得分略高于OmniHumanoid的8.39,但OmniHumanoid在运动一致性(8.47对7.49)和形体一致性(8.56对8.46)上均优于Kling O1,只是背景一致性(9.95对9.91)和总体得分略有差距。

从用户研究来看,参与者对四个维度分别投票,OmniHumanoid的运动保真度获得了72.7%的偏好票,形体相似性获得65.7%,背景一致性获得62.6%,整体质量获得63.6%,全面优于排名第二的Kling O3(最高仅20.2%)和其他方法,人类评估与自动化指标呈现了高度一致的结论。

**九、研究的局限性与未来方向**

OmniHumanoid并非完美无缺。在少步蒸馏模式下(4步推理),生成视频在精细细节、时间平滑度和复杂动作保真度方面与50步教师模型相比仍有可见差距。本质上,这是推理速度和生成质量之间不可完全避免的权衡——4步内完成的近似,无法完美复现50步精雕细琢的结果。

研究团队坦承这一局限,并表示未来将探索更先进的知识蒸馏策略来缩小这一差距。这可能包括更优的蒸馏目标函数设计、更智能的步骤分配机制,或者直接在少步推理框架下重新设计生成流程。

归根结底,OmniHumanoid做到了一件在机器人视频生成领域前所未有的事:它把"动作是什么"和"谁在做动作"这两个问题彻底分开来回答,使得任何一款新机器人只需要少量未配对的视频素材,就能接入这套已经积累了丰富动作知识的系统。这不仅仅是一个技术上的改进,更是一种思路上的转变——从"为每款机器人重新造轮子"变成了"给每款机器人换一套轮毂",共享的底盘和发动机始终不需要更换。

随着人形机器人行业快速发展,各种形态各异的机器人正在以越来越快的速度涌现。OmniHumanoid这套框架提供的可扩展路径,或许会成为未来机器人学习"看人做事"的重要基础设施之一。想深入了解其中细节的读者,可以通过arXiv编号2605.12038查阅完整论文。

Q&A

Q1:OmniHumanoid需要为每款新机器人准备配对视频数据吗?

A:不需要。OmniHumanoid的核心优势之一就是"无配对适应"——对于一款全新机器人,只需要提供一批这款机器人的普通视频(不需要与任何其他机器人的动作配对),系统就能训练出对应的形体插件(LoRA模块),让这款新机器人融入整个框架。共享的运动模型完全不需要重新训练,大幅降低了扩展成本。

Q2:OmniHumanoid的流式生成速度有多快,对硬件有什么要求?

A:经过流式蒸馏处理后,OmniHumanoid将推理步骤从50步压缩到4步,生成速度从原来的0.10帧每秒提升至4.96帧每秒,提升了近50倍。在单张NVIDIA H200 GPU上,系统能以720p分辨率实时生成跨形态视频。但该方案目前依赖高端GPU,对普通消费级硬件的适配性尚未在论文中详细讨论。

Q3:OmniHumanoid的单向信息流设计去掉后效果会差多少?

A:差距非常明显。消融实验显示,去掉单向信息流设计(即让动作分支和形体分支互相影响)后,形体一致性评分从8.43骤降到2.53,运动一致性评分也从9.06跌至6.35。这说明两个分支之间的信息互相干扰是导致生成质量崩溃的核心原因,单向设计是整个框架中最关键的技术贡献之一。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。