当前位置: 首页 » 资讯 » 科技头条 » 正文

西湖大学等机构联合研究:机器人学得好是靠"遗传好基因"

IP属地 中国·北京 科技行者 时间:2026-05-16 16:27:40


这项由西湖大学、浙江大学、清华大学、香港科技大学(广州)以及北京智源人工智能研究院联合开展的研究,于2026年5月发表在预印本平台arXiv上,论文编号为arXiv:2605.10903。感兴趣的读者可以通过这个编号检索到完整原文。

机器人在当今社会越来越常见,从工厂流水线到医院手术室,再到家庭服务,人们对机器人的期待也越来越高。但有一个令研究者头疼的问题长期悬而未决:那些经过大规模训练的"聪明"机器人,在面对新的具体任务时,往往表现得令人失望——它们不仅学得慢,有时甚至不如从零开始训练的专用机器人。

这就好比培养了一个博览群书、见多识广的通才,结果他去应聘一份专业工作时,却比一个只专注学这一门手艺的学徒表现还差。这种反常现象背后的根源,以及如何系统性地解决它,正是这篇论文所要探讨的核心问题。

研究团队提出了一种名为"能力向量"(CapVector)的全新方法,其核心思想可以用一句话概括:与其让机器人每次训练新任务时都从头开始积累能力,不如事先把那些宝贵的通用能力"刻进"机器人的基因里,让它天生就具备这些本领。代码、模型权重以及演示网站均已公开,研究成果向整个社区开放使用。

一、机器人学习面临的真正困境

要理解这项研究的意义,需要先弄清楚现代机器人是怎么被"教会"干活的。

目前最先进的机器人系统通常叫做"视觉-语言-动作模型"(VLA),这类模型可以理解图像、听懂语言指令,并将两者结合起来控制机器人的肢体动作。训练这样一个模型,需要两个阶段:第一个阶段叫"预训练",耗费大量计算资源和时间,用海量的机器人操作数据训练模型建立基础认知;第二个阶段叫"微调",用少量针对特定任务的演示数据,让模型学会完成具体工作,比如抓取某种零件、摆放某类物品。

正常的逻辑是:预训练打好地基,微调只需在上面盖房子,应该既快又好。然而现实往往令人沮丧。大量研究发现,仅仅收集少量演示数据、进行标准的微调(学术上叫"监督微调",SFT),通常不足以让模型在复杂任务上快速达到优秀水平,甚至有时候不如专门为该任务从头训练的模型。

为了突破这个瓶颈,研究界提出了一类"带辅助目标的微调"方法。这类方法的思路是:在训练机器人完成具体任务的同时,额外给它布置一些"辅助作业",比如要求它同时学会理解三维空间结构,或者锻炼它的多模态推理能力。这就像是给一个学徒除了教他干活,还同时让他练视力、练逻辑思维。实验证明,这类方法确实有效:模型不仅任务完成得更好,还学得更快,需要的训练轮次大幅减少。

但问题随之而来。这些辅助训练需要额外的计算量,有时多出将近三成的计算开销和接近两成的显存占用。随着任务数量增加和数据规模扩大,这种额外负担会越来越难以承受。于是,研究团队提出了一个关键问题:有没有办法把辅助训练带来的好处"预先储存"起来,让模型在进行普通微调时天然就能享受到这些好处,而不必每次都付出额外代价?

二、从"数学减法"中提炼出能力的精华

研究团队的核心洞察来自一个简洁的数学直觉。

任何一个模型,都可以用一组数字来完整描述——这组数字称为"参数",可以理解成模型的"神经网络权重",是它记忆知识和技能的载体。当模型从"原始状态"经过训练变成"训练后状态",参数会发生变化。这个变化量,就像是训练过程在模型身上留下的"痕迹"。

研究团队的关键假设是:当一个模型经过"带辅助目标的微调"之后,它参数的变化可以被分成两部分——一部分是专门用来学习当前具体任务的变化,另一部分是辅助目标带来的通用能力提升。这两部分可以被区分开来,彼此独立。

验证这个假设的方法出乎意料地简单。对同样一组训练数据,用两种方式分别训练同一个预训练模型:一种是普通微调,一种是带辅助目标的微调。两种方式训练出来的模型,在学习具体任务动作方面的变化应该基本相同(因为任务数据一样);而两者参数之间的差异,就主要代表辅助目标带来的那部分通用能力提升。

把这个差异单独提取出来,就得到了"能力向量"(CapVector)。用数学语言来说,如果用字母θ_ft代表普通微调后的模型参数,θ_ao代表带辅助目标微调后的模型参数,那么能力向量γ_ao就等于θ_ao减去θ_ft。

提取出能力向量之后,把它加回到原始的预训练模型参数上,就得到了一个"能力增强版的元模型"(meta model)。这个元模型既没有经过任何具体任务的专门训练,却天然地携带了辅助训练所赋予的通用能力。此后,用这个元模型作为起点,只需进行普通的标准微调,就能享受到原本需要辅助训练才能得到的效果。

为了直观理解,可以将其类比为基因工程:研究人员首先在一小批实验个体身上实施了一套复杂的强化训练,提取出这套训练赋予个体的遗传改善;然后把这份遗传改善直接"写入"所有后代的基因,让后代们天生就具备这种优势,无需重复经历昂贵的强化训练过程。

三、给元模型打上"防遗忘补丁"

仅仅把能力向量合并进预训练模型还不够。问题在于:当模型此后用普通微调学习新任务时,训练过程会调整模型参数,而这种调整可能会把之前注入的通用能力给"覆盖"掉,导致能力退化。

这就像是你花了大力气学会了一项才艺,但随后为了学习另一门完全不同的技能,旧的才艺慢慢生疏遗忘了。

为了防止这种遗忘,研究团队引入了一个轻量级的"正交正则化损失"。听起来很复杂,核心思想其实很朴素:在训练新任务时,要求参数的更新方向尽量与已经注入的能力向量保持"垂直"——在数学上叫做正交。垂直意味着两个方向相互独立、互不干扰,就像东西方向的行走不会影响南北方向的进展。这样,学习新任务的参数变化就不会冲刷掉能力向量所携带的通用能力。

最终的训练损失由两部分组成:一部分是完成具体任务动作所需的标准损失,另一部分就是这个新加入的正交损失,通过一个权重系数λ来调节两者的比重。实验表明,λ取1e-4(也就是万分之一)时效果最佳。

在使用LoRA这类参数高效微调技术时(LoRA是一种只训练少量参数的轻量化方法,适合显存有限的场景),正交损失只需计算LoRA矩阵中的A矩阵,因为A矩阵代表参数更新的方向,B矩阵只是对方向的线性加权系数,不影响方向的独立性。

这个正交损失引入的额外计算代价可以忽略不计:实测仅增加约0.3亿次浮点运算(相比基础训练的17.9万亿次,增幅不足0.002%),显存额外占用约0.5GB(相比基础62.8GB,增幅不足0.8%)。相比之下,辅助训练方法本身需要额外增加5万亿次浮点运算(增幅约28%)和10.9GB显存(增幅约17%)。两者的开销差距相当悬殊。

四、在仿真实验室里验证:既快又好

研究团队在两个标准的机器人仿真测试平台上进行了大量实验。

第一个平台是LIBERO,这是机器人学习领域广泛使用的基准测试,包含四类任务套件:涉及空间位置关系的Spatial任务、涉及物体识别的Object任务、涉及目标导向的Goal任务,以及涉及长序列操作的Long任务,每类10个具体任务,共40个任务。第二个平台是RoboTwin 2.0,这是一个专注于双臂协作操作的测试平台,包含各类精细操作任务,如翻转开关、传递物品、摆放鞋子等。

实验中选用了三种代表性的预训练VLA模型作为基础:OpenVLA-OFT(一种基于自回归架构的模型)、StarVLA(一种采用流匹配架构的模型)和π0.5(另一种流匹配架构的先进模型)。辅助训练方法则选用了两种:Spatial Forcing(通过对齐视觉特征与三维几何表示来增强空间感知能力)和LaRA-VLA(通过隐式链式思维推理来增强长程规划能力)。

在LIBERO平台上,以OpenVLA-OFT为基础、Spatial Forcing为辅助训练方法的实验最为详细。结果呈现出一幅清晰的图景:在仅训练5000步这种极少训练量的情况下,普通微调的平均成功率为82.1%,而辅助训练的Spatial Forcing达到87.5%,CapVector方法(使用元模型加正交损失的普通微调)则达到91.7%,明显超越了两者。训练一个完整轮次(1 Epoch)后,差距继续保持:普通微调90.9%,Spatial Forcing 95.2%,CapVector 96.5%。在训练150000步(即充分训练)的情况下,普通微调92.7%,Spatial Forcing 96.9%,CapVector 97.1%,仍然保持最优。

特别值得关注的是正交损失的作用。如果只使用元模型进行普通微调而不加正交损失,在训练步骤少的时候(5k步、1 epoch、8 epochs)还能持续优于Spatial Forcing;但到了150k步这种充分训练的阶段,成绩下滑到96.2%,低于Spatial Forcing的96.9%。这说明在长时间训练的情况下,已注入的能力确实会被覆盖磨损,而正交损失能有效阻止这种退化,使最终成绩保持在最优水平。

在StarVLA模型上,将LaRA-VLA的辅助训练能力向量注入后,CapVector在LIBERO四个任务套件上的平均成功率为97.1%,优于StarVLA基础微调的94.5%,接近LaRA-VLA辅助训练的97.9%。这说明CapVector不仅适用于空间感知类能力,对于多模态推理类能力同样有效。对于π0.5这种双组件架构的模型(包含视觉语言主干和动作执行头两个部分),实验还分别测试了只合并视觉语言主干参数、以及同时合并视觉语言主干和动作执行头参数两种方案,结果显示两者都优于基础微调,而同时合并两部分参数的效果略好。

五、跨越领域边界:能力可以"空运"到陌生地方

一个自然而然的疑问是:能力向量是否具有普适性?它是不是只在提取它的那类任务上有效,换了一个完全不同的场景就失灵了?

研究团队专门设计了跨领域迁移实验。具体做法是:用LIBERO的数据提取能力向量(能力提取阶段),然后把这个能力向量注入预训练模型,再用完全不同的RoboTwin 2.0平台的数据进行微调(下游任务阶段),两个平台的视觉风格、物体类型、操作内容均有较大差异。

结果相当有说服力。以OpenVLA-OFT为基础,在RoboTwin 2.0的10个任务上,普通微调的平均成功率仅有6.7%;Spatial Forcing辅助训练(即原本需要昂贵计算代价的方案)达到33.1%;而使用从LIBERO-Spatial提取的能力向量构建元模型、再进行普通微调的CapVector,达到了31.8%,几乎与Spatial Forcing持平,同时比普通微调高出接近五倍。

反方向的实验同样成立:用RoboTwin 2.0的任务数据提取能力向量,注入到模型后,在LIBERO-Long(长序列任务)上进行微调,成功率同样有明显提升。

这个结果从根本上回答了"能力向量是否任务无关"这个问题——答案是肯定的。能力向量所携带的是抽象层面的通用感知能力(比如对空间几何关系的理解、对多模态信息的整合推理),而不是针对特定任务场景的专用知识,因此它能跨越具体任务和数据分布的边界,在陌生的新场景中依然发挥作用。

六、并非所有训练数据都能提炼出好的能力向量

研究团队没有止步于验证CapVector有效,还进一步探究了什么样的数据条件才能提炼出高质量的能力向量。这部分研究揭示了两个值得深思的规律。

第一个规律:数据多样性越高,提炼出的能力向量质量越高。研究团队对比了RoboTwin 2.0平台中两类不同背景配置的任务数据:一类是背景固定、场景单一的干净背景数据;另一类是背景随机化、每个任务会随机呈现多达一万种不同视觉环境的随机背景数据。在数据量和任务数量相同的前提下,使用随机背景数据提炼出的能力向量,在跨领域迁移到LIBERO-Long后,成功率明显高于干净背景数据提炼的版本。

这背后的原因在于:当模型在面对海量不同的视觉背景时,它被迫学会了更本质、更抽象的空间关系,而不是依赖特定的背景纹理或色彩。这种更深层的视觉理解随后被凝结进能力向量,迁移到新环境时自然更有适应力。用烹饪来类比:用来自多个国家、多种烹饪风格提炼出的调味精华,比只从单一菜系中提炼的精华更能适应各种口味。

第二个规律:任务场景之间差异过大,反而会导致能力向量质量下滑。研究团队在LIBERO平台上对比了三类训练集:LIBERO-Spatial(10个任务,1种背景),LIBERO-Long(10个任务,3种背景),LIBERO-90(90个任务,3种背景)。尽管LIBERO-90包含了最多任务,直觉上应该提供最丰富的信息,但实验结果却相反:从LIBERO-90提炼的能力向量迁移到RoboTwin 2.0后成功率最低,甚至接近没有使用能力向量的基线水平。

研究团队将这一现象归因于"捷径学习":当90个任务中的背景和物体高度多样、差异显著时,模型在辅助训练过程中会被这些高方差的视觉特征所主导,优先学习这些表面差异,而不是更深层的空间感知本质。打个比方:如果你给一个学生90道题,但每道题的场景和表述都大相径庭,他可能花大量精力应对表面差异,而没能建立起深层的解题方法论。换句话说,更多的任务数量如果带来了更高的任务间异质性,反而可能干扰核心能力的提炼。因此,用于提取能力向量的任务数据应当具有丰富的内部多样性(比如丰富的背景随机化),而不应当由差异极大的不同任务硬拼在一起。

七、走出仿真室:在真实机器人上的实际验证

仿真实验再精彩,也只是数字游戏,机器人研究最终必须回归真实世界。研究团队在工业场景中的真实机器人平台上进行了验证,采用的是UR3工业机器人,设计了模拟工厂生产场景的一系列任务,包括将钢质套管移到托盘、将金属零件叠放到夹具台、从工具架拾取气动夹爪等。每个任务收集100组演示数据,模型在全部任务上联合训练,评估时每个任务运行100次来统计成功率。

能力向量完全来自仿真环境(LIBERO-Spatial的数据),但被直接应用于真实机器人训练——这是典型的"仿真到现实"迁移场景,也是机器人领域最难跨越的鸿沟之一。

结果令人鼓舞。在所有任务上,使用CapVector方法的成功率都优于对应的基础模型,部分任务上甚至超过了Spatial Forcing辅助训练的成绩。以π0.5为基础的实验中,"拾取夹爪"任务的成功率从0.10(10%)提升到了0.32(32%);以OpenVLA-OFT为基础的实验中,"将钢质套管移到托盘"任务从0.24(24%)提升到了0.38(38%)。这说明从仿真数据中提炼的空间感知能力向量所捕获的是基本的几何规律,而不是仿真场景特有的视觉细节,因此能够跨越仿真与现实的鸿沟,在真实物理世界中继续发挥作用。

更进一步,研究团队将相同的能力向量权重分享给两组外部合作团队,让他们在各自实验室中用两种完全不同的机器人硬件平台上进行测试:ARX Lift 2是一种六自由度双臂机器人,AgileX Cobot是另一种六自由度双臂遥操作系统,两者的机械结构、传感器配置和运动特性均不相同。外部团队分别在这两种平台上用能力向量增强的元模型进行自己的微调和评估。

设计的四类任务涵盖了复杂的长序列操作:将右侧试管架上的试管依次转移到左侧试管架(需要连续精确操作4根试管)、打开工具箱找到扳手、移动电源排插并按下其按钮、擦拭盘子后将其摆放到指定位置。

在四项任务上,CapVector方法均优于对应的基础π0.5模型。特别是试管转移任务——这是四项中最考验长序列精确操作能力的任务,失败一步则全盘失败——基础模型成功率为36%,CapVector提升到53%,提升幅度接近一半。这表明能力向量的有效性不依赖于特定的机器人硬件,具备真实的跨机型迁移能力。

归根结底,这项研究的意义在于,它提供了一种看待机器人训练的新角度:预训练模型不应该是一个白板,而应该是一个被精心优化过"基础体质"的出发点。通过一次性地在小规模数据上提取能力向量、合并到预训练参数中,就能让后续所有的标准微调过程都站在更高的起点上——不需要每次都付出昂贵的辅助训练代价,也不需要修改任何训练流程,只需提供一个更好的初始化起点。

这种思路对机器人技术的普及有着具体的现实意义。目前,部署和微调先进机器人模型需要大量的计算资源,这是许多中小型工厂、医院、科研机构难以承担的门槛。如果能够降低微调所需的计算代价,同时保证甚至提升微调效果,这些场景就能以更低的成本享受到先进机器人技术带来的便利。此外,能力向量可以像软件包一样分享——研究团队已经把训练好的能力向量公开发布,任何使用相同基础模型的用户都可以直接下载使用,无需自己进行昂贵的辅助训练,直接获得提升。

当然,这项研究也坦承了一个明显的边界:目前的工作仅覆盖了监督微调这一训练范式,如何在强化学习训练过程中提取和迁移能力向量,还有待未来研究探索。这是一片尚未开垦的领地,也是这条研究路线最值得期待的延伸方向。有兴趣深入研究的读者可以通过arXiv:2605.10903检索完整论文,以及通过论文中公布的GitHub仓库获取代码和模型权重。

Q&A

Q1:CapVector方法需要重新训练预训练模型本身吗?

A:不需要重新训练预训练模型。CapVector的做法是:先用少量任务数据分别进行普通微调和辅助目标微调,提取两者参数之差作为能力向量,再通过简单的加法将能力向量合并进预训练模型,得到一个增强版的元模型。整个过程不改动原始预训练模型,计算代价远小于辅助训练方法本身。

Q2:能力向量是否只对特定型号的机器人有效?

A:实验结果表明,能力向量具有跨机型迁移能力。研究团队将相同的能力向量分享给外部合作团队,在ARX Lift 2和AgileX Cobot两种结构和传感器配置完全不同的双臂机器人上均取得了优于基础模型的成绩,部分任务成功率提升幅度接近50%,说明能力向量捕获的是机型无关的通用感知能力。

Q3:提取能力向量时,使用什么样的数据效果最好?

A:实验发现,数据内部多样性高的场景(比如背景随机化丰富)有助于提炼出高质量的能力向量;而由差异极大的不同任务硬拼在一起的数据集,反而会导致模型在训练中偷学表面特征、产生捷径学习,使能力向量质量下降。因此,提取能力向量应优先选用任务相对聚焦、但场景多样性丰富(如背景、物体随机化程度高)的数据集。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。