当前位置: 首页 » 资讯 » 科技头条 » 正文

告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%

IP属地 中国·北京 机器之心Pro 时间:2025-12-10 16:22:41



费森俞,上海创智学院 & 同济大学博士一年级学生,导师赵宪忠教授,研究方向为 VLA 强化学习后训练。王思尹,上海创智学院 & 复旦大学博士二年级学生,导师邱锡鹏教授,研究方向为多模态具身智能。为本文共同第一作者。

龚经经,上海创智学院全时导师。邱锡鹏,复旦大学教授,上海创智学院全时导师。为本文共同通讯作者。

你是否想过,机器人也能像人一样,从失败中学习,不断自我提升

当前,视觉语言动作(VLA)模型在机器人操作任务中表现出色,但其性能严重依赖专家示范数据,不仅成本高昂,还存在「示范偏差」,性能难以突破人类上限。而强化学习虽好,却常因「奖励稀疏」问题,让机器人无法从失败中真正受益。





论文链接:https://arxiv.org/pdf/2511.15605代码仓库:https://github.com/sii-research/siiRL技术文档:https://siirl.readthedocs.io/en/latest/examples/embodied_srpo_example.html

动机与贡献

近期研究表明,强化学习作为一种有效的后训练策略,能显著提升 VLA 模型在分布内与分布外的性能。在强化学习方法中,基于组优化的方法(如 GRPO)因其简洁高效的学习范式,已成为 VLA-RL 的重要技术路径,但其仍面临奖励信号稀疏的挑战。该问题在 VLA 领域尤为突出:多轮轨迹推理的计算成本极高,对失败轨迹信息的低效利用严重降低了训练效率。虽有研究尝试通过过程监督提供密集反馈,但这些方法通常依赖专家示范或人工任务分解来定义中间进展,其固有的扩展性局限与自主学习目标存在根本矛盾。



图 1:GRPO 等方法仅依赖稀疏的结果奖励,学习信号有限;手动设计的过程奖励(PRM)需要成本高昂的外部示范或任务微调;而 SRPO 框架提出了自参考范式,有效利用失败轨迹。

为应对奖励稀疏挑战,我们提出自我参考学习范式,以模型自身生成的成功轨迹作为参照标准,评估并引导失败尝试。与 GRPO 仅利用结果性奖励进行优势估计不同,我们的方法能更高效地利用完整轨迹批,这一范式将监督问题的核心从「如何获取专家标签」转变为「如何从自身成功经验中提取渐进式奖励」。

该范式的核心挑战在于如何量化成功与失败轨迹之间的行为相似性,以评估任务完成进度。传统像素级世界模型存在跨领域泛化能力不足或需要大量任务特定微调的问题,我们发现潜在世界表征天然捕捉了跨环境可迁移的行为进展模式,使得无需精确环境重建或领域特定训练即可实现鲁棒的轨迹比较。

基于以上洞察,我们提出自参考策略优化(SRPO),贡献主要包括以下三方面:

1. 提出 SRPO 框架,通过利用模型生成的成功轨迹为失败尝试提供渐进式奖励,缓解奖励稀疏性问题,消除对专家示范或任务特定工程的依赖。

2. 提出基于潜在世界表征的渐进式奖励方法,克服传统像素级世界模型的泛化局限与领域特定训练需求。

3. 实验结果表明,我们的方法在 LIBERO 基准测试中达到 SOTA 性能,在 LIBERO-Plus 上展现出强大泛化能力,并验证了奖励建模的真机可迁移性。

技术方案

如图 2 所示,SRPO 通过一种「向成功者学习」的直观方式,帮助机器人智能体在复杂任务中更有效地学习。该方案主要包含如下核心环节:



图 2: 策略推理过程产生的轨迹被收集到动态参考集中,行为相似性被建模为潜在世界空间中的轨迹距离,以此算出的渐进式奖励在 KL 正则化的约束下用于优势估计和策略优化。

1. 同策略轨迹收集:每次策略更新后,模型将推理时产生的所有轨迹数据存入动态参考集,并根据任务完成情况划分为「成功」与「失败」两组。

2. 世界表征提取与聚类:SRPO 将参考集中的每条轨迹都编码到世界模型的潜在表征空间中,该表征可以理解为对整个任务过程的浓缩概括,包含物理世界的本质规律。值得注意的是,这种表征完全基于对原始观测的直接建模,不依赖于人类发明的「语言」或「符号」作为中介。

3. 渐进式奖励及策略更新:对于参考集中的成功轨迹,SRPO 计算其表征聚类中心作为典型成功范式,通过计算每条失败轨迹到最近典型成功表征的距离来作为进度度量,距离越大说明与成功越远,即进度越低,通过批次归一化将距离变为 0 到 1 之间的连续渐进式奖励,进而使用 PPO 式的目标函数更新策略。

问题建模





世界进展奖励模型







自参考策略优化



优化目标:采用 PPO 风格的裁剪目标函数,并添加 KL 散度正则项以保持策略稳定性:





实验结果

仅用 200 步强化学习,成功率从 48.9% 飙升至 99.2%

表 1 表明,SRPO 仅凭第三视角图像与语言指令,不仅优于依赖 0/1 奖励的 SimpleVLA-RL、RLinf 等强化学习基线,也超越了需要人工设计阶段奖励的 TGRPO 等方案,超越多个依赖腕部视角、本体感知、3D 输入的复杂模型,突显 SRPO 在信息利用上的高效性。



表 1: SRPO 仅通过第三视角观测,在 LIBERO 上取得了 SOTA 性能。策略输入符号说明:T (第三视角),I (语言指令),P (本体数据),W (腕部视角),D (深度)。

泛化能力实测:一举超越 15w 步监督学习基线

表 2 表明,在更具挑战的 LIBERO-Plus 泛化测试中,SRPO 带来的性能提升高达 167%。即便未使用任何泛化场景数据进行训练,仅通过 SRPO 自身的探索学习,泛化性能仍然超越 SFT 模型。



表 2: SRPO 在 LIBERO-Plus 泛化性测试基准上的表现显著优于其基线。

奖励信号:物理世界的「内行视角」

图 3 中,我们以「将马克杯放进微波炉并关门」(两阶段时序任务,仿真环境)和收拾桌面(五个重复性「抓取 - 放置」任务,真实环境)两个典型任务为例,展示 SRPO 在奖励构建上的优势:相较于易受视觉干扰,无法反映真实进度的像素级方法,或缺乏物理规律理解,奖励波动剧烈的通用视觉模型,我们的奖励曲线平滑、单调,符合物理世界进展规律



图 3: 仿真环境 (a-c) 和真实环境 (d-f) 中渐进式奖励对比图。

效率优势显著

效率方面,在图 4 中,对于 LIBERO 长时序任务,初始模型 One-shot SFT 成功率仅 17.3%,SRPO 仅用 219 步即提升至 98.6%,相比同期 GRPO,性能提升 15.3%,相较 150k 步的 full-shot SFT 模型性能提升 12.9%。



图 4: SRPO 与 GRPO 的训练效率比较。

奖励建模真机实测





图 5: 相较于 SFT 基线,SRPO 奖励构建方法在真实世界任务上成功率有显著提升。

激发创造性:让机器人学会「自主寻路」

此外,我们发现 SRPO 训练后,模型能够自主探索出多种专家轨迹中不存在的新路径与抓取姿态,如图 6 所示。说明 SRPO 不仅能提升成功率,更能激发机器人超越示范、自主探索新的解决策略。



图 6: 模型推理过程中末端执行器轨迹记录图。



我们发现,SRPO 是其零成本的代替方案,是一个「免费的午餐」





结语

告别昂贵的数据标注和复杂的奖励设计,SRPO 仅凭模型自身的成功经验与物理世界常识,即可实现性能跃迁。无需训练价值模型,无需人工奖励工程,无需密集专家示范,SRPO 实现了让机器人从「模仿」走向「创造」,从「依赖」走向「自主」,为 VLA 强化学习开辟了一条充满希望的新路径。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新