当前位置: 首页 » 资讯 » 科技头条 » 正文

在「想象」中练就真机能力:RISE,让VLA强化学习告别真机试错

IP属地 中国·北京 机器之心Pro 时间:2026-03-18 12:31:28



在具身智能的发展路径中,视觉 - 语言 - 动作(VLA)模型正逐步成为通用操作任务的核心框架。但当任务进入长程规划、柔性物体操作、精细双臂协同、动态交互等复杂场景时,VLA 仍然面临两个根本性挑战:

1. 模仿学习在推理中的长序列误差累积;

2. 真机强化学习成本过高,难以规模化。

香港大学李弘扬老师带领的 OpenDriveLab 团队近期提出的(RISE(χ0-RL))(Reinforcement learning via Imagination for SElf-improving robots),给出的核心答案是:

通过构建组合式、多视角世界模型,让机器人在想象的虚拟空间中完成强化学习,无需大规模真机交互,却能让长程任务性能实现跨越式提升,部分任务成功率较 SOTA 基线涨幅超 45%。







目前,该研究的论文已正式发布,项目主页、论文与 arXiv 链接均已开放,代码也预计于三月内完成开源。



项目主页:https://opendrivelab.com/kai0-rl/论文链接:https://arxiv.org/pdf/2602.11075arXiv 链接: https://arxiv.org/abs/2602.11075团队官网:https://opendrivelab.com/

传统 VLA 落地的三重枷锁:

偏差难纠,试错昂贵

VLA 模型的落地难题,本质上源于模仿学习的先天缺陷与真机强化学习的现实壁垒,而现有世界模型的技术短板,更是让虚实结合的尝试难以落地,三重枷锁层层制约,让 VLA 在长程复杂任务中难以施展。

第一,模仿学习的暴露偏差

当前主流 VLA 依赖专家演示数据训练,只学习「成功路径」。

问题在于:

从未见过失败状态不会恢复长程任务中误差逐步放大

这使得模型在真实执行中一旦偏离专家轨迹,几乎无法自我修正。

第二,真机 RL 的三重现实难题

理论上,强化学习可以解决暴露偏差问题,但在真实世界中存在三大约束:

样本效率低:需要海量的交互数据支撑,动辄数百万次的尝试让训练周期无限拉长;安全风险高:探索性的操作极易造成机器人硬件磨损、损坏,带来直接的经济损失;重置成本高:现实世界缺乏模拟器的自动重置机制,一次失败后的环境恢复需要大量人工介入,效率极低。

第三,现有世界模型的能力短板

为弥合虚实差距,学界曾尝试用生成式世界模型模拟物理环境,但这类模型往往难以同时兼顾动作可控性和长程一致性

无法精准跟随动作指令在长序列视频预测中出现画面失真违背物理规律

因此,仅靠世界模型根本无法作为强化学习的有效训练环境。



RISE 框架概览:(a) 传统物理世界强化学习受限于硬件和重置成本;(b) 在组合式世界模型中进行在线学习;(c) 在真机任务上的显著提升。

RISE 破局:

组合式世界模型 + 想象空间自进化循环

RISE 的核心创新,在于将物理环境的交互完全迁移到组合式世界模型构建的想象空间中,通过虚实解耦的设计,既解决了世界模型的高保真模拟问题,又构建了高效的策略自进化闭环,让机器人在虚拟空间中完成试错 - 学习 - 优化的全流程。

组合式世界模型:

解耦设计,兼顾模拟精度与评估能力

与传统单一世界模型不同,RISE 将世界模型解耦为可控动力学模型进度价值模型两个独立优化的模块,各司其职,实现了高保真的物理模拟与精准的轨迹价值评估。两个模块均采用了成功和失败(例如,基础 VLA 模型在推理过程中的失败数据)的任务数据进行训练,防止了模型的过拟合以及高度自信。

1. 可控动力学模型(模拟器):通过Task-Centric Batching(任务中心化批处理)策略,微调时每个 batch 集中采样少数特定任务的多种动作变体,有效过滤无关背景噪声,专注于动作指令的跟随。这让虚拟模拟的动作与真实操作高度对齐,解决了「手不跟脑」的问题;

2. 进度价值模型(裁判员):融合进度估计时序差分学习(TD Learning),前者为长程任务提供密集的奖励信号,让模型清晰感知每一步操作的任务推进度;后者则增强了模型对细微失败(如抓取滑落、位置偏移)的敏感性,确保在长序列操作中能精准评估「这步走得对不对」。



想象空间自进化循环:

三步实现无真机的策略迭代

在组合式世界模型构建的高保真思维沙盒中,RISE 设计了完全在想象空间运行的在线强化学习闭环,无需任何真机交互,就能实现策略的高效迭代,整个过程分为三步:

1. 第一步 Rollout 阶段

VLA 策略与动力学模型交互,根据当前状态生成未来的视频预测序列,模拟不同动作带来的环境反馈;

2. 第二步 评估阶段

进度价值模型对所有想象出的轨迹进行评分,计算优势函数(Advantage),区分高价值(成功)和低价值(失败)的动作路径;

3. 第三步 训练阶段

利用高低价值的想象数据,通过流匹配目标更新 VLA 策略,让模型持续强化成功路径、规避失败路径,实现自我进化。



RISE 架构解析:

虚实解耦,让想象贴合真实物理规律

RISE 的架构设计,本质上是通过解耦和对齐,让虚拟的想象空间无限贴近真实物理世界,为策略优化提供稳定、可靠的训练环境,其核心逻辑可总结为模型解耦建沙盒,轨迹迭代优策略。

组合式世界模型的解耦设计,从根源上解决了传统世界模型模拟与评估不可兼得的问题:可控动力学模型负责打造高保真的物理模拟沙盒,确保动作与视觉反馈的一致性、长程性;进度价值模型则充当精准的裁判,让模型能在复杂的长程任务中清晰判断每一步操作的价值。

而想象空间的自进化闭环,则让强化学习的试错完全脱离真机:同一初始状态下,模型会生成多种不同的动作轨迹,通过自我博弈完成策略优化,这种方式既避免了真机试错的成本与风险,又让模型学会了从失败中恢复的能力 —— 这正是传统模仿学习所不具备的核心能力。

此外,RISE 的设计还充分考虑了离线数据的分布限制,通过同时利用在线动作和在线状态,让模型能接触到更多未知状态的高价值动作,为后续的真实环境泛化打下基础。

实测见真章:性能飙升、

泛化抗扰,想象训练练就真机硬实力

研究团队在三大极具挑战性的真机长程任务中对 RISE 进行了系统评估:动态积木分拣(动态物体操作)、背包装袋(柔性物体操作)、纸盒闭合(精细双臂协同),从性能、组件必要性、泛化抗扰能力、生成质量四个维度,验证了方法的有效性,各项结果均展现出显著优势。

性能飙升:长程任务成功率大幅超越 SOTA



相较于 π₀.₅、RECAP、DSRL 等 SOTA 基线,RISE 在所有任务中均实现了成功率的跨越式提升,尤其在柔性物体和精细操作任务中表现亮眼:

动态积木分拣:成功率从 RECAP 的 50% 提升至 85%,涨幅 35%;背包装袋:成功率从 30% 提升至 85%,涨幅 45%,攻克了柔性物体操作的难点;纸盒闭合:成功率高达 95%,完美解决精细双臂协同的精度问题。

组件验证:每一环设计都是性能关键





消融实验充分证明了 RISE 各模块设计的必要性,任何一个组件的缺失,都会导致性能的显著下降:

去除Task-Centric Batching,动力学模型的动作控制能力大幅下降,任务完成率直接下跌;去除TD Learning,价值模型无法敏锐捕捉细微失败状态,策略优化失去方向;脱离在线动作 + 在线状态,模型难以突破离线数据的分布限制,泛化能力大幅降低。

泛化抗扰:不再「死记硬背」

RISE 训练出的策略不再是机械模仿专家,而是具备了「从失败中恢复」的真实智能:

抗干扰:面对人为干扰带来的意外状态(如物体被推离原位、抓取滑落),模型能主动调整动作,从失败中恢复并完成任务;

位置泛化:即使被操纵物体的摆放位置发生变化(如折叠衣服、书包的位置偏移),模型仍能精准完成操作,无需重新训练。

生成质量:物理规律的高保真复刻

在模型生成质量的定量与定性评估中,RISE 的动力学模型表现远超 Genie Envisioner、Cosmos 等基线模型:

定量指标:在FVD(Fréchet 视频距离)EPE(动作误差)上均实现最优,视频生成精度和动作跟随能力更优;



定性结果:能生成清晰、符合物理规律的多视角未来帧,无模糊、物体瞬移、动作不一致等问题,且在 Bridge、Galaxea、Agibot World 等大规模数据集上均保持优异表现。



所提出的 dynamics model 能够合成连贯的多视角视频滚动,并具有高视觉保真度,为强化学习奠定了坚实的基础。每个视频片段均按从上到下的顺序排列



模型能够生成清晰且符合物理规律的未来帧,而基线模型常出现模糊或物体瞬移等物理不一致现象

启示与展望:

从物理试错到思维进化,具身智能的范式跃迁

RISE 的价值,不止于一项技术的突破 —— 它正在重新定义智能体理解世界的方式,正在从物理世界的被动适应 转向想象空间的主动进化。

这套框架的核心洞见,是对学习本质的一次深刻重估:面对高动态、富接触、高精度的长程复杂任务,通过构建高保真的组合式世界模型,将昂贵、高风险的物理交互成本,转化为可扩展的计算成本,让机器人在思维沙盒中完成数万次的自我博弈与迭代,远比低效的真机训练更高效。而这种在想象中学会从失败中恢复的能力,正是 VLA 模型从实验室演示走向真实世界落地的关键。

从隐向量世界模型到 RISE 的组合式多视角、像素级世界模型,RISE 完成了一次底层范式的跃迁:想象训练正在成为具身智能发展的核心方向。

未来的图景正在变得清晰:当世界模型的精度逼近物理现实的边界,当千万种任务的执行策略可以在想象中被反复预演、打磨至完美,机器人将真正迎来满级出厂的时代 —— 它们不再需要在真实世界中跌跌撞撞地长大,而是先在高度逼真的思维里完成百万次进化,带着已经炉火纯青的技能无缝落地现实。

这意味着什么?

意味着,物理世界对智能体成长的代价将被大幅降低。

而 RISE,正是通往这个未来的第一块基石

更多方法细节与实验分析,请见原论文。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。