![]()
在现代强化学习系统(如训练视觉语言动作模型 VLA 或大规模机器人控制策略)中,由于策略滞后(Policy Lag)导致数据 Off-policy 现象已成为难以避免的常态。无论是在数据被反复复用迭代的同步更新中,还是在采样与训练解耦的分布式 Actor-Learner 异步架构下,存在数据与当前策略的脱节问题。特别是在具身真机场景下,由于物理采集缓慢且高度依赖历史数据回放,这种滞后程度更是被推向了极端。
![]()
近期,来自树根科技与三一集团团队联合提出了GIPO算法,在机器人操控及大语言 / 视觉动作模型(VLA)强化学习训练中,GIPO 既显著缓解了数据短缺导致的策略滞后痛点,又有效改善了 PPO 硬截断引发的 “利用率崩溃(Utilization Collapse)” 问题。
![]()
GIPO 论文链接:https://arxiv.org/abs/2603.03955论文标题 1:GIPO: Gaussian Importance Sampling Policy OptimizationAcceRL 论文链接:https://arxiv.org/abs/2603.18464论文标题 2:AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models
GIPO :用比例看问题,而不是用绝对差值看问题
核心公式
![]()
![]()
![]()
![]()
![]()
![]()
![]()
对数空间对称性:一种优雅的平衡
![]()
![]()
![]()
平滑性与非零梯度:拯救 “死样本”
![]()
偏差 - 方差的 “帕累托旋钮”
![]()
![]()
![]()
![]()
Advantage-Aware GIPO
![]()
![]()
![]()
理论基石:策略性能下界与有限样本保证
代理目标的理论下界
![]()
![]()
![]()
有限样本控制与稳定性
在真实的 RL 训练中,由于无法计算期望,只能从回放池中抽取有限的 Batch Size(假设为 N)来进行经验估计(Empirical Estimation):
![]()
![]()
![]()
![]()
![]()
![]()
实验结果: 方差 - 偏差平衡性能和 7B VLA 工业落地
方差 - 偏差平衡性能帕累托最优
![]()
分析结果展现了 GIPO 良好的方差 - 偏差平衡性:在严重滞后的场景(Case A, B)中,PPO 测算出的方差竟然是 0。但这根本不是因为 PPO 稳定,而是因为其硬截断机制将所有样本直接判断为 “越界”,导致100% 的样本梯度死亡。没有梯度,自然没有方差,这等同于模型停止了学习。
![]()
![]()
图 2:2x2 网格世界中的偏差 - 方差权衡。GIPO(虚线)真正定义了帕累托前沿(Pareto Frontier),而 PPO 在高滞后场景下完全停止了学习
工业级验证规模
在当前的具身智能领域,受限于高昂的物理交互成本与长视野连续控制的复杂性,能将策略优化算法直接部署到数十亿参数模型上的研究并不多见。GIPO 团队为了验证其算法在真实世界扩展性(Scalability),投入了庞大的计算资源:模型基座使用了 7B 参数量的 OpenVLA-OFT 作为骨干网络,整个评估过程耗费了超过10,000H200 GPU 小时,在 LIBERO 机器人多任务操作基准上,处理了超过 7.3 亿次交互采样。
为了评估算法对策略滞后的鲁棒性,研究团队设计了两种数据场景,通过控制采样器(Actors)与训练器(Trainers)的比例来人为制造不同程度的数据滞后。新鲜场景(Fresh Regime):配置 10 个采样器对 1 个训练器(或类似高吞吐配置),数据收集快,回放池中的样本非常接近当前策略。陈旧场景(Stale Regime):强制降低吞吐量(例如 1 个采样器对 1 个训练器),导致训练器不得不反复咀嚼回放池中陈旧的历史数据,制造类似于真机场景的策略滞后。
如图 3 所示,在新鲜场景下,GIPO、PPO 与 SAPO 均能取得不错的表现,GIPO 略占优或持平。然而,一旦切换到陈旧场景,算法之间的性能差距就会被拉开。在面对陈旧数据时,PPO 的学习曲线往往在早期就陷入停滞,最终收敛到一个较低的平均回报水平。SAPO 虽然引入了软门控,但在处理高滞后数据时,依然表现出较大的波动和次优的样本效率。而 GIPO 能更快逼近最优成功率,展现出很强的抗滞后能力和稳定性。
![]()
图 3:LIBERO 机器人套件学习曲线。在 LIBERO-Spatial 和 LIBERO-10 等复杂任务中,GIPO 的优势被进一步放大,展现了在数十亿参数 VLA 任务中实战价值
Metaworld 多种子实验
在 MetaWorld Stale(陈旧数据环境)下,团队对比了 8 种算法配置(包含优势感知变体),覆盖了 10 个不同的机器人操控任务。为了消除随机性干扰,每一个配置 5 个随机种子,总共运行 400 个独立的训练实例。在统计指标 IQM(Interquartile Mean,分位数均值) 排名中,GIPO 展示出了非常大的优势,如下面的聚合排名表所示,GIPO 系列占据了前 6 名位置,其中 GIPO (1.0, 1.0) 平均归一化得分(0.730)甚至达到了 PPO(0.180)的 4 倍之多。
![]()
![]()
GIPO 变体的 IQM 表现显著高于 SAPO 与 PPO 基准。即便在策略滞后环境下,其展现出的成功率提升曲线依然保持着惊人的平滑度。同时,实验结果有力地验证了 “对数对称性” 与 “优势感知” 可以兼容,而且相得益彰。GIPO 的数学框架可以轻松嵌入非对称逻辑,同时维持其独有的理论稳定性上限。
值得注意的是,GIPO 的卓越性并不局限于应对滞后的 “救场”。在策略滞后轻微的新鲜场景下,GIPO 同样展现出了优良的性能上限。在涵盖 10 个任务、总计 250 次独立训练运行的大规模 MetaWorld Fresh 实验中,GIPO 依然保持了领先优势。如下表所示,即便是在通用配置下,GIPO 的 IQM(分位数均值)得分依然达到了 PPO 的两倍以上。这意味着 GIPO 不仅能处理 “旧数据”,也能更好发挥 “新数据” 的价值,显著提升了在线 RL 的学习效率。
![]()
大模型落地的 “稳压器”:GIPO 助推 AcceRL 登顶 SOTA
![]()
如何高效地进行数十亿参数规模的视觉 - 语言 - 动作(VLA)模型的强化学习训练是行业公认的难题。为此,团队推出了AcceRL—— 首个专为 VLA 模型设计的全异步、解耦式强化学习与世界模型框架。
AcceRL 通过物理隔离训练、推理与采样流,打破了传统框架中的同步屏障,并首次引入了 “即插即用” 的可训练世界模型,实现了惊人的200 倍(20,000%)数据效率提升,然而,这种优秀的工程性能对底层算法的稳定性提出了更高要求,这正是 GIPO 大显身手的舞台。
![]()
为什么 AcceRL 选择 GIPO?
AcceRL 通过物理隔离设计大幅提升了系统的吞吐量。然而,这种 “全异步” 的分布式架构是一把双刃剑:它在消除硬件闲置、实现吞吐量超线性扩展的同时,不可避免地带来了剧烈的策略滞后(Policy Lag)。
在 AcceRL 的非阻塞管道中,训练与采样独立进行,导致回放池中充斥着陈旧的 Off-policy 数据。实验证明,在这种滞后场景下,标准 PPO 会频繁触发硬截断机制,导致大量包含关键修正信号的样本梯度直接归零,沦为毫无贡献的 “死样本”,阻碍训练效率。
GIPO 通过其标志性的平滑高斯信任权重,为 AcceRL 提供了一套具备数学保证的阻尼机制,使其能够稳健地消化这些陈旧样本,成为了整个框架处理异步偏差的核心优化引擎。此外 AcceRL 实现了利用世界模型想象生成强化学习训练数据。虽然这些数据扩展了探索边界,但也存在合成偏差。GIPO 利用对数空间对称性,提取了这些想象数据中的改进信号,使得 “在想象中学习” 不再因梯度不稳定而崩溃。
如下图所示,在针对算法目标的消融实验中,配备 GIPO 的系统表现出了惊人的学习速度。GIPO 在约 8,000 步时达到的性能水平,标准 PPO 需要耗费 60,000 步才能触及。这意味着在相同的硬件环境下,GIPO 将样本利用效率提升了整整 7.5 倍。
![]()
图 4:GIPO 和 PPO 在 AcceRL 中效果对比
登顶 LIBERO
在 LIBERO 的长视野(Long-horizon)操控任务中,GIPO 助力 AcceRL 展示了优秀的稳定性。相比于对早期误差敏感的传统监督微调(Success Rate 90.7%),AcceRL 在 GIPO 的支撑下实现了突破:在 LIBERO-Long 任务套件中,AcceRL 达成了99.1%的成功率。这种表现源于 GIPO 优异的偏差 - 方差权衡,它确保了模型在执行复杂多步动作时,能够从轻微的扰动中恢复,维持了策略在长周期内的连续性与稳定性。
结语:算法美学与工程力量的共振
AcceRL 框架的成功,验证了 GIPO 在大规模异步训练中的底层基石作用。通过稳健地处理异策略偏差,GIPO 突破了分布式系统的稳定性瓶颈,为‘大规模 VLA + 异步 RL + 世界模型’这一架构提供了可靠的算法护航,并最终在 LIBERO 基准测试中取得了 SOTA 成绩。





京公网安备 11011402013531号