告别「利用率崩溃」：GIPO开启大模型强化学习高效训练新方法

IP属地中国·北京 机器之心Pro 时间：2026-05-18 14:26:34

在现代强化学习系统（如训练视觉语言动作模型 VLA 或大规模机器人控制策略）中，由于策略滞后（Policy Lag）导致数据 Off-policy 现象已成为难以避免的常态。无论是在数据被反复复用迭代的同步更新中，还是在采样与训练解耦的分布式 Actor-Learner 异步架构下，存在数据与当前策略的脱节问题。特别是在具身真机场景下，由于物理采集缓慢且高度依赖历史数据回放，这种滞后程度更是被推向了极端。

近期，来自树根科技与三一集团团队联合提出了GIPO算法，在机器人操控及大语言 / 视觉动作模型（VLA）强化学习训练中，GIPO 既显著缓解了数据短缺导致的策略滞后痛点，又有效改善了 PPO 硬截断引发的 “利用率崩溃（Utilization Collapse）” 问题。

GIPO 论文链接：https://arxiv.org/abs/2603.03955论文标题 1：GIPO: Gaussian Importance Sampling Policy OptimizationAcceRL 论文链接：https://arxiv.org/abs/2603.18464论文标题 2：AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models
GIPO ：用比例看问题，而不是用绝对差值看问题
核心公式

对数空间对称性：一种优雅的平衡

平滑性与非零梯度：拯救 “死样本”

偏差 - 方差的 “帕累托旋钮”

Advantage-Aware GIPO

理论基石：策略性能下界与有限样本保证
代理目标的理论下界

有限样本控制与稳定性
在真实的 RL 训练中，由于无法计算期望，只能从回放池中抽取有限的 Batch Size（假设为 N）来进行经验估计（Empirical Estimation）：

实验结果：方差 - 偏差平衡性能和 7B VLA 工业落地
方差 - 偏差平衡性能帕累托最优

分析结果展现了 GIPO 良好的方差 - 偏差平衡性：在严重滞后的场景（Case A, B）中，PPO 测算出的方差竟然是 0。但这根本不是因为 PPO 稳定，而是因为其硬截断机制将所有样本直接判断为 “越界”，导致100% 的样本梯度死亡。没有梯度，自然没有方差，这等同于模型停止了学习。

图 2：2x2 网格世界中的偏差 - 方差权衡。GIPO（虚线）真正定义了帕累托前沿（Pareto Frontier），而 PPO 在高滞后场景下完全停止了学习
工业级验证规模
在当前的具身智能领域，受限于高昂的物理交互成本与长视野连续控制的复杂性，能将策略优化算法直接部署到数十亿参数模型上的研究并不多见。GIPO 团队为了验证其算法在真实世界扩展性（Scalability），投入了庞大的计算资源：模型基座使用了 7B 参数量的 OpenVLA-OFT 作为骨干网络，整个评估过程耗费了超过10,000H200 GPU 小时，在 LIBERO 机器人多任务操作基准上，处理了超过 7.3 亿次交互采样。
为了评估算法对策略滞后的鲁棒性，研究团队设计了两种数据场景，通过控制采样器（Actors）与训练器（Trainers）的比例来人为制造不同程度的数据滞后。新鲜场景（Fresh Regime）：配置 10 个采样器对 1 个训练器（或类似高吞吐配置），数据收集快，回放池中的样本非常接近当前策略。陈旧场景（Stale Regime）：强制降低吞吐量（例如 1 个采样器对 1 个训练器），导致训练器不得不反复咀嚼回放池中陈旧的历史数据，制造类似于真机场景的策略滞后。
如图 3 所示，在新鲜场景下，GIPO、PPO 与 SAPO 均能取得不错的表现，GIPO 略占优或持平。然而，一旦切换到陈旧场景，算法之间的性能差距就会被拉开。在面对陈旧数据时，PPO 的学习曲线往往在早期就陷入停滞，最终收敛到一个较低的平均回报水平。SAPO 虽然引入了软门控，但在处理高滞后数据时，依然表现出较大的波动和次优的样本效率。而 GIPO 能更快逼近最优成功率，展现出很强的抗滞后能力和稳定性。

图 3：LIBERO 机器人套件学习曲线。在 LIBERO-Spatial 和 LIBERO-10 等复杂任务中，GIPO 的优势被进一步放大，展现了在数十亿参数 VLA 任务中实战价值
Metaworld 多种子实验
在 MetaWorld Stale（陈旧数据环境）下，团队对比了 8 种算法配置（包含优势感知变体），覆盖了 10 个不同的机器人操控任务。为了消除随机性干扰，每一个配置 5 个随机种子，总共运行 400 个独立的训练实例。在统计指标 IQM（Interquartile Mean，分位数均值）排名中，GIPO 展示出了非常大的优势，如下面的聚合排名表所示，GIPO 系列占据了前 6 名位置，其中 GIPO (1.0, 1.0) 平均归一化得分（0.730）甚至达到了 PPO（0.180）的 4 倍之多。

GIPO 变体的 IQM 表现显著高于 SAPO 与 PPO 基准。即便在策略滞后环境下，其展现出的成功率提升曲线依然保持着惊人的平滑度。同时，实验结果有力地验证了 “对数对称性” 与 “优势感知” 可以兼容，而且相得益彰。GIPO 的数学框架可以轻松嵌入非对称逻辑，同时维持其独有的理论稳定性上限。
值得注意的是，GIPO 的卓越性并不局限于应对滞后的 “救场”。在策略滞后轻微的新鲜场景下，GIPO 同样展现出了优良的性能上限。在涵盖 10 个任务、总计 250 次独立训练运行的大规模 MetaWorld Fresh 实验中，GIPO 依然保持了领先优势。如下表所示，即便是在通用配置下，GIPO 的 IQM（分位数均值）得分依然达到了 PPO 的两倍以上。这意味着 GIPO 不仅能处理 “旧数据”，也能更好发挥 “新数据” 的价值，显著提升了在线 RL 的学习效率。

大模型落地的 “稳压器”：GIPO 助推 AcceRL 登顶 SOTA

如何高效地进行数十亿参数规模的视觉 - 语言 - 动作（VLA）模型的强化学习训练是行业公认的难题。为此，团队推出了AcceRL—— 首个专为 VLA 模型设计的全异步、解耦式强化学习与世界模型框架。
AcceRL 通过物理隔离训练、推理与采样流，打破了传统框架中的同步屏障，并首次引入了 “即插即用” 的可训练世界模型，实现了惊人的200 倍（20,000%）数据效率提升，然而，这种优秀的工程性能对底层算法的稳定性提出了更高要求，这正是 GIPO 大显身手的舞台。

为什么 AcceRL 选择 GIPO？
AcceRL 通过物理隔离设计大幅提升了系统的吞吐量。然而，这种 “全异步” 的分布式架构是一把双刃剑：它在消除硬件闲置、实现吞吐量超线性扩展的同时，不可避免地带来了剧烈的策略滞后（Policy Lag）。
在 AcceRL 的非阻塞管道中，训练与采样独立进行，导致回放池中充斥着陈旧的 Off-policy 数据。实验证明，在这种滞后场景下，标准 PPO 会频繁触发硬截断机制，导致大量包含关键修正信号的样本梯度直接归零，沦为毫无贡献的 “死样本”，阻碍训练效率。
GIPO 通过其标志性的平滑高斯信任权重，为 AcceRL 提供了一套具备数学保证的阻尼机制，使其能够稳健地消化这些陈旧样本，成为了整个框架处理异步偏差的核心优化引擎。此外 AcceRL 实现了利用世界模型想象生成强化学习训练数据。虽然这些数据扩展了探索边界，但也存在合成偏差。GIPO 利用对数空间对称性，提取了这些想象数据中的改进信号，使得 “在想象中学习” 不再因梯度不稳定而崩溃。
如下图所示，在针对算法目标的消融实验中，配备 GIPO 的系统表现出了惊人的学习速度。GIPO 在约 8,000 步时达到的性能水平，标准 PPO 需要耗费 60,000 步才能触及。这意味着在相同的硬件环境下，GIPO 将样本利用效率提升了整整 7.5 倍。

图 4：GIPO 和 PPO 在 AcceRL 中效果对比
登顶 LIBERO
在 LIBERO 的长视野（Long-horizon）操控任务中，GIPO 助力 AcceRL 展示了优秀的稳定性。相比于对早期误差敏感的传统监督微调（Success Rate 90.7%），AcceRL 在 GIPO 的支撑下实现了突破：在 LIBERO-Long 任务套件中，AcceRL 达成了99.1%的成功率。这种表现源于 GIPO 优异的偏差 - 方差权衡，它确保了模型在执行复杂多步动作时，能够从轻微的扰动中恢复，维持了策略在长周期内的连续性与稳定性。
结语：算法美学与工程力量的共振
AcceRL 框架的成功，验证了 GIPO 在大规模异步训练中的底层基石作用。通过稳健地处理异策略偏差，GIPO 突破了分布式系统的稳定性瓶颈，为‘大规模 VLA + 异步 RL + 世界模型’这一架构提供了可靠的算法护航，并最终在 LIBERO 基准测试中取得了 SOTA 成绩。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

一天3款新车上市造手机的都沉默了：我国10家车企利润之和不敌宁德

有转机！索尼澄清2028实体盘走向：并非一刀切停售

Anthropic王炸级大招！Claude首次深度嵌入团队协作实时工作流

Codex、ChatGPT为何合体？Codex未来何去何从？OpenAI核心leader回应一切

乐道OrinX纯视觉车型智驾Coconut 3.1.0版本计划7月内推送

日本宣称自己的海底稀土够用800年！日本专家：高兴得太早了

全站最新

一天3款新车上市造手机的都沉默了：我国10家车企利润之和不敌宁德

有转机！索尼澄清2028实体盘走向：并非一刀切停售

Anthropic王炸级大招！Claude首次深度嵌入团队协作实时工作流

Codex、ChatGPT为何合体？Codex未来何去何从？OpenAI核心leader回应一切

热门推荐

一天3款新车上市造手机的都沉默了：我国10家车企利润之和不敌宁德

有转机！索尼澄清2028实体盘走向：并非一刀切停售

Anthropic王炸级大招！Claude首次深度嵌入团队协作实时工作流

Codex、ChatGPT为何合体？Codex未来何去何从？OpenAI核心leader回应一切

乐道OrinX纯视觉车型智驾Coconut 3.1.0版本计划7月内推送

日本宣称自己的海底稀土够用800年！日本专家：高兴得太早了

HBM存储竞赛升级！美光6303亿元扩建日本广岛晶圆厂

索尼官宣停产PS实体盘后，达美乐、肯德基、盖世小鸡下场整活

高温催生制冷刚需，央视揭秘中国空调在欧洲热销的原因

苹果iPhone 17 Pro Max被封入美国建国250周年纪念时间胶囊

消息称Anthropic拟在澳大利亚布局1.4GW数据中心算力，建设成本达150亿美元

Meta也来卖铲子了！小扎：模型可以慢，GPU必须赚

史无前例！为找稀土，日本开始“拆空调”了

玩家淘到V社初代 Steam 手柄原型机

CMOS集体变“方”！不只是手机，所有影像硬件都要变了