视频世界模型正迎来从单人视角向多人协作的底层变革。传统的视频世界模型大多建立在单智能体假设之上,难以应付多个玩家在同一虚拟世界中同时操作、互相观察的复杂场景。为了打破这一架构瓶颈,英伟达联合清华大学、多伦多大学及 Vector Institute 正式发布了名为 Gamma-World(γ-World)的全新多智能体世界模型方案。
多智能体世界建模的核心难点在于同时维护时间、跨视角以及交互的三重一致性。以往的研究如 Solaris 虽然在双人协同上取得了进展,但暴露出身份编码破坏置换对称性、全连接注意力机制导致计算量随人数平方级暴涨这两大核心缺陷,无法真正扩展到更多主体。
针对这些结构性缺失,Gamma-World 从底层组件入手进行了重新设计。首先,团队创新性地提出了“正单纯形旋转智能体编码(Simplex Rotary Agent Encoding)”。通过将所有玩家放置在几何空间的正单纯形顶点上,实现了所有玩家天然等距且地位平等。这种设计不含任何可学习参数,随机分配坐标,使得模型在无需更改架构的情况下,就能实现“双人数据训练、四人场景直接跑通”的跨越式泛化。
其次,为了解决算力吞吐瓶颈,Gamma-World 引入了“稀疏枢纽注意力机制(Sparse Hub Attention)”。该设计彻底摒弃了传统的两两直接通信模式,改用一组可学习的枢纽 Token 作为共享世界状态的压缩中转站,将计算成本成功降至线性复杂度。在独立的缓存技术加持下,系统成功实现了每秒24帧(24FPS)的实时动作响应推演。
在训练层面,项目采用了三阶段师生蒸馏法,利用双向教师模型引导因果学生模型,成功将多步采样压缩为4步采样,不仅保障了动作的可控性,还有效缓解了自回归推演中的误差累积。
实验数据显示,在多人 Minecraft 虚拟环境的记忆、建造等五类核心场景测试中,Gamma-World 相比现有最强模型取得了全面领先,评估视频质量的 FVD 指标平均降幅超过40%。此外,该框架已成功迁移至真实双臂机器人的协同任务中,充分验证了其跨场景的通用性。这不仅标志着多智能体仿真能力的提升,未来更有望为多臂医疗协同、工厂多机器人调度以及自动驾驶等物理 AI 领域提供全新的大规模模拟生成基础设施。





京公网安备 11011402013531号