当前位置: 首页 » 资讯 » 科技头条 » 正文

具身智能大佬引用,Huggingface催更:北京人形开源WoW具身世界模型

IP属地 中国·北京 机器之心Pro 时间:2025-10-17 22:13:44




机器之心发布

机器之心编辑部

如果说 GPT 系列让 AI 理解语言,Sora 系列让 AI 生成视觉世界,那么 WoW 正在尝试让 AI 建模物理世界。

在「具身智能」与「世界模型」成为新一轮 AI 竞赛关键词的当下,来自北京人形机器人创新中心、北京大学多媒体信息处理国家重点实验室、香港科技大学的中国团队开源了全新的世界模型架构。

该团队提出了一个让机器真正 “看见、理解并行动于世界” 的世界模型 ——WoW(World-Omniscient World Model, 意图让 AI 学会 “做”—— 通过身体与世界互动来学习因果与物理,致力于助力行业打造 “最好用” 的具身智能机器人。

一经发布,受到学术界产业界关注关注,其中 Huggingface 留言:"Excellent work" 催更开源,斯坦福具身智能大佬,PI 创始人 Chelsea Finn & 清华合作文章引用 WoW 具身世界模型技术报告。

不是看图说话,而是动手理解世界:WoW 模型揭秘

真正具备物理理解的世界模型,必须建立在与现实世界广泛且因果丰富的交互与反馈之上。

人类通过与世界的主动互动,逐渐发展出对直觉物理的理解。这一点,与当下的视频生成模型形成鲜明对比 —— 主要依赖 “被动观察”,尽管 scaling up 已经证明这样的生成有着惊人的潜力,但是在面对真实物理因果关系时可能会力不从心。作为一个预测模型,必须要认识到未来是多样的,如薛定谔的猫,在实质观测和交互之前,永远没有办法给出准确的答复,能做的是给出一系列可能发生的选项。

从海量交互数据中学出物理直觉

WoW 从 800 万条海量机器人与物理世界交互轨迹筛选出200 万条高质量的训练集、在参数量高达 140 亿的视频模型进行训练,结果显示,模型具备了对 “未来合理物理结果的概率分布” 的构建能力。



WoW 生成依次抓取火方块,柔性方块,水方块



Sora 2 生成依次抓取火方块,柔性方块,水方块



WoW 生成抓取移动放下透明容器



Sora 2 生成抓取移动放下透明容器

WoW 在多个任务中涌现出惊艳的符合物理直觉的生成效果。这意味着,AI 正在逐步具备 “直觉物理” 能力,或许也看到了通用机器人真正落地与泛化能力的曙光。

融合感知、生成与行动

WoW 的四大核心模块

WoW 提出了一个全新的框架,将世界生成、动作预测、视觉理解 和 自我反思 融合为一个统一系统。这不仅仅是一次视觉模型的升级,而是一个融合了视觉、动作、物理与推理的世界生成框架。它让 AI 不再只是「看视频」或「生成图像」,而能通过交互学习世界的物理规律,并在真实环境中自主操作。这个系统由四个核心组件构成:

SOPHIA 自反范式—— 让模型能自我评判、修正、重写。DiT 世界生成引擎—— 生成未来场景,预测物理演化。FM-IDM 逆动力学模型—— 将视频预测转化为可执行动作。WoWBench 世界基准—— 用于评测 AI 的物理一致性、规划能力和现实部署表现。

一句话总结:

WoW 是一个能「想象世界 → 理解物理 → 生成视频 → 执行动作 → 再学习」的闭环大模型。



WoW 是一个融合了感知、预测、判断、反思与行动五个环节的具身世界模型。它从真实的机器人交互数据中学习,能在已知与未知场景中生成高质量、物理一致的机器人视频,最终让想象中的动作真正落地于现实执行

SOPHIA 自反体系

让世界模型 “自己教自己”

如何让模型不断变聪明?WoW 的答案是 ——自我反思与自我修正。团队提出的SOPHIA 框架,让 AI 在生成结果后自我评估、给出反馈,并通过 Refiner Agent 改进提示词或推理链。



比较了三种框架的核心机制:(a) Diffusion 模型:从输入上下文生成未来帧;(b) JEPA 模型:学习在嵌入空间中的预测一致性;(c) SOPHIA: 首先由 预测器从上下文生成未来;接着由 评估器对结果进行打分,产生奖励信号;然后由 修正器基于奖励和外部语言 / 嵌入反馈发出纠正信号;整个系统通过这种方式进行循环优化。

这种过程认知闭环的反思式学习 “想象 — 验证 — 修正 — 再想象”,正是人类智能的核心特征。WoW 的 SOPHIA,让大模型具备了这种能力。在核心层面,WoW 遵循 SOPHIA 范式—— 将大语言模型扩散 Transformer结合起来,在语言引导下生成物理上合理的未来, 通过 “生成预测 — 批评 — 修正” 的迭代循环机制,WoW 将 “想象” 与 “推理” 统一为具身智能的基本组成部分。



左侧展示了 动态评论模型,它通过真实与合成视频的标注训练,学会判断生成画面的物理合理性。右侧展示 Refiner Agent,根据评论模型的反馈不断改写提示词、重新生成视频,形成一个 “生成 — 批评 — 改进” 的闭环优化过程,让模型越看越准,越生成越真实

DiT 世界生成基座模型

WoW 工作中 SOPHIA 范式的核心,是一个基于Diffusion Transformer架构的世界生成引擎,它能够根据环境状态与智能体当前观测,预测未来场景、推演物理演化、还原动态因果链。更值得注意的是,团队在论文中宣布:从1.3B → 2B → 7B → 14B 参数的全系列扩展的模型权重、推理代码与 WoWBench 基准已经开源,以促进世界模型研究社区的复现与合作。

这不仅是一个模型,更是一个具备真实世界推理与生成能力的「物理引擎 + 想象系统」。



视频扩散世界模型概览。(a) 推理阶段:一个潜空间扩散 Transformer 根据图像观测与基于文本的动作描述来预测未来帧。(b) 训练阶段:通过 DINO 特征对扩散 Transformer 的中间表征进行监督,采用特征关系蒸馏损失来提升模型的时空建模能力。

从视频到动作

给算法触摸世界的双手

WoW 的最大亮点之一,在于让「视频生成」和「机器人动作」闭环。

WoW 团队提出的FM-IDM能把预测的未来视频帧,直接反解成机器人末端 7-DoF 动作



给定连续两帧预测视频,FM-IDM 能够计算出机器人末端执行器的动作变化量,从视觉 “想象” 中反推出真实可执行的运动指令,让模型真正实现从视频到行动的闭环

其实验结果令人惊艳:



WoW 在真实机器人环境中的有效性。(左) 展示了 WoW 在真实机器人上执行的简单与中等难度任务的成功轨迹示例。 (右)展示三种不同世界模型骨干在现实世界准确性比较的定量结果。在所有基础模型中,微调都极大地提高了现实世界中的性能,其中 WoW-cosmos2 达到了 最高得分,展现了最优的实际执行能力。

WoW 将模型在 20 个操控任务上进行部署。视频回放实验评估IDM 模型的训练性能,在简单难度的任务达到 94.5%,中等难度的成功率达到 75.2% (创下新 SOTA,尤其在中等难度任务上显著超越其他方法)。在复杂任务(如抓取、切割、分类)中具备「想象 — 执行 — 自我纠错」能力。这意味着 AI 不再停留在 “想象中”,而能真正 “动手” 去验证其理解,这标志着它真正实现了从生成到执行的跨越

WoWBench

让世界模型有了 “考试卷”

没有评估,就没有科学。团队提出了WoWBench—— 全球首个针对具身世界模型的综合基准。它包含 近千个高质量交互样本,覆盖 4 大核心维度,感知理解,预测推理,决策与规划,泛化执行。WoWBench 的评估角度覆盖多个指标,包括视觉保真与时间一致性,掩码引导的区域一致性,指令理解与语义正确性,物理与因果推理,规划与任务分解。



WoWBench 围绕五个核心组成部分构建:(左上)多维评测体系,从视频质量、规划推理、物理规律、指令理解四个角度评价生成结果;(中上)对应具身世界模型的四大核心能力 —— 感知、规划、预测与泛化;(右上)依托多源数据构建流程,融合自采、开源与 AI 生成数据,并结合 GPT 预筛选 + 人类标注的混合机制,形成高质量的视频–指令对(图中三张饼图展示了数据分布统计);(中部)采用双评测机制:专家模型评估运动与一致性,GPT 或精调 VLM 评估指令理解与任务规划;(底部)还邀请了 12 位领域专家进行人工评审,确保模型表现与人类认知一致。

WoW 不只是能「生成逼真视频」,而是真的理解了世界在如何运转。

在 WoWBench 这个面向 “具身智能” 的综合评分系统中,WoW 模型表现抢眼:不仅能准确理解任务指令(得分 96.5%),对物体运动的预测也高度符合物理规律(物理一致性超 80%)。这意味着,它不只是会 “看”,也开始 “懂” 了自然法则。



WoWBench 各模型多维细粒度性能对比图,这张图展示了不同模型在 WoWBench 各项指标下的详细表现。不同颜色的方块代表四个核心维度 —— 感知、预测、规划与泛化,每个模块中都给出了直观的图表,对比各模型在不同评测指标下的得分差异。

实验

同期模型对比实验

WoW 团队比较了六种模型在 WoWBench 基准下的总体性能,包括 CogVideoX、Wan2.1、Cosmos-Predict 以及 团队提出的 WoW 系列模型。结果显示,数据规模越大、架构越先进的模型,在性能上呈现显著正相关。



WoW-DiT 本身已经在人类与自动评测中均取得最高分(Overall = 49.39)

下面实验结果,说明 WoW 的 “自我优化循环 SOPHIA 范式” 使模型能从推理 — 生成 — 反思的闭环中不断改进,区别于传统仅追求视觉保真度的视频生成模型。



加入 Agent 自优化模块后,WoW+Agent 的总体评分进一步提升至 51.97,超过其他对比模型。

消融实验

此节阐述了 WoW 在具身智能领域对神经网络 Scaling Law 规律的探索结果。在数据与模型均扩大的情况下,性能呈单调上升但逐渐饱和,这与 GPT 系列、Diffusion 模型的经验一致,说明其架构稳定且具备扩展潜力。实验主要针对三个核心变量,数据规模、任务难度、模型规模等。 结果表明总体性能遵循典型幂律关系。其中性能最大收益出现在从200k → 600k的扩展中。任务难度消融实验说明模型在中等和困难任务中尚未饱和,更多对应类型数据可进一步提升性能。此外,在不同尺寸模型中 14B 模型性能最强但推理最慢,7B 模型在性能与效率间更平衡。



数据规模与任务难度消融结果



外源评测基准下数据规模缩放比较



模型规模缩放实验

泛化能力分析

WoW 不是在记忆训练场景,而是在学习“物理规律的抽象本质”。这类 “视觉 + 物理” 的泛化能力,是通向具身智能的关键指标。WoW 展现了三种核心泛化能力。

跨机器人形态泛化

WoW 世界模型在不同机器人平台上的泛化表现。无论是 UR5、Franka、AgileX 双臂机器人,还是灵巧手与仿真环境,模型都能在零微调的情况下准确理解指令并完成任务,体现出对不同机器人结构与动力学的强大适应能力。这说明模型学到与身体形态无关的物理表示







任务泛化

WoW 模型能够覆盖多达 15 种动作技能,从基础(pull、push)到复杂(tie、unstack)。并且模型能学习组合式技能表示,而非死记具体动作。







领域泛化

WoW 模型展现出很强的领域外零样本泛化能力。WoW 能够操作刚体、流体、不同大小与初始状态的物体,甚至在不同视觉风格(照片、素描、油画)下仍能正确预测执行。





高级推理与泛化能力

反事实推理与重新规划



WoW 世界模型进一步展示了如何在设定不同反事实假设(如酸性液体、敌意行为、材料属性等)条件下,进行合理的物理推理与未来场景生成:

在假设液体具有强腐蚀性时,刀具被腐蚀熔化,最终碎裂坠落;在假设机器人行为被判定为敌对时,模型推理人类会做出反抗;在假设夹克由坚硬石材制成时,机器人尝试搬动却无法抬起;在假设苹果为易碎材质时,模型预测其被掰碎成多个碎片。

该图体现了模型对 “如果…… 将会……” 类问题的理解能力,具备在假设条件下重新规划行为的能力,标志着具身智能系统朝向更高级推理与泛化能力的重要一步。

物理与逻辑一致性



这一节展示了 WoW 在符号逻辑与物理行动结合方面的突破。其核心特征是将逻辑结构解析成具体操作图,使得模型拥有 “理解 - 计划 - 执行” 的链式推理机制,最后实验结果显示出模型能处理语言逻辑与物理空间的一致性约束。这说明 WoW 不仅能 “看懂” 指令,还能 “遵守逻辑规则去行动”。在认知层面,构建了 “从理解语义 → 推理约束 → 动作合成” 的完整智能路径。

可以落地的应用场景

论文不仅停留在理论上,还可以在多个方向落地验证:

世界模型迁移与数据扩增—— 从少量真实数据出发,生成更多合成样本,降低数据采集与标注成本。智能体自我迭代平台—— 提供自优化接口。

此外,原文也涵盖了动作到视频仿真,4D 世界重建与虚拟孪生,从视频到动作等应用场景

世界模型迁移与数据扩增

AI 的 “自我造数” 能力

在真实世界中采集机器人视频与动作数据,往往成本高昂、周期漫长。为此,WoW 团队提出了一条世界模型迁移与可控数据扩增管线, 让 AI 能够像科学家一样,用自己的 “世界想象力” 来创造新数据。这条管线结合了可控视频生成的多模态控制能力, 使模型不仅能生成视频,还能控制生成风格、动作分布、光照和场景语义



视觉风格迁移增强示例

系统可在虚拟空间中完成“想象 → 生成 → 再标注 → 迁移”的自循环过程。首先从少量真实交互样本出发,自动合成成千上万条物理一致的视觉 - 动作数据,然后通过多模态控制,实现不同任务类型、环境风格与相机视角的多样化生成。并且这种生成支持视觉风格迁移与 VLA 数据同步合成,从而提升策略学习与视觉推理的泛化能力。



换句话说,WoW 让 AI 拥有了真正的“自我造数”能力 —— 它不再完全依赖昂贵的人力采集,而能依靠世界模型的物理推理与想象能力,持续扩展自己的学习边界与世界认知。结果表明,这种组合增强能有效模拟真实世界中自然出现的变化,提高 VLA 模型的泛化能力。

智能体自我迭代平台

此外,WoW 还展现了更广泛的应用潜力。它不仅仅是一个生成器,还能提升 VLM 的推理能力,充当物理仿真器,支持 3D 感知表征学习。WoW 团队发现,生成型世界模型可作为交互式沙盒,使 VLM 在长时序任务规划中 “自我调试逻辑错误”。



通过世界模型仿真的 VLM 规划自我校正。(a) 我们的迭代循环机制:VLM 规划器首先提出一个动作方案,世界模型随后模拟其未来帧,接着由 VLM 评论器(critic) 对结果进行评估并提供反馈,从而使规划器能够优化下一步决策。 (b) 生成的示例:上图展示了一个成功的规划结果,而下图展示了检测到失败后的重新规划触发过程。

例如给定实验任务为 “将不同颜色的方块分开,并把相同颜色的方块堆叠。”,即一个空间推理任务。单次规划设定下,即使是强大的 Qwen-7B 模型成功率也仅 30%。WoW 团队建立一个认知循环。首先 VLM 提出子目标,紧接着世界模型模拟未来帧,VLM 评估结果,若失败则重新规划。经过 2 轮交互后,任务规划成功率从 33% → 89%,任务任务完成率从 0% → 44%。实验表明,这种基于模拟反馈的交互迭代机制,可显著提升模型在模糊任务中的自我修正与反思能力。这种能力使得模型在长程任务表现得游刃有余。







未来

通向具身物理世界模型时代的 “操作系统”

从 GPT 到 Sora,我们让 AI 会说、会看。

而 WoW 的真正野心在于 让 AI开始会 “干活”。WoW 通过系统性结合完成了想象世界 → 理解物理 → 生成视频 → 执行动作 → 再学习的逻辑闭环,而这仅仅是一个开始。当 AI 拥有 “手” 和 “身体”,能够真实地探索世界、干预世界、理解因果、积累经验,它将不再只是世界的观察者,而成为一个真正的智能体。这也意味着有可能演化出更贴近人类的具身心智模型,具备感知、理解、决策、记忆与行动的统一结构等。

未来的研究将持续推进 WoW 在具身智能方向的多模态融合、自主学习、现实交互等能力边界,探索 AI 如何像人类一样在世界中生长、适应与进化。为了加速这个进程,WoW 项目现已全面开源,向所有研究者与开发者开放。



具身智能体与世界模型的体系结构:一个智能体通过多种感知输入(例如视觉、听觉、热觉、力觉等)来感知外部环境。 这些感知信号由世界模型进行处理,构建出一个关于环境的内部预测表征。模型的预测结果以及保存在短期记忆与长期记忆中的过往经验,将为其推理与判断提供依据。在此基础上,执行体根据内部模拟生成相应的动作,以操纵真实世界。这种闭环系统使智能体能够:学习环境的动态规律;进行未来的规划与预判;并最终完成复杂的目标任务。

结语

AI 的下一个十年,不仅属于语言模型,也属于世界模型

而 WoW,无疑在这条路上,迈出了具有里程碑意义的一步。

从「理解世界」到「重建世界」,WoW 让我们看到了人工智能真正成为具身智能体的未来。

机器终于有了 “身体的想象力”。
世界,也因此变得更可被理解。
论文地址: https://arxiv.org/pdf/2509.22642项目地址: https://wow-world-model.github.io/#开源代码地址: https://wow-world-model.github.io/开源模型地址:https://huggingface.co/WoW-world-model

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。