当前位置: 首页 » 资讯 » 科技头条 » 正文

智平方郭彦东:世界模型不是VLA的竞争路线

IP属地 中国·北京 观察者网 时间:2026-06-15 18:21:47

2026年6月的北京智源大会,具身智能专场的热度明显压过了往届。40余位CEO同台,千寻智能估值超百亿,灵心巧手寻求400亿估值——资本的热度仍在。但比融资数字更焦灼的,是一场持续一年的技术路线之争:VLA(Vision-Language-Action)与世界模型(World Model),究竟是替代关系,还是融合关系?

智平方创始人兼CEO郭彦东在具身产业CEO论坛上给出了他的答案:世界模型不是VLA的竞争路线,而是VLA体系中的核心组成部分。

这一判断试图为争论降温,但现场的技术分歧并未因此消弭。


一、"融合论"的提出:从对立到统一

过去一年来,具身智能领域的技术路线分化明显。VLA派主张"直接映射"——将视觉、语言、动作统一在端到端大模型中,输入图像和指令,直接输出动作序列。其优势在于语义理解能力强,能通过自然语言实现开放指令交互。

世界模型派则主张"先预测、后执行"——让机器人在行动前先在"脑中"模拟物理后果,再做出决策。不少研究者认为,机器人只有先建立对物理世界的理解能力,才能产生可靠行为。

郭彦东的切入角度是生物演化。他认为,行动能力从来不是孤立产生的,生命首先需要感知环境、理解环境,然后才谈得上行动。因此,世界模型负责理解世界,VLA负责作用于世界,两者并非对立,而是"天然统一的整体"。

基于这一逻辑,他重新定义了VLA:VLA是多种模态融合、大数据驱动的端到端模型架构的总称。 在这一框架下,世界模型解决的是对物理环境的稠密4D预测(含时间维度),是VLA空间感知能力的组成部分,而非替代者。

"如果不把世界模型合并在VLA里面,很多任务完全做不了。"郭彦东举例称,泡茶需要先拿茶包再倒水,这类长程任务规划依赖语言模型;而水杯靠近桌边可能掉落,这类短程物理预测则依赖世界模型。只有两者合并,机器人才能同时处理长程规划与短程预测。

此外,智平方还尝试用世界模型生成真实环境中难以采集的边缘数据(corner case),补足VLA的训练样本。

二、从Video2Act到NeuroVLA:类脑架构的落地

智平方的技术演进路径,恰好踩在这条"融合"线上。2025年11月,智平方与北京大学联合发布Video2Act架构,尝试将4D世界模型嵌入VLA,使机器人在行动前预判状态变化,再将预判直接转化为动作。据公开信息,该工作在第三方评测中表现优于部分硅谷同类方案,并获得了包括英国皇家两院院士Philip Torr、强化学习奠基人之一Pieter Abbeel等学者的关注。

而在本届智源大会上,智平方进一步发布了类脑具身智能系统NeuroVLA。郭彦东提出,当前行业"天天想着如何长得像人,但没有人想如何让脑子更像人"。

NeuroVLA的架构借鉴了人类大脑的分工机制:皮层负责语义理解和任务规划,小脑负责高频运动协调与动态修正,脊髓负责毫秒级运动执行与安全反射。据智平方披露的数据,该架构可将机器人运动抖动降低75%以上,在碰撞发生后20毫秒内完成反射响应,同时降低系统功耗。

从工程角度看,这一分层设计确实回应了当前VLA架构的某些痛点——统一大模型同时处理感知、推理与控制,往往导致响应慢、能耗高、动作抖动。NeuroVLA通过"类脑"分层,在架构层面尝试解耦不同时间尺度的任务。

三、路线之争真的"终结"了吗?

然而,"融合论"是否意味着VLA与世界模型的争论已经落幕?现场的反馈并不一致。

一方面,融合思路在工程层面具有务实价值。对于当前急需产品落地的机器人本体公司而言,VLA提供了可部署的管道,世界模型提供了空间预测能力,两者结合确实能提升短期内的任务表现。

但另一方面,这种"合并"也引发了关于范式层级的讨论。 有研究者认为,将世界模型定义为"VLA的组成部分",本质上是在用1.0的框架(端到端动作生成)去收编2.0的概念(物理世界的独立建模)。世界模型的终极指向,究竟是服务于机器人动作的"空间感知模块",还是成为不依赖本体的通用物理AI基模?这一问题并未因"融合论"而消解。

事实上,在智源大会的其他场合,不同路线的分歧依然明显。智源研究院发布的悟界·Physis-v0.1,试图以"统一物理状态学习"超越语言/像素/三维/视觉表征四条路线,在原始物理状态层面做预测。而由图灵奖得主Yann LeCun与纽约大学谢赛宁主导的AMI Labs,则主张JEPA(Joint Embedding Predictive Architecture)框架——世界模型不应在原始像素空间预测,而应在抽象的表征空间推演物理变化,其目标并非生成动作,而是构建可泛化的物理理解。

这些路径与智平方的NeuroVLA形成了微妙对照:前者试图从物理AI的底层重新定义预测逻辑,后者则是在现有VLA架构内优化动作执行的稳定性与实时性。两者并非同一层面的竞争,却共享着"世界模型"这一概念标签。

四、行业审视:概念融合与商业现实的距离

值得注意的是,当前世界模型的公开落地能力,与行业期待之间仍存在落差。郭彦东在演讲中也坦言,当下被广泛讨论的世界模型,"本质上并不是物理规律驱动,而是靠海量数据训练出来的"——数据足够多,模型就知道水杯会下落,但这不是物理规律的总结,而是大数据学习的结果。

这意味着,当前所谓的"世界模型",更多是数据驱动的统计关联,而非真正的因果推理。 将其嵌入VLA,能在特定场景下提升表现,但是否具备跨场景泛化的"物理理解",仍需更多验证。

此外,类脑架构的工程化也面临挑战。人类大脑的分层机制经过数亿年演化,而机器人大脑的"皮层-小脑-脊髓"分层,如何在不同硬件平台、不同任务负载下保持稳定协同,目前公开的验证数据仍然有限。智平方披露的抖动降低75%、20毫秒反射响应等指标,属于实验室或特定场景下的结果,大规模工业部署中的表现尚待观察。

智平方在智源大会上提出的"融合论",为VLA与世界模型的路线之争提供了一个务实的工程出口。对于迫切需要产品落地的具身智能产业而言,这种"先合并、再优化"的思路,或许比等待范式彻底收敛更现实。

但将世界模型"合并"进VLA,是否等同于"终结"了路线之争?答案可能是否定的。在物理AI的更长图景中,世界模型究竟是VLA的一个子模块,还是下一代人工智能的独立基座,这一问题的答案,将决定具身智能是停留在"更好的机器人"层面,还是迈向"真正的物理理解"层面。

本文系观察者网独家稿件,未经授权,不得转载。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。