智平方郭彦东：世界模型不是VLA的竞争路线

IP属地中国·北京 观察者网 时间：2026-06-15 18:21:47

2026年6月的北京智源大会，具身智能专场的热度明显压过了往届。40余位CEO同台，千寻智能估值超百亿，灵心巧手寻求400亿估值——资本的热度仍在。但比融资数字更焦灼的，是一场持续一年的技术路线之争：VLA（Vision-Language-Action）与世界模型（World Model），究竟是替代关系，还是融合关系？
智平方创始人兼CEO郭彦东在具身产业CEO论坛上给出了他的答案：世界模型不是VLA的竞争路线，而是VLA体系中的核心组成部分。
这一判断试图为争论降温，但现场的技术分歧并未因此消弭。

一、"融合论"的提出：从对立到统一
过去一年来，具身智能领域的技术路线分化明显。VLA派主张"直接映射"——将视觉、语言、动作统一在端到端大模型中，输入图像和指令，直接输出动作序列。其优势在于语义理解能力强，能通过自然语言实现开放指令交互。
世界模型派则主张"先预测、后执行"——让机器人在行动前先在"脑中"模拟物理后果，再做出决策。不少研究者认为，机器人只有先建立对物理世界的理解能力，才能产生可靠行为。
郭彦东的切入角度是生物演化。他认为，行动能力从来不是孤立产生的，生命首先需要感知环境、理解环境，然后才谈得上行动。因此，世界模型负责理解世界，VLA负责作用于世界，两者并非对立，而是"天然统一的整体"。
基于这一逻辑，他重新定义了VLA：VLA是多种模态融合、大数据驱动的端到端模型架构的总称。在这一框架下，世界模型解决的是对物理环境的稠密4D预测（含时间维度），是VLA空间感知能力的组成部分，而非替代者。
"如果不把世界模型合并在VLA里面，很多任务完全做不了。"郭彦东举例称，泡茶需要先拿茶包再倒水，这类长程任务规划依赖语言模型；而水杯靠近桌边可能掉落，这类短程物理预测则依赖世界模型。只有两者合并，机器人才能同时处理长程规划与短程预测。
此外，智平方还尝试用世界模型生成真实环境中难以采集的边缘数据（corner case），补足VLA的训练样本。
二、从Video2Act到NeuroVLA：类脑架构的落地
智平方的技术演进路径，恰好踩在这条"融合"线上。2025年11月，智平方与北京大学联合发布Video2Act架构，尝试将4D世界模型嵌入VLA，使机器人在行动前预判状态变化，再将预判直接转化为动作。据公开信息，该工作在第三方评测中表现优于部分硅谷同类方案，并获得了包括英国皇家两院院士Philip Torr、强化学习奠基人之一Pieter Abbeel等学者的关注。
而在本届智源大会上，智平方进一步发布了类脑具身智能系统NeuroVLA。郭彦东提出，当前行业"天天想着如何长得像人，但没有人想如何让脑子更像人"。
NeuroVLA的架构借鉴了人类大脑的分工机制：皮层负责语义理解和任务规划，小脑负责高频运动协调与动态修正，脊髓负责毫秒级运动执行与安全反射。据智平方披露的数据，该架构可将机器人运动抖动降低75%以上，在碰撞发生后20毫秒内完成反射响应，同时降低系统功耗。
从工程角度看，这一分层设计确实回应了当前VLA架构的某些痛点——统一大模型同时处理感知、推理与控制，往往导致响应慢、能耗高、动作抖动。NeuroVLA通过"类脑"分层，在架构层面尝试解耦不同时间尺度的任务。
三、路线之争真的"终结"了吗？
然而，"融合论"是否意味着VLA与世界模型的争论已经落幕？现场的反馈并不一致。
一方面，融合思路在工程层面具有务实价值。对于当前急需产品落地的机器人本体公司而言，VLA提供了可部署的管道，世界模型提供了空间预测能力，两者结合确实能提升短期内的任务表现。
但另一方面，这种"合并"也引发了关于范式层级的讨论。有研究者认为，将世界模型定义为"VLA的组成部分"，本质上是在用1.0的框架（端到端动作生成）去收编2.0的概念（物理世界的独立建模）。世界模型的终极指向，究竟是服务于机器人动作的"空间感知模块"，还是成为不依赖本体的通用物理AI基模？这一问题并未因"融合论"而消解。
事实上，在智源大会的其他场合，不同路线的分歧依然明显。智源研究院发布的悟界·Physis-v0.1，试图以"统一物理状态学习"超越语言/像素/三维/视觉表征四条路线，在原始物理状态层面做预测。而由图灵奖得主Yann LeCun与纽约大学谢赛宁主导的AMI Labs，则主张JEPA（Joint Embedding Predictive Architecture）框架——世界模型不应在原始像素空间预测，而应在抽象的表征空间推演物理变化，其目标并非生成动作，而是构建可泛化的物理理解。
这些路径与智平方的NeuroVLA形成了微妙对照：前者试图从物理AI的底层重新定义预测逻辑，后者则是在现有VLA架构内优化动作执行的稳定性与实时性。两者并非同一层面的竞争，却共享着"世界模型"这一概念标签。
四、行业审视：概念融合与商业现实的距离
值得注意的是，当前世界模型的公开落地能力，与行业期待之间仍存在落差。郭彦东在演讲中也坦言，当下被广泛讨论的世界模型，"本质上并不是物理规律驱动，而是靠海量数据训练出来的"——数据足够多，模型就知道水杯会下落，但这不是物理规律的总结，而是大数据学习的结果。
这意味着，当前所谓的"世界模型"，更多是数据驱动的统计关联，而非真正的因果推理。将其嵌入VLA，能在特定场景下提升表现，但是否具备跨场景泛化的"物理理解"，仍需更多验证。
此外，类脑架构的工程化也面临挑战。人类大脑的分层机制经过数亿年演化，而机器人大脑的"皮层-小脑-脊髓"分层，如何在不同硬件平台、不同任务负载下保持稳定协同，目前公开的验证数据仍然有限。智平方披露的抖动降低75%、20毫秒反射响应等指标，属于实验室或特定场景下的结果，大规模工业部署中的表现尚待观察。
智平方在智源大会上提出的"融合论"，为VLA与世界模型的路线之争提供了一个务实的工程出口。对于迫切需要产品落地的具身智能产业而言，这种"先合并、再优化"的思路，或许比等待范式彻底收敛更现实。
但将世界模型"合并"进VLA，是否等同于"终结"了路线之争？答案可能是否定的。在物理AI的更长图景中，世界模型究竟是VLA的一个子模块，还是下一代人工智能的独立基座，这一问题的答案，将决定具身智能是停留在"更好的机器人"层面，还是迈向"真正的物理理解"层面。
本文系观察者网独家稿件，未经授权，不得转载。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

花旗大幅上修其AI业务的财务预测 AMD盘前涨超4%

擎云AI工作手机解决方案精细销售管理，驱动业务增长

5月新能源皮卡销量同比增长20%，比亚迪居首

进球、切片、全网爆：如何打造一座跑赢热搜的赛事“AI短视频工厂”？

终于通了！腾讯元宝接入ima知识库，专业的AI搜索来了

40元！我在某平台买的这款「磁吸副屏平替」，太搞笑了

全站最新

花旗大幅上修其AI业务的财务预测 AMD盘前涨超4%

擎云AI工作手机解决方案精细销售管理，驱动业务增长

5月新能源皮卡销量同比增长20%，比亚迪居首

进球、切片、全网爆：如何打造一座跑赢热搜的赛事“AI短视频工厂”？

热门推荐

高管花式退场，阿里AI不需要“一号位”

雨果奖作家新书惹争议！主动承认AI写作比重竟占一半

银行业百万美元年薪争夺首席AI官 IBM调查显示高管设置率一年内激增50%

荣耀X70 Pro Max发布：售价1999元起搭载8560mAh大电池

全渠道销量夺冠！千问AI眼镜引爆智能穿戴新风口

魅族Watch M1智能蓝牙手表发布：售价299元

微信支付发布AI工具箱2.0：不仅能听懂 9 国语言，Token消耗还省一半！

AI合规再升级：Anthropic拟对全量用户实施身份认证

OpenAI豪掷1. 5 亿美元：构建全球合作伙伴网络，深耕企业AI落地

机构：千问AI眼镜1-5月全国销量第一

阿里巴巴达摩院退出旗下科技公司

花旗大幅上修其AI业务的财务预测 AMD盘前涨超4%

擎云AI工作手机解决方案精细销售管理，驱动业务增长

邵阳液压：目前公司与比亚迪暂无合作

5月新能源皮卡销量同比增长20%，比亚迪居首