“VLA和世界模型不是替代和被替代的关系”

IP属地中国·北京 澎湃新闻 时间：2026-03-26 14:21:32

一段时间以来，围绕VLA（Vision-Language-Action，视觉－语言－行动）模型、WMA（World-Model–Action，“世界模型+动作策略”）模型两条路线的讨论，是具身智能领域里的热点话题。现在，大家似乎不约而同地决定放下争议，协同前行。
日前，智元机器人启动了一项机器人赛事AGIBOT WORLD CHALLENGE @ ICRA 2026（以下简称 ICRA 2026），两大核心赛道即为Reasoning to Action（推理-操作）和World Model（世界模型）。前者包括线上仿真与线下真机两个阶段，后者则聚焦具身智能中的生成与预测能力，采用线上竞赛方式。
3月25日，智元Genie业务部生态及解决方案总监沈咏剑在接受包括澎湃科技在内的媒体采访时表示，从长期趋势看，世界模型与VLA并不一定是替代关系，未来存在结合的可能。“从解决问题的层面上来说，有可能会有一些融合或者说合作的状态，二者不算是替代和被替代的关系。”
VLA曾一度被视为具身智能的重要主流路径，即让机器人基于视觉输入和语言指令，直接完成动作生成与执行。但随着机器人开始进入更复杂、更长链条的任务场景，仅仅“看懂指令并做出动作”已不够。机器人还需要理解任务目标、拆解步骤、推演环境变化，并在执行过程中持续调整策略。
沈咏剑介绍，此次赛事中设置的世界模型赛道考察的是模型根据机器人动作建模物理环境动态的能力。参赛者需要基于真实机器人观测与动作信号，训练视频生成模型，生成机器人在多个真实任务场景中的交互视频。

推理-操作赛道。智元
另一条“推理－操作”赛道，同样考核的是机器人去理解－执行任务这一具体过程。沈咏剑提到，去年的比赛更多是“叠衣服”这类相对明确、固定的任务，机器人基本是“让它做什么，它就做什么”；而今年则加入了更多需要机器人先理解任务、再进行拆解和执行的场景，例如“整理桌面”这类任务，机器人不仅要完成动作，还要先理解什么算整洁、先做什么后做什么，再完成整套流程。

世界模型赛道。智元
沈咏剑认为，当前世界模型的定义还未收敛，其核心可以概括为一种对未来状态的预测与推演能力：系统基于当前可见的多模态信息，判断下一时刻可能发生什么，或者在接收到任务指令后，推演机器人自身及周围环境接下来会发生怎样的变化。在他看来，这与当前VLA的范式并不完全相同，是相对独立的一条技术路线。
从智元近一年的公开布局看，该公司本身也并未只围绕单一路线推进。智元在2024年底推出了AgiBot World，包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。2025年3月，智元发布首个通用具身基座模型——智元启元大模型（Genie Operator-1）。今年1月，智元又发布了Genie Sim 3.0仿真平台，该平台基于NVIDIA Isaac Sim构建，融合三维重建与视觉生成技术，可实现数字孪生级高保真环境。与此同时，围绕推理与操作融合、全身控制等方向，2026年1月，智元具身研究中心宣布推出第二代一体化具身大小脑系统GenieReasoner。
沈咏剑表示，当前整个具身智能行业的人才仍处于稀缺状态，特别是高素质、顶尖的算法人才，他们希望通过赛事吸引更多优秀人才进入这一领域。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

机器人终于不瞎抓了！港大阿里联手开源FineVLA：用哪只手、抓哪里，一句话全搞定

一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

OpenAI内部Token流向剧变，Codex几乎“通吃”

苹果涨价引发亚洲科技股抛售，市场担忧存储芯片涨价拖累AI需求

让外卖骑手转型汽车营销、质量管理，吉利发起“跨时代实战专业能力培养计划”

中国信通院联合华为云等22家单位，筹备成立AIIA词元服务工作组

全站最新

机器人终于不瞎抓了！港大阿里联手开源FineVLA：用哪只手、抓哪里，一句话全搞定

一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

OpenAI内部Token流向剧变，Codex几乎“通吃”

苹果涨价引发亚洲科技股抛售，市场担忧存储芯片涨价拖累AI需求

热门推荐

机器人终于不瞎抓了！港大阿里联手开源FineVLA：用哪只手、抓哪里，一句话全搞定

一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

OpenAI内部Token流向剧变，Codex几乎“通吃”

苹果涨价引发亚洲科技股抛售，市场担忧存储芯片涨价拖累AI需求

新加的同事为啥能看到你以前的“同事不可见”朋友圈？微信官方给出答案

Notion宣布将于9月22日关闭AI邮箱服务Notion Mail

亚马逊加码印度：拟投 130 亿美元布局AI与云基础设施

让外卖骑手转型汽车营销、质量管理，吉利发起“跨时代实战专业能力培养计划”

中国信通院联合华为云等22家单位，筹备成立AIIA词元服务工作组

特朗普T1手机开放销售，结算页需额外支付41.75美元的“设备税”

消息称三星集团29日将公布1000万亿韩元巨额投资计划

小米YU7获CNCAP安全性测试五星认证：雷军称安全高于一切

DeepSeek成立以来规模最大扩招，意味着什么？

头部新势力车企回应：暂不涨价

TD Cowen称马斯克SpaceX可能斥3200亿美元收购美国第三大运营商T-Mobile