神仙打架之外：环卫车里长出的世界模型什么样

IP属地中国·北京 观察者网 时间：2026-05-30 22:14:54

（文/张志峰编辑/周远方）
2026年5月，世界模型赛道至少有三件事值得记住。智元GE 2.0在WorldArena登顶，星动纪元Ctrl-World拿了具身任务能力全球第一，北京人形Pelican-Unify成了双冠王。
它们都在回答同一个问题。机器人到底该先建一座虚拟健身房，还是直接在真实世界里摔打。
同一个月，酷哇科技发布了CooWAIM 2.0。前三个在刷榜，酷哇在刷街。它的测试场是芜湖某条辅路，主角是一台正在贴边作业的无人清扫车。

假如这时路口突然冲出一辆逆行电动车，它不会停下来把整条街的三维画面在脑子里推演一遍，而是边减速边微调方向，在三百毫秒内完成避让。
酷哇相关负责人把这个能力概括为一句话，CooWAIM 2.0在打麻将般的博弈和切菜式的精细操作中，比同类模型更快。他进一步解释，就像人类打麻将时会预判他人反应、切菜时会感知食材触感，真正的智能源于动作与环境的实时闭环。
这个闭环本身并非酷哇独有。智元用GE 2.0建全功能世界模拟器，让机器人在虚拟环境里试错进化。星动纪元走VLA与世界模型融合路线，用分频端到端打通感知与动作。北京人形则以国家队身份推进大一统物理智能回路。它们代表了当前世界模型的三条主路。
但酷哇走了一条更轻的路。它不问机器人能不能在虚拟世界里推完一万次杯子，只问下一秒别撞上那辆电动车。
三路分兵，一路刷街
目前，全球科技巨头在世界模型赛道上呈现出不同的技术流派。
第一拨做视频生成，谷歌Genie 3、阿里Happy Oyster、OpenAI Sora，核心能力是生成逼真的未来画面，一帧一帧预测像素变化。图灵奖得主杨立昆曾指出，预测像素变化不等于理解物理世界，生成一段杯子掉落的视频，不代表模型懂得重力和材料力学。但在舆论场里，视频生成和世界模型常被混为一谈。Meta的V-JEPA 2走另一条路，不渲染画面，只提炼物理规律的因果理解，像一位只看棋谱不摸棋子的理论派。
第二拨做自动驾驶仿真。Waymo、特斯拉、蔚来NWM，这拨人其实最老资格，早就在用闭环仿真器测试极端路况、跑安全corner case，只是以前叫仿真器或数字孪生，生成式AI能力提升后，虚拟场景真假难辨，顺势把名字升级成了世界模型。他们的核心任务是预测自车响应和交通流演化，动作空间被严格限制在方向盘、油门、刹车两三个自由度里，目标是避免接触，而非理解接触。
第三拨做机器人与具身智能。智元、星动纪元、北京人形都在这个阵营，他们强调世界模型必须是动作条件化的，即预测的不是下一帧画面，而是我做了这个动作以后世界怎么变。这拨人要处理的是手指、手腕、肩膀几十甚至上百个自由度的协调，要理解推杯子会不会倒、拧瓶盖用多大力、叠毛巾时布料如何形变。道路有车道线和交通灯，规律性强，家庭与工厂里的物体材质、摆放方式、任务目标变化巨大，没有天然的几何约束，数据形态和计算复杂度与自动驾驶不在一个量级。
自动驾驶的世界模型，核心是避免接触，动作空间就两三个维度。人形机器人的世界模型，核心是怎么接触物体，手指、手腕、肩膀几十处关节配合，还得处理软体形变和摩擦力。从车到机器人，不是同一个模型放大，而是换了一个考场。

技术取舍：效率与精度的平衡
酷哇的特殊之处，在于它从第二拨往第三拨跳。
它从另一条路走过来，和中联环境成立合资公司，在十七个城市跑智慧环卫，2021年营收就过了五亿元。创始人何弢早年提出先难后易，把最难的城市场景先啃下来，再降维做环卫和城配。五十PB非结构化真实世界数据和万台终端，意味着它的模型是在真实的雨雪、逆行、拥堵里喂出来的。这份履历让它有资格做减法。
这种减法不是等技术成熟后拿来即用，而是基于自己的场景和数据，在世界模型的路线上做务实取舍。城市开放道路的数据和运营网络，对同场景的移动智能有复用价值，但向人形精细操作迁移，鸿沟仍在，目前未见公开验证。
CooWAIM 2.0的核心是DAWN架构，其底层为WAIM交互式世界动作模型。它不渲染高分辨率未来画面，而是通过Auto-Encoder Resampler模块，将繁杂的视觉特征压缩成16个核心语义Token。
这个取舍很像切菜时剔除筋膜，只保留最精华的部分。路网几何、障碍物拓扑、本体状态，这些被精准保留，冗余信息被剔除。
推理延迟因此压到331.3毫秒，效率提升近3倍。在NAVSIM基准测试中，其PDMS得分达89.1；在nuScenes闭环规划中，平均轨迹误差降至0.33米。

WAIM交互式世界动作模型通过在隐式空间中进行短程推演，与不推演（Fast-WAM）和全程推演后再执行动作预测的两个极端相比，取得了效果和效率上的最佳平衡
更关键的是推演策略。
市面上有些世界模型遵循先预测后规划的范式，就像一个人打麻将，必须先把所有人的出牌可能都推演完，再决定自己怎么出。这种单向滞后的方式，往往忽略了出牌本身就在实时改写牌局。
DAWN架构不再将世界预测和动作生成视为两个独立任务，而是让它们在推理过程中像辩论一样互相修正。模型在隐空间中进行短时推演，动作降噪器与世界预测器通过多轮迭代交互，实现边推演边执行。
这种交互式推演，恰好处于不推演与全程推演后再执行两个极端之间。不推演意味着盲动，全程推演再执行则意味着单向滞后。DAWN只推演2到3秒的短程未来，不赌长局。在nuScenes闭环规划测试中，平均轨迹误差降到0.33米，NAVSIM的PDMS得分89.1。
现实挑战：从榜单领先到规模化落地
这种轻量化有代价。跟英伟达Cosmos那种千亿级参数的闭源大模型比，酷哇的生态完善度和商业配套成熟度确实弱。世界模型赛道目前也还没有统一标准，从榜单到真实场景，中间隔着规模化落地的鸿沟。
智元GE 2.0近期在WorldArena特定赛道登顶，星动纪元Ctrl-World拿下具身任务能力全球第一，北京人形Pelican-Unify成为双冠王，但这些成绩主要发生在榜单和实验室环境。作为新发布的世界模型，它们的生态成熟度和真实场景验证周期仍待观察。对酷哇而言，虽然已在智慧环卫、出行等领域积累五十PB数据并实现万台级终端部署，但如何将这些数据优势转化为跨场景、跨本体的通用泛化能力，仍是行业共同面临的难题。大多数世界模型公司仍处于高投入期，数据采集成本极高，系统复杂，真正实现大规模商业化盈利的企业仍是凤毛麟角。
酷哇的DAWN架构已经全面开源。在Robotaxi、城市服务、特种作业等高价值场景中，这种具备交互式物理推演能力的模型或许有更大想象空间，但目前主要闭环仍在环卫与城配领域。世界模型赛道仍处于早期收敛期，技术路径尚未完全统一。

智能的本质是交互，不是预测
酷哇科技技术负责人表示：“我们相信，世界模型的价值不在于被动描绘未来，而在于让推演与行动在交互中共同演化。CooWAIM 2.0不仅是算法架构的升级，更是对‘智能源于交互’这一本质的回归。”
随着DAWN架构的全面开源，酷哇科技正推动具身智能从“单一任务执行”向“通用物理推理”演进。在Robotaxi、城市服务、特种作业等高价值场景中，这种具备“交互式物理推演”本能的机器人，或将重新定义人机共存的城市生态。
当机器人不再只是“执行者”，而是能像人一样在动作与环境的互动中实时思考，我们离真正的通用具身智能确实更近了一步，但这一步的跨越，仍需要时间的沉淀与产业链的协同。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

日本拟采购2.75万颗英伟达Rubin芯片开发本土机器人AI模型

马斯克重磅动作：X 将开放完整代码库，增设外部核验机制

拼多多雄安公司新办公楼正式投入使用首批500名员工即将入驻

BOSS直聘持续打击招聘性骚扰行为及涉黄职位，冻结相关违规账号2.5万个

网易云音乐与华纳音乐集团续签多年期战略合作

华为撤回「世界」商标

全站最新

日本拟采购2.75万颗英伟达Rubin芯片开发本土机器人AI模型

马斯克重磅动作：X 将开放完整代码库，增设外部核验机制

拼多多雄安公司新办公楼正式投入使用首批500名员工即将入驻

BOSS直聘持续打击招聘性骚扰行为及涉黄职位，冻结相关违规账号2.5万个

热门推荐

就业绩放缓客户依赖等问题回复监管问询，两大国际巨头“狙击”IPO，猎奇智能闯关创业板存隐忧

日本拟采购2.75万颗英伟达Rubin芯片开发本土机器人AI模型

苹果自研AI服务器芯片Baltra遭遇性能瓶颈，今年恐难亮相

前OpenAI CTO穆拉蒂打造多模态Inkling模型登场，号称美国最强开源AI

马斯克重磅动作：X 将开放完整代码库，增设外部核验机制

拼多多雄安公司新办公楼正式投入使用首批500名员工即将入驻

阅文发布起点剧场和漫剧助手DramaBuddy 加速精品内容规模化量产

BOSS直聘持续打击招聘性骚扰行为及涉黄职位，冻结相关违规账号2.5万个

网易云音乐与华纳音乐集团续签多年期战略合作

华为撤回「世界」商标

AI正在制造一个普遍巨婴的社会？

比亚迪英国总经理：已有用户取消迈凯伦、法拉利订单，转购腾势Z赛道版

后续：Anthropic回应1662万美元AI天价账单，计费系统Bug导致

NASA推进阿尔忒弥斯3号任务，目标在2027年测试SpaceX与蓝色起源月球着陆器对接技术

零人工干预，上海AI超级科研工厂五天完成135项真实科研任务