![]()
![]()
设想一个这样的早晨:你看到窗外乌云密布,不需要被淋到雨就知道该带伞出门;你在脑海中预演一次出行,评估路上可能遇到的堵车点,提前规划好绕行路线。这种在现实中“提前演一遍”的能力,人类每天都在使用,却很少意识到它的珍贵——因为它来自我们每个人脑中一个叫作“心智模型”的神奇系统。
如今,AI领域的科学家们也试图为机器也装上这样一套系统。他们给这套系统取了一个更宏大的名字——“世界模型”。当大语言模型教会了AI写诗作画甚至做奥赛题后,世界模型要做的,是让AI真正“看懂”并“预见”这个物理世界。
![]()
东方IC
AI脑中的“内心剧场”
“世界模型”这个词听起来有点遥远,其实可以用一个生活化的画面来理解:想象AI的大脑里住着一个导演和一个剧组。这个剧组收到一张客厅照片后,不需要任何人手把手教,就能自动“推导”出茶几的背面长什么样、沙发的扶手有多大厚度,甚至还能判断如果你推它一把,它会怎么倾斜——因为AI的“内心剧场”已经在后台完成了这些物理演算。这就是世界模型。
从学术上讲,世界模型是一套让AI理解环境规律并预测未来变化的技术框架,它需要具备三大核心能力:生成性(能构建三维模拟环境)、多模态性(能同时处理图像、视频和文字信息)和互动性(能根据动作预判状态变化)。
世界模型这个想法其实并不新鲜——1943年,英国认知科学家肯尼斯·克雷克(Kenneth Craik)就提出:人类大脑是通过构建一个“小规模的外部世界模型”来理解和预测事件的;到了1960年代,AI先驱马文·明斯基将这一思想引入了计算机领域;2018年,科学家们用循环神经网络重新点燃了学界对世界模型的研究热潮。而真正让世界模型走入公众视野的,是过去两年间一系列标志性产品的发布,将这场学术探索推向了产业化的新阶段。
群雄逐鹿,各有侧重
要让AI学会“预见未来”,不同的科学家给出了截然不同的方案。目前在通往世界模型的路上,主要有三条代表性路线。
第一条路线被称为“生成派”,由谷歌DeepMind的Genie系列模型“扛旗”——Genie 2支持从文本、图片和视频生成动态3D环境;Genie 3则具备了长期时序预测、物理规律建模和场景演化能力。这种路线的做法相当“暴力美学”:给模型海量的视频数据,让它自己去“悟”出物理规律。它不需要被灌输牛顿力学公式,而是通过疯狂地预测“下一帧会发生什么”,在不知不觉中自己推导出了万有引力。
第二条路线来自“AI教母”李飞飞,她提出的“空间智能”概念,意在让AI像人类一样理解三维物理世界,而不只是处理语言符号。2024年她创办了World Labs,迅速成为AI领域的独角兽企业;2025年11月,公司推出了首款商业产品Marble——一个可以用一张图片、一段视频或一句文字提示生成可探索三维世界的工具,开创性地将生成式AI从“画一张图”推向了“造一个世界”。李飞飞团队在本月初的一篇博客文章中,将世界模型分成了三类:输出像素的“渲染器”、输出物理数据的“模拟器”、输出动作计划的“规划器”。“渲染器”的商业化跑得最快,但最大的问题是“只管好看,不管物理对不对”。“模拟器”则是最被低估的技术枢纽,因为它工作在几何和物理的层面上,既能为人类生成视觉画面,也能为机器人提供精确的行动指令;李飞飞团队的Marble已经在尝试将渲染器和模拟器统一起来。
第三条路线由图灵奖得主杨立昆领衔。杨立昆认为,与其浪费算力去预测每个像素的颜色,不如让AI学会预测“抽象特征”——就像人类开车时不需要时刻计算每一个路面纹理的细节,只要抓住关键信息就能安全驾驶。他提出的JEPA(联合嵌入预测架构)正是基于这个理念,他与团队发表了LeWorldModel,实现了从原始像素端到端稳定训练JEPA模型的新突破,在规划效率上取得了显著提升。
原创技术驱动“中国解法”
在世界模型的赛道上,我国科学家的表现同样令人瞩目——
前不久,智元机器人自研世界模型Genie Envisioner-Sim 2.0凭借优异的综合表现,在全球世界模型评测基准World Arena(世界竞技场)“感知与动作响应”榜单中位列第一。该模型采用20亿(2B)参数,功能上全面覆盖了长时序生成、多视角生成、近实时推理等多个核心环节,构建了从“感知预测”到“仿真进化”的完整技术闭环,让机器人策略能在虚拟场景中自主积累经验。
同济大学空间智能团队主导研发的“无界”世界模型同样惊艳——在World Arena权威评测中,其开源版本BLM在13个参评的开源模型中夺得全球第一,闭源版本BWM-Fast在总计86个参评模型中位列全球第二,与榜首仅差0.39分。值得注意的是,这个模型只有50亿参数,却跑赢了算力远超自身的对手,证明世界模型的关键或许不在于堆砌算力,而在于精巧的技术架构设计。
数天前,大晓机器人与合作伙伴发布全球首个实现全屋生成、个体物体全交互的世界模型统一框架。该技术突破了现有室内场景生成仅能覆盖单房间、缺乏全局一致性与可操作性的行业瓶颈,能够一键生成结构连贯、物理合理、功能完整的全屋三维场景,为具身人工智能与机器人训练提供了大规模、高保真的中国家庭场景可交互的实训场。
全球首个全屋生成、个体级物体全交互模型发布!机器人在仿真世界加速训练
![]()
东方IC
业内人士指出,世界模型的商业前景令人振奋。据初步估算,仅工业机器人训练市场,世界模型的潜在规模就达数千亿元;如果算上具身智能、影视游戏引擎、科学计算与消费级内容生成,整体天花板远超当前大语言模型的应用层。无疑,世界模型的进化,正在将AI从“看懂”世界,一步步推向“预见”世界。
原标题:《给AI装上“想象引擎”,世界模型如何让机器预见未来|新民·科技前沿》
栏目编辑:马丹
本文作者:新民晚报 郜阳
题图东方IC





京公网安备 11011402013531号