给AI装上“想象引擎”，世界模型如何让机器预见未来｜新民·科技前沿

IP属地中国·北京 上观新闻 时间：2026-06-10 12:33:17

设想一个这样的早晨：你看到窗外乌云密布，不需要被淋到雨就知道该带伞出门；你在脑海中预演一次出行，评估路上可能遇到的堵车点，提前规划好绕行路线。这种在现实中“提前演一遍”的能力，人类每天都在使用，却很少意识到它的珍贵——因为它来自我们每个人脑中一个叫作“心智模型”的神奇系统。
如今，AI领域的科学家们也试图为机器也装上这样一套系统。他们给这套系统取了一个更宏大的名字——“世界模型”。当大语言模型教会了AI写诗作画甚至做奥赛题后，世界模型要做的，是让AI真正“看懂”并“预见”这个物理世界。

东方IC
AI脑中的“内心剧场”
“世界模型”这个词听起来有点遥远，其实可以用一个生活化的画面来理解：想象AI的大脑里住着一个导演和一个剧组。这个剧组收到一张客厅照片后，不需要任何人手把手教，就能自动“推导”出茶几的背面长什么样、沙发的扶手有多大厚度，甚至还能判断如果你推它一把，它会怎么倾斜——因为AI的“内心剧场”已经在后台完成了这些物理演算。这就是世界模型。
从学术上讲，世界模型是一套让AI理解环境规律并预测未来变化的技术框架，它需要具备三大核心能力：生成性（能构建三维模拟环境）、多模态性（能同时处理图像、视频和文字信息）和互动性（能根据动作预判状态变化）。
世界模型这个想法其实并不新鲜——1943年，英国认知科学家肯尼斯·克雷克（Kenneth Craik）就提出：人类大脑是通过构建一个“小规模的外部世界模型”来理解和预测事件的；到了1960年代，AI先驱马文·明斯基将这一思想引入了计算机领域；2018年，科学家们用循环神经网络重新点燃了学界对世界模型的研究热潮。而真正让世界模型走入公众视野的，是过去两年间一系列标志性产品的发布，将这场学术探索推向了产业化的新阶段。
群雄逐鹿，各有侧重
要让AI学会“预见未来”，不同的科学家给出了截然不同的方案。目前在通往世界模型的路上，主要有三条代表性路线。
第一条路线被称为“生成派”，由谷歌DeepMind的Genie系列模型“扛旗”——Genie 2支持从文本、图片和视频生成动态3D环境；Genie 3则具备了长期时序预测、物理规律建模和场景演化能力。这种路线的做法相当“暴力美学”：给模型海量的视频数据，让它自己去“悟”出物理规律。它不需要被灌输牛顿力学公式，而是通过疯狂地预测“下一帧会发生什么”，在不知不觉中自己推导出了万有引力。
第二条路线来自“AI教母”李飞飞，她提出的“空间智能”概念，意在让AI像人类一样理解三维物理世界，而不只是处理语言符号。2024年她创办了World Labs，迅速成为AI领域的独角兽企业；2025年11月，公司推出了首款商业产品Marble——一个可以用一张图片、一段视频或一句文字提示生成可探索三维世界的工具，开创性地将生成式AI从“画一张图”推向了“造一个世界”。李飞飞团队在本月初的一篇博客文章中，将世界模型分成了三类：输出像素的“渲染器”、输出物理数据的“模拟器”、输出动作计划的“规划器”。“渲染器”的商业化跑得最快，但最大的问题是“只管好看，不管物理对不对”。“模拟器”则是最被低估的技术枢纽，因为它工作在几何和物理的层面上，既能为人类生成视觉画面，也能为机器人提供精确的行动指令；李飞飞团队的Marble已经在尝试将渲染器和模拟器统一起来。
第三条路线由图灵奖得主杨立昆领衔。杨立昆认为，与其浪费算力去预测每个像素的颜色，不如让AI学会预测“抽象特征”——就像人类开车时不需要时刻计算每一个路面纹理的细节，只要抓住关键信息就能安全驾驶。他提出的JEPA（联合嵌入预测架构）正是基于这个理念，他与团队发表了LeWorldModel，实现了从原始像素端到端稳定训练JEPA模型的新突破，在规划效率上取得了显著提升。
原创技术驱动“中国解法”
在世界模型的赛道上，我国科学家的表现同样令人瞩目——
前不久，智元机器人自研世界模型Genie Envisioner-Sim 2.0凭借优异的综合表现，在全球世界模型评测基准World Arena（世界竞技场）“感知与动作响应”榜单中位列第一。该模型采用20亿（2B）参数，功能上全面覆盖了长时序生成、多视角生成、近实时推理等多个核心环节，构建了从“感知预测”到“仿真进化”的完整技术闭环，让机器人策略能在虚拟场景中自主积累经验。
同济大学空间智能团队主导研发的“无界”世界模型同样惊艳——在World Arena权威评测中，其开源版本BLM在13个参评的开源模型中夺得全球第一，闭源版本BWM-Fast在总计86个参评模型中位列全球第二，与榜首仅差0.39分。值得注意的是，这个模型只有50亿参数，却跑赢了算力远超自身的对手，证明世界模型的关键或许不在于堆砌算力，而在于精巧的技术架构设计。
数天前，大晓机器人与合作伙伴发布全球首个实现全屋生成、个体物体全交互的世界模型统一框架。该技术突破了现有室内场景生成仅能覆盖单房间、缺乏全局一致性与可操作性的行业瓶颈，能够一键生成结构连贯、物理合理、功能完整的全屋三维场景，为具身人工智能与机器人训练提供了大规模、高保真的中国家庭场景可交互的实训场。
全球首个全屋生成、个体级物体全交互模型发布！机器人在仿真世界加速训练

东方IC
业内人士指出，世界模型的商业前景令人振奋。据初步估算，仅工业机器人训练市场，世界模型的潜在规模就达数千亿元；如果算上具身智能、影视游戏引擎、科学计算与消费级内容生成，整体天花板远超当前大语言模型的应用层。无疑，世界模型的进化，正在将AI从“看懂”世界，一步步推向“预见”世界。
原标题：《给AI装上“想象引擎”，世界模型如何让机器预见未来｜新民·科技前沿》
栏目编辑：马丹
本文作者：新民晚报郜阳
题图东方IC

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

六大洲同台竞技！第40届全国青少年科技创新大赛在西安举办

腾讯这次架构调整，藏着AI赛道的大野心

遭失控模型前所未有入侵这家公司要求OpenAI提供1亿美元算力

DeepSeek据称告知投资者暂停第二轮融资

罗永浩怒斥电视机厂商：长辈模式老人依然不会用只能加装IPTV机顶盒

日本技术人员发布宇树G1拆机视频后认输：短期内赶不上中国

全站最新

六大洲同台竞技！第40届全国青少年科技创新大赛在西安举办

腾讯这次架构调整，藏着AI赛道的大野心

遭失控模型前所未有入侵这家公司要求OpenAI提供1亿美元算力

DeepSeek据称告知投资者暂停第二轮融资

热门推荐

苹果首款防水iPad终于登场！全新iPad mini最快10月发布

六大洲同台竞技！第40届全国青少年科技创新大赛在西安举办

腾讯这次架构调整，藏着AI赛道的大野心

遭失控模型前所未有入侵这家公司要求OpenAI提供1亿美元算力

马斯克：Model S/X 的设计图纸及软件系统将全部开源

DeepSeek据称告知投资者暂停第二轮融资

罗永浩怒斥电视机厂商：长辈模式老人依然不会用只能加装IPTV机顶盒

日本技术人员发布宇树G1拆机视频后认输：短期内赶不上中国

Kimi周五北京夜店庆功，张予彤疑似现身，喊出口号“冲上月球”

特斯拉FSD v15早期版本已上路，Robotaxi车队率先搭载

遭失控模型前所未有入侵这家公司要求OpenAI提供1亿美元算力

SK集团会长崔泰源：Anthropic已就自研芯片项目寻求海力士供应

特斯拉在智利、哥伦比亚招聘AI安全员，为Robotaxi出海铺路

融资20亿，一家机器人宣布破产

当AI学会“看人下菜碟”