DeepMind一篇论文终结十年之争！GPT-5推理靠世界模型

IP属地中国·北京 新智元 时间：2025-10-31 14:12:12

新智元报道
编辑：倾倾
GPT-5的惊艳之处，不只是写得好，还有超强的推理能力。近期的一个研究揭示了其中的秘密：通用智能体之所以聪明，不是因为参数更大，而是因为它们在脑子里长出了一张「世界模型」。而这张隐形的地图，也正在改变我们对AI的理解。
GPT-5上线后，最让人震惊的不是它能写诗画画，而是它展现出的推理能力。
网友惊呼：「感觉像是在和博士讨论问题」，媒体更是直言它的逻辑水平已经「堪比专家」。
为什么会出现这种「突然开窍」的效果？
最新的一篇研究给出了答案：
通用智能体之所以能推理，不靠死记硬背，而是因为它们在脑子里悄悄长出了一张「世界模型」。

论文传送门：https://arxiv.org/pdf/2506.01622
是模仿还是思考？学界吵了十年
什么是「世界模型」？简单来说，它就是AI脑子里的预测地图。
对于人类来说，我们的脑子里天生带有预测的功能：
球在桌子边滚动→它可能会掉下去
开车的时候，看到红灯→如果不刹车可能出事故
两个人对话，其中一个人说「我饿了」→下一步很可能是找吃的
那对于AI来说，是怎样的呢？
在过去的十几年里，学界一直在争吵——AI到底能不能只靠模仿（无模型学习），也能解决复杂任务？
「模仿派」认为，只要有足够多的数据+强大的算力，AI就能像条件反射一样给出正确答案。
在GPT-3.5时代，大部分AI的回答都像「背题库」，有时候蒙对，有时候完全错误。
与之相反的则是「思考派」。他们坚持如果没有世界模型，AI永远只是鹦鹉学舌。
一旦问题需要多步逻辑，比如解数学习题、规划一个流程，纯模仿型AI就会掉链子。

最近，有一研究给这些争论按下了终止键：
只要一个智能体真的能完成多步、复杂的目标任务，它的策略里必然隐含了世界模型。
在学术框架里，「目标、策略、世界模型」曾经像一个缺角的三角形。
已知世界模型和目标，可以推导出最优策略；已知策略和世界模型，可以反推出目标。

图1 目标g、策略π、世界模型p之间的三角关系
而现在最后一角也被补齐——只要知道智能体的策略和目标，就能恢复出它的世界模型。
这个推导让「世界模型不可或缺」的结论更加稳固。
也就是说，GPT-5之所以能展现出惊人的推理能力，是因为在训练过程中，它体内的「世界模型」。
可以说，没有世界模型，就没有真正的通用智能。
探究AI脑子里的地图
仅有理论还不够，研究团队决定深入检查。
既然说智能体一定会「长出」世界模型，那么我们能否在实验室里，把这张隐形的「地图」抓出来？
给AI搭建的「迷你世界」
为了验证AI体内是否真的存在世界模型，研究团队设计了一个巧妙的实验。
他们搭建了一个虚拟世界，里面只有几个状态（X、Y），它们会按一定概率互相跳转。
然后研究员将任务交给智能体，让它自己摸索。
最后，研究人员尝试只根据智能体的行为，反推出它脑子里是不是已经学会了这些概率。

图2 智能体-环境系统示意图
任务越复杂，误差反而越小
刚开始，智能体在简单目标里乱撞，恢复出来的世界模型差错很多，还有一堆错误。
可当任务变得复杂（比如要先到X，再转到Y），情况就完全不同：它会自动搭建出更精细的「转移概率表」。
随着任务深度增加，误差迅速下降。

图3 任务复杂度vs世界模型误差曲线
无论是训练样本还是任务深度，结果都一边倒——任务越复杂，世界模型越准确。
实验员还尝试了更复杂的目标组合：智能体需要在不同状态之间来回跳转，才能完成目标。

图4 复合目标实验示意图
结果依旧成立。即使任务被拆解得更复杂，它体内的世界模型依然能被稳定恢复出来。
没有世界地图，就没有真正的智能
数学推理也印证了这一点。
实验表明，只要一个智能体在复杂任务里不会频繁犯低级错误，始终能保持有限的「后悔值」，它的策略中就必然已经包含了环境的转移规律。
也就是说——世界模型不是AI的点缀，而是它进化的必需品。
智能体越强，心里的「小九九」就越多。
这就是为什么GPT-5会让人觉得「突然会推理了」，其实是它体内越来越清晰的世界模型。
一张地图带来的希望与隐忧
实验告诉我们：只要AI能完成复杂任务，它的脑子里就一定有一个「世界地图」。
这也解释了近来最热门的现象——所谓的「涌现能力」。
研究表示，这并不是魔法，而是世界模型在任务中逐渐清晰的自然结果。
我们以为GPT-5突然会推理，其实是因为它体内的世界模型在任务中逐渐清晰，于是能力自然显现。
这让人类看到了希望：如果世界模型真的存在，我们或许有机会把它抽离出来，借此理解AI的内心剧场。
未来，当它越来越强时，这可能成为破解黑箱、提升安全性的关键。
但这也埋下了隐忧的种子。
真实世界远比实验室复杂，AI学到的地图也许是模糊不完整的，甚至与人类理解不一致。
可能它觉得安全，而我们觉得危险。
对研究者来说，这也是一个转机。
既然世界模型必然存在，那么我们或许能在未来把它抽取出来，用来解释和验证AI的行为。
这意味着，破解「黑箱」不再只是愿景，而可能有了真正的理论支撑。
所以，GPT-5带来的震惊不只是「它会推理」，更深层的意义在于：AI已经能在脑海里搭建自己的世界地图。
而这张地图，既可能是通向智慧的通行证，也可能是未来不确定性的源头。
参考资料：
https://arxiv.org/abs/2506.01622

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

罗永浩锤子软件在上海成立分公司

豆包视频生成大升级，网友们的脑洞终于自带音效了

字节跳动被传全年利润500亿美元创新高知情人士回应：数据不实偏差较大

大疆的“印钞机”，被手机厂商盯上了

特斯拉专利给摄像头装“电动墨镜”提升自动驾驶可靠性

独家丨山姆系高管入职京东数月「闪退」，其负责的自有品牌事业部接连调整

全站最新

罗永浩锤子软件在上海成立分公司

豆包视频生成大升级，网友们的脑洞终于自带音效了

字节跳动被传全年利润500亿美元创新高知情人士回应：数据不实偏差较大

大疆的“印钞机”，被手机厂商盯上了

热门推荐

“茅台系”华贵人寿增资至26亿，开业八年累计亏近12亿，还有募资计划在推进中

罗永浩锤子软件在上海成立分公司

豆包视频生成大升级，网友们的脑洞终于自带音效了

字节跳动被传全年利润500亿美元创新高知情人士回应：数据不实偏差较大

大疆的“印钞机”，被手机厂商盯上了

特斯拉专利给摄像头装“电动墨镜”提升自动驾驶可靠性

独家丨山姆系高管入职京东数月「闪退」，其负责的自有品牌事业部接连调整

笑疯了！AI开小卖部被人类骗到破产，PS5竟然0元送

「一脑多形」圆桌：世界模型、空间智能在具身智能出现了哪些具体进展？丨GAIR 2025

奥动新能源港股IPO：“报表优化”后的盈利迷雾

Karpathy2025年AI终极复盘：我们还没发挥出LLM潜力的10%

百人会张永伟：2026年车市2%微增长，行业出清将加速

为船舶配备“AI 护航员” 我国首套全国产化VTS系统落地大连

说句话就能改文档！微软Copilot新增语音实时编辑功能

保时捷718纯电版被拍到开启第四轮冬测，研发周期破纪录