大模型刷爆所有考试，却离AGI更远了：这篇论文拆穿了什么？

IP属地中国·北京 编辑：柳晴雪钛媒体APP 时间：2026-05-28 10:15:43

如果有人告诉你，AGI（通用人工智能）已经实现了，你怎么判断他是在说真话，还是在吹牛？
在OpenAI与微软曝光的秘密协议里，这把尺子是财务报表——开发出能产生至少1000亿美元利润的AI系统就算AGI。而在黄仁勋嘴里，这把尺子是时间——五年内必现；马斯克更是屡次放出“明年达成”的预言。
行业大佬们各说各话，根源不在于谁在说谎，而在于AGI这个概念本身，根本就没有一把公认的尺子。正如AGI研究领域中一位有独立思考的研究者Bennett在论文中所说，AGI已被炒作和猜测还原成了“罗夏墨迹测试”——每个人看到的只是自己心里的想象，而非客观事实；而圣塔菲研究所科学家Melanie Mitchell也认为，这场辩论只能通过长期的科学研究来厘清。（附论文地址：https://arxiv.org/pdf/2503.23923）
这是AI行业当下最荒诞的困境：我们正在全速狂奔，去追逐一个连终点线都没画清楚的目标。
2025，谁在重画AGI的起跑线？
面对这种定义真空，学术界在2025年开始密集“补位”。Bengio等学者强调“多功能性”和“熟练度”；DeepMind提出“分布式AGI”，试图打破单体全能的迷思。
但澳大利亚国立大学的研究员Michael Timothy Bennett，在3月底提交到arXiv的一篇论文中，给出了一个极具挑衅性却也最切中肯綮的答案。
他指出，前人的定义绕来绕去，依然在跟“受过教育的成年人”较劲。Bennett采纳了学者Pei Wang对智能的定义——将智能视为有限资源下的适应能力——从根本上跳出了“像人”的框架，并将AGI定义为一种“人工科学家”。
他提出，真正的AGI应当是一个能在计算、记忆和能量等现实约束下，像人类科学家一样广泛、高效且科学地适应新环境和任务的系统。
这句话的潜台词是：评判AGI的标准，不该是它模仿人类有多像，而是它“发现新知”的能力有多强。
为什么急需一把新尺子？因为旧尺子——图灵测试和人类基准测试——已经被大模型刷爆了，但我们却离真正的通用智能越来越远。
2025年，如果你问一个顶尖大模型“9.11和9.9哪个大”，它依然可能信誓旦旦地告诉你9.11大，因为11大于9。在解决复杂的数学不等式证明时，大模型即便蒙对了答案，推理过程也往往是逻辑崩溃的。
Bennett一针见血地指出了病因：当前的大模型走的是“规模最大化的近似”路线——用海量数据和算力，把各种任务的近似答案提前存在网络权重里。一旦遇到没见过的分布外问题，就立刻露馅。
更致命的是，大模型没有“主动能力”。它无法主动做实验验证猜想，无法自主构建因果链条，更无法在“继续探索”与“利用已知”之间做权衡。
回到9.11和9.9的比较——大模型不是不会算术，而是它根本没有建立关于数字比较的因果模型。它只是在用概率去猜那个它见过的、最接近的文本片段。
“模仿能力”与“适应能力”之间的鸿沟，正是新AGI标准想要测量的核心。
智能的新刻度：拆解“人工科学家”
Bennett的这套标准之所以值得重视，是因为他把AGI从一个模糊的哲学命题，降维成了可量化的工程问题。
在他看来，一个真正的AGI，其行为模式应该完美对齐人类科学家的研究范式：

第一，从“提线木偶”到“主动实验者”。
今天的AI是彻头彻尾的被动学习者，只能“看”人类喂给它的数据。但科学家不是，如果一个科学家被锁在一个陌生房间里，他绝不会站在原地等信息，而是会去推门、拉把手、检查窗户——这就是“主动实验”。真正的AGI，必须能自主规划实验，通过主动交互获取关键信息。

第二，从“知其然”到“知其所以然”。
这是当前AI最大的短板。大模型是极端的“相关性学习器”，它知道“下雨”常伴随“地湿”，但不知道是谁导致了谁。只有理解了因果，才懂得在晴空万里但地面湿润时，推断出是洒水车经过而非即将下雨。没有因果理解，AI永远只能在训练数据的分布内打转，这与“通用”毫不相干。

第三，在“探索”与“利用”之间走钢丝。
如果只探索不利用，掌握再多知识也解决不了眼前问题；如果只利用不探索，环境一变就束手无策。AGI必须在资源受限下动态平衡这对矛盾——知道自己不知道什么，并据此分配算力。
此外，Bennett还加入了一个极具现实感的维度：能量限制。把“能量”写进定义，意味着他划清了一条底线：真正的智能不是拥有无限资源，而是在有限资源下优雅地适应。需要消耗一座核电站才能解决新问题的AI，只是昂贵的计算器，不是AGI。
通向AGI的路线重置：告别单一Scaling Law
基于上述框架，Bennett把当前构建智能系统的元方法拆解为三类：
Scale-maxing（规模最大化）：当前主流的大模型路线，拼命堆参数、数据和算力。但瓶颈已经显现：样本和能量效率极低。
Simp-maxing（简单性最大化）：追求模型结构的极致简洁，信奉奥卡姆剃刀。但简单性是形式的属性而非功能的属性——不同图灵机下的“最简”可能完全不同，使其难以摆脱主观性陷阱。
W-maxing（约束弱化最大化）：尽可能弱化功能约束，让系统自行寻找最优解。实验表明，仅W-maxing就能在特定任务上实现110%-500%的泛化率提升，但它需要搜索无限的硬件形态空间，优化难度极高。
Bennett的结论极其清晰：尽管Scale-maxing目前占据绝对主导，但AGI绝不是靠单一路线的暴力美学能达成的，它必然是多种元方法的融合。
如果“人工科学家”的定义被广泛接受，AI行业将迎来一次深层的范式转移。
评判标准将彻底改变。我们不再需要看大模型在人类考试排行榜上又超了多少分，而是建立一套“适应性基准”：把AI扔进一个从未见过的物理环境，看它能否在有限交互内发现规律；给它一个新游戏，看它能否比人类更快理解规则；甚至让它去解决真实的科学问题，看它能否自主提出假说并设计实验验证。核心不再是“你知道多少”，而是“你能发现多少”。
技术路线也将随之转向。单纯的Scaling Law很快会触顶，因为被动接收的数据喂不出因果性。搜索与近似、规模最大化与约束弱化——AGI的达成必然是多种工具和元方法的融合，而非单一路线的延伸。
Bennett的论文之所以重要，不是因为他给出了AGI的终极答案，而是他把这面名为“智能”的模糊镜子擦干净了一角。他让我们看到，AGI的实现不是大模型的线性迭代，而是一次路线重置。
AGI到底该是什么样？答案不在那些越来越像人的对话，而在那些能够主动追问“为什么”、并亲手去验证答案的能力中。当AI真正走出“罗夏墨迹测试”的迷雾，它将不再只是模仿人类的样子，而是拥有科学家的精神。(本文首发钛媒体APP，作者 | 硅谷tech news，编辑 | 赵虹宇)

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

腾讯启动2027“青云计划”校招，实习生有机会享正式员工薪资待遇

智能体时代，大模型到底拼什么？

AI创业时代 “一人公司”跑出“千军万马”

Lucid否认考虑私有化或破产申请传闻股价盘中一度暴跌逾50%

Anthropic高管：因成本顾虑削减AI使用是错误选择

嫦娥六号月壤研究新成果，揭示地球磁层的“调速器”效应

全站最新

腾讯启动2027“青云计划”校招，实习生有机会享正式员工薪资待遇

智能体时代，大模型到底拼什么？

AI创业时代 “一人公司”跑出“千军万马”

Lucid否认考虑私有化或破产申请传闻股价盘中一度暴跌逾50%

热门推荐

腾讯启动2027“青云计划”校招，实习生有机会享正式员工薪资待遇

智能体时代，大模型到底拼什么？

AI创业时代 “一人公司”跑出“千军万马”

人工智能文创产业基地揭牌启用阅文侯晓楠：重点做好三件事

Lucid否认考虑私有化或破产申请传闻股价盘中一度暴跌逾50%

Anthropic高管：因成本顾虑削减AI使用是错误选择

嫦娥六号月壤研究新成果，揭示地球磁层的“调速器”效应

百度为苹果智能提供AI搜索功能

IBM发布Power自主运维AI智能体，可自动监控并修复系统问题

小鹏加速高阶智驾出海，第二代VLA模型在德国通过本地化测试

比亚迪官宣：辅助驾驶车型保有量超333万辆，天神之眼日生成数据达2.1亿公里

恶意软件伪装成NVIDIA软件！可远程控制Windows主机

华为实习生晒万元月薪冲上热搜，网友：三瓜俩枣具象化了

满眼血红色，头晕眼花！麻辣王子「光污染广告」惹怒乘客，深圳地铁听劝整改

矿主袁源14亿揽入艾艾精工，“脱星摘帽”后7个交易日股价飙涨60%