全球顶尖大模型一夜惨遭血洗！最难测试人类拿满分，AI第一名得0.2%分

IP属地中国·北京 新智元 时间：2026-03-26 18:18:00

新智元报道
编辑：Aeneas 好困
今夜，整个AI圈震动了。全球最难AGI测试ARC-AGI-3一上线，就把全球顶尖AI打到集体失声，人类满分通关，最强模型Opus 4.6得分仅0.2%，还不到1%。AI这是一夜被打回「原始人」了。
就在今天，这条消息把整个AI圈给震了。
众望所归的，全球唯一尚未饱和的智能体基准测试ARC-AGI-3出炉了，直接血洗了全球顶尖大模型。
在这个测试中，人类得分100%，AI的得分普遍低于1%。

这个差距，比珠穆朗玛峰还高。
最惨烈的是，在上一代测试中还能拿下69.2%高分的「模范生」Opus 4.6，在ARC-AGI-3面前直接现了原形，得分仅为0.2%。

这位曾经横扫各大榜单的「学霸」，连蒙带猜都拿不到1分。
这面镜子，照出了当前AI能力中最深的裂缝。

在最近的采访中，老黄认为我们已经实现了AGI。但是ARC-AGI-3显示，或许如今的AI连1%的AGI都没有实现。

ARC-AGI-3，到底有多变态
它的前身ARC-AGI-1和ARC-AGI-2，已经是AI圈出了名的「魔鬼测试」。

那些测试里，AI需要观察几个示例，然后推断出网格变换的规律，完成新任务。
听起来不难？但就是这些看起来像幼儿园连线题的东西，曾经让无数大模型铩羽而归。
而到了ARC-AGI-3，难度直接换了个维度：从「静态题」变成了「互动游戏」。

150多个手工设计的交互式游戏环境，包含1000多个关卡。
每个游戏都有自己的内在逻辑、隐藏规则和通关条件。但没有任何说明文档，没有自然语言提示，没有人告诉你「左边的按钮会开门」或者「收集三个红色方块就能过关」。

AI智能体被丢进去，只能看到当前画面，选择一个动作，观察结果，再决定下一步。
它只能像盲人摸象一样，一步一步试探，然后在大脑里拼凑出一个「这个世界可能是这样运作的」的模型。

这正是ARC Prize基金会想测的四件事。
探索：能不能通过主动与环境互动来获取关键信息？
建模：能不能把零散的观察凝聚成一个可以预测未来状态的世界模型？
目标获取：没有人下达指令，能不能自己判断出「我应该以什么为目标」？
规划与执行：能不能规划出行动路径，并根据环境反馈随时修正？

「几何级数」的羞辱：0.2%是怎么来的？
评分标准同样残忍。
ARC-AGI-3的评分不看「有没有通关」，而是看「效率」，而且是和人类比效率。
这在AI基准测试的历史上，还是头一回。

受Chollet那篇《论智能的衡量》的启发，ARC Prize团队把「智能」操作化为一个转换率：
你从环境中获取信息的效率有多高？你把这些信息转化为正确行动的速度有多快？
假设人类解决这个游戏需要10步，而AI用了100步，那AI的得分是多少？
不是10%，而是1%。
公式是：(人类步数/AI步数)²。人类10步，AI 100步，那就是(10/100)²=0.01=1%。
如果AI用了200步，这一数字就是0.25%；500步就是0.04%。

这一下，把AI所有的「蛮力」路都堵死了。
以前AI可以靠穷举，把所有可能的操作试一遍，总能试出正确路径。
但在这种评分体系下，你多试一步，分数就断崖式下跌。
现在，你就知道了Opus 4.6得分只有0.2%的意味——
假设人类解决某个游戏用了10步，0.2%=0.002，开平方≈0.0447，10÷0.0447≈224步。
这已经不是「笨」了，这是在迷宫里原地转圈到天荒地老。
当这种差距被如此强烈地展示出来，很多以为AGI近在眼前的人，都震惊了。

350步 vs 两三下：成绩单全景
在正式发布之前，ARC-AGI-3跑了一轮为期30天的开发者预览。
三款公开游戏从地图导航到图案匹配再到水位调节，题目类型各异，但有一个共同点：人类觉得简单，AI觉得要命。

1200多名人类玩家参与了测试，完成了3900多场游戏。
大部分人不仅轻松过关，还玩得很开心，有些执着的玩家甚至一路「速通」挑战到了理论最优步数。
人类基线：100%。AI这边，前沿大模型得分全部低于1%。

预览期的冠军叫StochasticGoose，来自Tufa Labs。
它不是大模型，而是一个基于卷积神经网络的动作学习型智能体，用简单的强化学习来预测哪些操作会导致画面变化。最终得分12.58%，已经是所有参赛系统里最高的了。
但即便是这个冠军，在一款调水位的游戏里，开局也花了将近350步做无效的点击操作。
350步。人类大概只需要点两三下就能搞明白的事。
更反直觉的是，排行榜的前三名全是非LLM方案——CNN、基于规则的状态图探索、无需训练的帧图搜索。
一个基于CNN的方案，比GPT-5.x系列高出12个百分点以上。而那些接入了前沿大模型的智能体，成绩反而经常垫底，有的甚至频繁崩溃。

AI把自己坑了
ARC团队还发现一个特别有意思的现象。
AI的主要失败模式之一是：「以为自己在玩另一个游戏」。
比如，你被蒙上眼睛，扔进一个房间。
你摸到了一个圆形的物体，于是你断定：「这是个篮球场，我应该投篮。」但事实上，你拿的可能是一个西瓜，而房间其实是一个厨房。
AI犯的就是这样的错。
它在一个全新的环境里，看到一些初始的视觉信息，然后迅速给自己「脑补」了一个游戏框架，接着就沿着这个错误的假设疯狂执行计划，越走越偏，越偏越远。

它不会停下来想：等等，我怎么好像一直没得到正反馈？是不是我的假设错了？
因为当前的AI，缺乏一种「元认知」能力。也就是说，它不知道自己不知道。
这解释了为什么大模型反而垫底。
参数量越大、预训练知识越丰富的模型，越容易把陌生环境「脑补」成自己见过的东西，然后死磕到底。
而那些轻量级的CNN智能体和图搜索系统，反倒因为没有「先入为主」的包袱，能老老实实地从环境反馈中学习。

为什么人类能轻松通关？
ARC团队在文档里写了一句话：「人类不会蛮力行事。他们会构建思维模型，检验想法，并迅速改进。」
首先第一步，人类会构建思维模型。
一个人类玩家面对一个全新游戏时，第一件事不是「瞎点」，而是观察。几分钟之内，一个粗糙但可用的「世界模型」就建成了。
第二步，人类会检验想法。
如果结果和预期一致，模型得到强化。如果不一致，模型立即修正。
第三步，人类会迅速改进。错了就改，改了再试。
这种「探索-建模-验证-修正」的循环，在人类身上几乎是本能的。
而AI呢？只是一个「记住了很多答案」的应试高手，它的「学习」和人类的「学习」根本不是一个物种。
人类的学习是在线、交互、假设驱动的；AI的学习是离线、数据驱动、模式匹配的。
ARC-AGI-3没有任何「题海战术」可以覆盖，它考的是「怎么学习」。这恰恰是目前AI最弱的一环。

目前，这场挑战赛的奖金池高达85万美元，其中70万美元是给「满分通关者」的终极大奖。
参赛者必须完全开源代码，并且在无网环境下接受评估。这意味着你不能偷偷调用云端大模型，不能偷偷联网查资料。

和人类这个珠穆朗玛峰的差距，有AI能克服吗？
让我们静待结果。
参考资料：
https://x.com/Hesamation/status/2036861818321146306
https://arcprize.org/arc-agi/3
https://docs.arcprize.org/
https://x.com/fchollet/status/2036881543973790004

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

塔塔电子被黑，部分iPhone 18 Pro与苹果A20 Pro资料确认泄露

突发！苹果深夜大涨价，黄牛疯狂囤货，iPhone 18危险了

DeepSeek深夜发文：开启大规模“抢人”

SpaceX IPO后股价动荡 OpenAI倾向于推迟至明年上市

别再说电车像手机了手机半年可出不了500款

全国运营商首个！华为联合湖北移动完成AI推理加速现网测试：Token吞吐率大增372%

全站最新

塔塔电子被黑，部分iPhone 18 Pro与苹果A20 Pro资料确认泄露

突发！苹果深夜大涨价，黄牛疯狂囤货，iPhone 18危险了

DeepSeek深夜发文：开启大规模“抢人”

SpaceX IPO后股价动荡 OpenAI倾向于推迟至明年上市

热门推荐

塔塔电子被黑，部分iPhone 18 Pro与苹果A20 Pro资料确认泄露

突发！苹果深夜大涨价，黄牛疯狂囤货，iPhone 18危险了

DeepSeek深夜发文：开启大规模“抢人”

SpaceX IPO后股价动荡 OpenAI倾向于推迟至明年上市

别再说电车像手机了手机半年可出不了500款

全国运营商首个！华为联合湖北移动完成AI推理加速现网测试：Token吞吐率大增372%

DeepSeek全网招人：从来不找天才让新人直接承担最核心任务

车企不愿再做“宁德时代”的附庸后者能忍？

美国政府要求OpenAI分阶段发布GPT-5.6 奥特曼督促员工配合

苹果涨价自身也有责任美光高管：压价采购加剧了内存荒

监管重锤没落完，携程还有最后一跌？

中兴布局终端AI再进一步，新一代AI手机或近期发布，引领智能交互新体验

专业版豆包实测：68元付费体验，办公效率升级还是“智商税”？

消费锚定新价值：新周期下父爱经济的升级蜕变

四川发布79项应用场景开放清单