当前位置: 首页 » 资讯 » 科技头条 » 正文

全球顶尖大模型一夜惨遭血洗!最难测试人类拿满分,AI第一名得0.2%分

IP属地 中国·北京 新智元 时间:2026-03-26 18:18:00


新智元报道

编辑:Aeneas 好困

今夜,整个AI圈震动了。全球最难AGI测试ARC-AGI-3一上线,就把全球顶尖AI打到集体失声,人类满分通关,最强模型Opus 4.6得分仅0.2%,还不到1%。AI这是一夜被打回「原始人」了。

就在今天,这条消息把整个AI圈给震了。

众望所归的,全球唯一尚未饱和的智能体基准测试ARC-AGI-3出炉了,直接血洗了全球顶尖大模型。

在这个测试中,人类得分100%,AI的得分普遍低于1%。


这个差距,比珠穆朗玛峰还高。

最惨烈的是,在上一代测试中还能拿下69.2%高分的「模范生」Opus 4.6,在ARC-AGI-3面前直接现了原形,得分仅为0.2%。


这位曾经横扫各大榜单的「学霸」,连蒙带猜都拿不到1分。

这面镜子,照出了当前AI能力中最深的裂缝。


在最近的采访中,老黄认为我们已经实现了AGI。但是ARC-AGI-3显示,或许如今的AI连1%的AGI都没有实现。


ARC-AGI-3,到底有多变态

它的前身ARC-AGI-1和ARC-AGI-2,已经是AI圈出了名的「魔鬼测试」。


那些测试里,AI需要观察几个示例,然后推断出网格变换的规律,完成新任务。

听起来不难?但就是这些看起来像幼儿园连线题的东西,曾经让无数大模型铩羽而归。

而到了ARC-AGI-3,难度直接换了个维度:从「静态题」变成了「互动游戏」。


150多个手工设计的交互式游戏环境,包含1000多个关卡。

每个游戏都有自己的内在逻辑、隐藏规则和通关条件。但没有任何说明文档,没有自然语言提示,没有人告诉你「左边的按钮会开门」或者「收集三个红色方块就能过关」。


AI智能体被丢进去,只能看到当前画面,选择一个动作,观察结果,再决定下一步。

它只能像盲人摸象一样,一步一步试探,然后在大脑里拼凑出一个「这个世界可能是这样运作的」的模型。


这正是ARC Prize基金会想测的四件事。

探索:能不能通过主动与环境互动来获取关键信息?

建模:能不能把零散的观察凝聚成一个可以预测未来状态的世界模型?

目标获取:没有人下达指令,能不能自己判断出「我应该以什么为目标」?

规划与执行:能不能规划出行动路径,并根据环境反馈随时修正?


「几何级数」的羞辱:0.2%是怎么来的?

评分标准同样残忍。

ARC-AGI-3的评分不看「有没有通关」,而是看「效率」,而且是和人类比效率。

这在AI基准测试的历史上,还是头一回。


受Chollet那篇《论智能的衡量》的启发,ARC Prize团队把「智能」操作化为一个转换率:

你从环境中获取信息的效率有多高?你把这些信息转化为正确行动的速度有多快?

假设人类解决这个游戏需要10步,而AI用了100步,那AI的得分是多少?

不是10%,而是1%。

公式是:(人类步数/AI步数)²。人类10步,AI 100步,那就是(10/100)²=0.01=1%。

如果AI用了200步,这一数字就是0.25%;500步就是0.04%。


这一下,把AI所有的「蛮力」路都堵死了。

以前AI可以靠穷举,把所有可能的操作试一遍,总能试出正确路径。

但在这种评分体系下,你多试一步,分数就断崖式下跌。

现在,你就知道了Opus 4.6得分只有0.2%的意味——

假设人类解决某个游戏用了10步,0.2%=0.002,开平方≈0.0447,10÷0.0447≈224步。

这已经不是「笨」了,这是在迷宫里原地转圈到天荒地老。

当这种差距被如此强烈地展示出来,很多以为AGI近在眼前的人,都震惊了。


350步 vs 两三下:成绩单全景

在正式发布之前,ARC-AGI-3跑了一轮为期30天的开发者预览。

三款公开游戏从地图导航到图案匹配再到水位调节,题目类型各异,但有一个共同点:人类觉得简单,AI觉得要命。



1200多名人类玩家参与了测试,完成了3900多场游戏。

大部分人不仅轻松过关,还玩得很开心,有些执着的玩家甚至一路「速通」挑战到了理论最优步数。

人类基线:100%。AI这边,前沿大模型得分全部低于1%。


预览期的冠军叫StochasticGoose,来自Tufa Labs。

它不是大模型,而是一个基于卷积神经网络的动作学习型智能体,用简单的强化学习来预测哪些操作会导致画面变化。最终得分12.58%,已经是所有参赛系统里最高的了。

但即便是这个冠军,在一款调水位的游戏里,开局也花了将近350步做无效的点击操作。

350步。人类大概只需要点两三下就能搞明白的事。

更反直觉的是,排行榜的前三名全是非LLM方案——CNN、基于规则的状态图探索、无需训练的帧图搜索。

一个基于CNN的方案,比GPT-5.x系列高出12个百分点以上。而那些接入了前沿大模型的智能体,成绩反而经常垫底,有的甚至频繁崩溃。


AI把自己坑了

ARC团队还发现一个特别有意思的现象。

AI的主要失败模式之一是:「以为自己在玩另一个游戏」。

比如,你被蒙上眼睛,扔进一个房间。

你摸到了一个圆形的物体,于是你断定:「这是个篮球场,我应该投篮。」但事实上,你拿的可能是一个西瓜,而房间其实是一个厨房。

AI犯的就是这样的错。

它在一个全新的环境里,看到一些初始的视觉信息,然后迅速给自己「脑补」了一个游戏框架,接着就沿着这个错误的假设疯狂执行计划,越走越偏,越偏越远。


它不会停下来想:等等,我怎么好像一直没得到正反馈?是不是我的假设错了?

因为当前的AI,缺乏一种「元认知」能力。也就是说,它不知道自己不知道。

这解释了为什么大模型反而垫底。

参数量越大、预训练知识越丰富的模型,越容易把陌生环境「脑补」成自己见过的东西,然后死磕到底。

而那些轻量级的CNN智能体和图搜索系统,反倒因为没有「先入为主」的包袱,能老老实实地从环境反馈中学习。


为什么人类能轻松通关?

ARC团队在文档里写了一句话:「人类不会蛮力行事。他们会构建思维模型,检验想法,并迅速改进。」

首先第一步,人类会构建思维模型。

一个人类玩家面对一个全新游戏时,第一件事不是「瞎点」,而是观察。几分钟之内,一个粗糙但可用的「世界模型」就建成了。

第二步,人类会检验想法。

如果结果和预期一致,模型得到强化。如果不一致,模型立即修正。

第三步,人类会迅速改进。错了就改,改了再试。

这种「探索-建模-验证-修正」的循环,在人类身上几乎是本能的。

而AI呢?只是一个「记住了很多答案」的应试高手,它的「学习」和人类的「学习」根本不是一个物种。

人类的学习是在线、交互、假设驱动的;AI的学习是离线、数据驱动、模式匹配的。

ARC-AGI-3没有任何「题海战术」可以覆盖,它考的是「怎么学习」。这恰恰是目前AI最弱的一环。


目前,这场挑战赛的奖金池高达85万美元,其中70万美元是给「满分通关者」的终极大奖。

参赛者必须完全开源代码,并且在无网环境下接受评估。这意味着你不能偷偷调用云端大模型,不能偷偷联网查资料。


和人类这个珠穆朗玛峰的差距,有AI能克服吗?

让我们静待结果。

参考资料:

https://x.com/Hesamation/status/2036861818321146306

https://arcprize.org/arc-agi/3

https://docs.arcprize.org/

https://x.com/fchollet/status/2036881543973790004

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。