![]()
这项由厦门大学多媒体可信感知与高效计算教育部重点实验室及人工智能研究院联合开展的研究,于2026年5月以预印本形式公开发布,论文编号为arXiv:2605.17278,有兴趣深入了解的读者可以通过该编号在arXiv平台查阅完整论文。
当我们说某个人"聪明"时,往往不只是说他能背下很多知识,更重要的是他能从新情况中举一反三、推陈出新。这种能力在认知科学里有个专门的名字——抽象推理能力。对于人工智能来说,检验它是否真正具备这种能力,一直是个令人头疼的难题。
事情的困境在于,目前评测AI推理能力的"考卷",要么是人工精心设计的,规模太小;要么是从互联网大规模收集的,但AI很可能在训练时已经"背过答案",考的是记忆力而非真实的推理能力。厦门大学的研究团队决定正面解决这个两难困境,他们开发了一套名为A?RBench的全自动化流水线——让AI自己设计考题、自己扩充题库、自动验证题目质量,再让其他AI来作答,最后还能分析"答题思路对不对"。更关键的是,他们用一套数学证明来保证每道题都有且仅有一个正确答案,彻底排除了题目本身含糊不清的可能性。
用这套系统考完目前最主流的14款大型语言模型之后,研究结果相当令人警醒:排名第一的模型在代表性题目上得分仅有39.8%,而参与测试的人类平均得分高达68.5%。AI,远比我们以为的更不擅长真正的推理。
一、一份普通考卷为什么难以公平地考察AI的推理能力
考察AI是否真正懂得"推理",其实比考察一个人难得多。假设你出了一道数学题,AI做对了——但问题是,它可能是在训练数据里见过一模一样的题,直接"背"出了答案。这种情况叫做"测量的是记忆而非推理",就像让一个学生做去年的高考原题,做对了不能说明他真正理解了数学。
研究界为了解决这个问题,一般有两条路可走。一条路是请专家手工设计全新的题目,确保AI没有见过,比如著名的ARC(抽象推理语料库)测试,里面的题目都是人工精心绘制的视觉逻辑谜题。这种做法质量高,但代价也高——ARC花了大量人力只制作了约1000道题,规模扩展极其困难。另一条路是大规模自动收集网络数据,比如GSM8K(8500道数学应用题)或BIG-bench测试集,数量够多,但题目来自互联网,AI在训练时很可能早就见过,测的是"熟悉程度"而非"推理深度"。
厦门大学的团队意识到,这不是"鱼与熊掌不可兼得"的无解困境,而是一个可以用技术手段突破的工程问题。他们的核心策略是:让AI生成题目,但用数学方法来验证每道题的质量,确保题目逻辑严密、答案唯一。这样就能同时拥有规模和质量。
二、这套"自动出题系统"是怎么工作的
整个A?RBench系统由四个环节首尾相扣,就像一条精密的生产流水线。
第一个环节叫"种子生成",负责创造全新的题目类型。系统会让一个AI(被称为"作者模型")扮演一位逻辑谜题设计师,从ARC测试集中随机抽取20条规则作为灵感来源——注意,这些只是灵感,不是直接复用,相当于给设计师看几个例子说"大概是这类风格"。作者模型需要完成两步工作:首先用自然语言描述一条全新的双向可逆规则(比如"把序列的前半部分和后半部分交叉穿插"),然后把这条规则写成可执行的Python代码,同时实现正向函数f(把输入变换成输出)和反向函数g(把输出还原回输入)。
这里有一个关键的质量把关机制。每当作者模型写完代码,系统就会自动运行一个"循环一致性检验":把任意输入x交给f处理得到y,再把y交给g处理,看看能不能还原成原来的x。如果g(f(x)) = x对所有输入都成立,这道题才算通过验证。如果不等于x,说明代码有逻辑错误,自动淘汰。
为什么这个检验如此重要?研究团队为此建立了完整的数学证明框架,证明了一个叫做"定理3.1"的结论:只要一道题的正反函数通过了循环一致性检验,就可以从数学上保证这道题有且仅有一个正确答案,属于"良定义问题"。这背后的逻辑是:如果f是可以被g完整还原的,那么f就一定是"一一对应"的映射——不同的输入会产生不同的输出,答案不可能含糊。数学上把这种映射叫"双射",它从根本上排除了"一个输入对应多个输出"(答案不唯一)或"多个输入对应同一个输出"(无法验证)两种情况。
种子生成完成后,每道种子题要经过另一个AI("评审模型")的最终审核,过滤掉过于简单的平凡情况,比如"什么都不做就原样返回"这种毫无意义的变换。
第二个环节叫"任务扩展",负责低成本地扩充题库数量。核心思路是:既然规则代码已经经过严格验证,就不必每次都重新发明新规则,只需要为同一条规则生成不同的输入数据就行了。一个"扩展模型"会扮演质量测试工程师,为每道种子题生成最多9个变体,策略上分三个阶段推进:前三个变体(V1-V3)是标准情况,验证AI对规则的基本理解;中间三个变体(V4-V6)是边缘情况,比如空列表、极短序列、边界值,测试鲁棒性;最后三个变体(V7-V9)是复杂对抗情况,专门选择容易迷惑AI的输入,进行压力测试。这种"复用规则、更换输入"的策略极其经济:生成一道种子题的平均成本是0.19美元,而扩展一个变体仅需0.005美元,成本降低了38倍,整个数据集1054道题的总花费仅约16.86美元。作为对比,研究团队估算人工标注ARC那样的任务每道题约需25到50美元,GSM8K约需8到12美元。
第三个环节是"评测",让其他模型来实际解答这些题目。题目的呈现方式类似于"找规律"测试:给出若干个示例的输入输出对(比如展示5个例子),让模型推断出背后的规则,再对新输入给出正确答案。除了直接评测准确率,系统还会额外做一项"符号替换"测试:对于纯结构性的逻辑题(不依赖具体数字或字母含义的题目),把所有符号换成不常见的替代符号(比如把"0"换成"a",把"1"换成"b"),看模型表现是否下降。如果下降很多,说明模型依赖的是对熟悉符号的直觉反应,而非真正理解了抽象结构。
第四个环节是"深度分析",这是这套系统最独特的部分。传统测试只告诉你"答对了还是答错了",A?RBench则会进一步分析模型的推理过程。分析模型会阅读每个模型的"答题思路"(即Chain-of-Thought,思维链),然后按照一套分类标准给每次答题打上质量标签。对于答对的情况,分成三档:最高档是"真正泛化",模型准确识别出了最简洁、最通用的规则;中间档是"次优规则",规则虽然能解释所有例子,但过于繁琐或特殊化;最低档是"表面拟合",模型虽然猜对了答案,但用的是错误的或过度定制的推理路径。对于答错的情况,也分成若干类型:抽象失败(根本没搞清楚规则是什么)、推理执行错误(规则理解对了但计算步骤出了问题)、格式崩溃等。
这套分析框架背后有一个来自信息论和哲学的理论依据,叫做"奥卡姆剃刀原则":在所有能解释观察到的例子的规则里,最简单的那个最有可能是正确的。数学上这与"索洛莫诺夫归纳推理"有关,即最短描述长度的假设最优。当然,"最短描述"这个概念在计算上是无法精确实现的,所以研究团队用一个AI分析员来近似模拟这个判断过程,并通过人工标注验证了这个AI分析员的可靠性——在随机抽取的180条样本上,AI分析员与人工标注的吻合率达到84%以上,Cohen's κ值(一种衡量两个评判者一致程度的统计指标,0表示纯属巧合,1表示完全一致)约为0.75,达到了相当不错的水平。
三、题目长什么样?覆盖哪些类型
最终生成的题库共包含1054道题(主评测集703道,另有351道符号替换版本),在"维度"和"域"两个维度上保持了相当均匀的分布。
维度方面,题目分为三类:一维序列题(比如一串字母或数字组成的列表)、二维网格题(类似电子表格的二维数组)和三维体素立方体题(三维数组,像一个魔方内部的元素排列),三种维度各有约237至229道题,数量相近。
域方面,题目分为"符号规则"和"语义规则"两类,数量也基本相当。符号规则的变换只涉及元素的排列结构,与符号本身的含义无关,比如"把序列的第i个位置的元素移到第(i×k) mod n个位置"——这条规则对数字列表、字母列表、甚至乱码符号列表都同样适用。语义规则则需要理解符号的现实含义,比如"把每个字母替换成该字母在字母表中位置对应原子序数的化学元素符号"——这要求模型知道A是第1位,对应氢元素H;B是第2位,对应氦元素He,等等。
举几个具体的例子可以更直观地感受题目的风格。一道一维符号题的规则是"把序列从中间切开,然后把两半交叉穿插":给定示例["a","b","c","d"]变成["c","a","d","b"],["a","b","c","d","e"]变成["d","a","e","b","c"],问["p","y","t","h","o","n","3"]变成什么。一道二维符号题的规则是"在每个不重叠的2×2方块内,交换右上角和左下角的元素,左上角和右下角保持不变"。一道一维语义题就是刚才提到的字母到化学元素的映射。一道三维语义题则把三维旋转和Atbash密码(一种把字母表前后对称替换的古老加密方式,A换成Z,B换成Y,以此类推)组合在了一起。
四、考试结果:AI的推理能力到底差在哪里
把14款主流模型全部"上机考试"之后,研究团队得到了三个核心发现,每一个都指向AI推理能力的一种不同层面的局限。
第一个发现是整体表现欠佳,而且失败的根源是"没能抽象出规则"而非"计算执行出了错"。排名第一的Gemini3-Pro总体准确率只有40.9%,在108道代表性种子题上的得分是39.8%,而同样做这些题的人类平均得分是68.5%。更细化的人群数据显示,五位计算机科学博士的平均得分高达68.52%,五位计算机本科生得分48.33%,五位非CS专业的本科生得分25.19%——哪怕是非CS专业的本科生,也在总体上和AI相当或稍逊,但博士组远远甩开了最强AI。从"答题思路质量"分布图来看,跨所有模型,最常见的失败原因都是"抽象失败"(Abstraction Failure),也就是模型根本没能从示例中归纳出正确的规则,而不是规则找对了但执行出了差错。这意味着AI的瓶颈在"发现规律"这一步,而非"应用规律"这一步。
符号替换测试进一步揭示了这个弱点的另一面。GPT-5在原始符号版本的符号题上准确率为41.3%,换成陌生符号之后骤降至23.6%,差距高达17.7个百分点。这说明GPT-5在原始版本上的相当一部分"正确答案"并非来自对抽象规则的理解,而是来自对熟悉符号(数字、字母)的直觉反应。换成陌生符号后,这种"走捷径"的策略就失效了。相比之下,Gemini3-Pro的符号依赖差距只有4.6%,Claude-Sonnet-4.5只有1.7%,说明不同模型在这一维度上有显著差异。
第二个发现是一个意想不到的维度困境。直觉上,三维题应该比二维题更难,二维题应该比一维题更难,形成一个1D > 2D > 3D的难度梯度。然而实验数据呈现的是完全不同的景象:几乎所有模型在二维题上的表现都差于三维题,形成了1D > 3D > 2D这个"V字形"格局。
研究团队分析了背后的原因,发现这其实是"出题AI"自身能力局限的反映,而非三维题本身比二维题简单。通过分析生成题目的代码的抽象语法树(AST,一种衡量代码逻辑复杂程度的工具),研究者发现:当出题模型(尤其是O4-mini)生成二维题时,代码中的条件判断嵌套深度平均达到2.33层,逻辑相当复杂;但当同一个模型生成三维题时,嵌套深度只有1.40层,逻辑明显简化了。原因在于,处理三维空间结构本身已经消耗了模型大量的"认知资源",迫使它不得不简化内部逻辑以维持代码的正确性——就像一个人一边做高难度杂技一边试图解一道复杂数学题,两件事同时做,每件事的质量都会打折扣。因此,出题模型生成的三维题,内在逻辑反而比二维题更简单,解题AI更容易找到规律。这个发现揭示了当前AI在生成高维度复杂任务上存在明显的"能力天花板"。
第三个发现研究团队称之为"增强悖论",是一个颇为反直觉的现象。在V4(边缘情况变体)这道题上,输入数据的"信息复杂度"(用压缩比来衡量,压缩比越高说明数据越有规律、越有结构)达到了全部变体中的最高值4.286,然而解题准确率也同时飙升至54.8%,几乎是种子题(约20%)的三倍。与此对应,模型答错时的"失败熵"(衡量错误答案分布是否集中的指标,熵越低说明错误越集中、越有规律)在V4时达到最低值1.532比特,远低于其他变体的约2.8至2.9比特。
这个现象背后的机制其实并不神秘:当输入数据具有高度规律性(比如一个严格按照某种周期填充的矩阵),这种规律性本身就像是给解题者额外的提示,大大压缩了"哪条规则能同时解释所有示例"的候选空间,使得正确规则更容易被识别出来。反过来,当输入数据是随机噪声一样的对抗性案例(V7-V9的压缩比只有0.56到0.77),它们表面上"更复杂",但反而会让解题变得更难,因为这种输入并不能提供有效线索。这个发现对题库设计有重要启示:一道题难不难,关键在于规则本身是否含糊,而不在于数据表面看起来多么复杂。
五、这套系统还能做什么:微调训练实验
研究团队还额外做了一个小规模的微调实验,探索A?RBench能否不只作为评测工具,也能作为训练信号。他们用LoRA(一种高效的微调技术,不需要重新训练整个模型,只需要在模型上添加少量额外参数进行针对性训练)对Qwen3-8B进行了微调,训练数据包含673条题目(按规则族划分训练集和测试集以防止数据泄露),训练了2个轮次。
微调后的结果相当亮眼,虽然改进并不均匀。在MMLU-Pro通用知识测试上,准确率从16.35%提升到34.13%,翻了将近一倍。在BBH(Big-Bench Hard)推理测试集上,整体推理能力从9.15%提升到13.24%。其中某些子任务的提升尤为惊人:形式谬误识别从2.8%跳到59.2%,导航推理从10.8%跳到59.6%,布尔表达式计算从64.0%提升到82.8%。更引人注目的是格式遵从能力:JSON格式对齐从29.04%提升到100%,MMLU的JSON格式对齐从13.54%提升到99.95%。这说明A?RBench的训练数据能有效帮助模型学习"答案收敛"(减少无效废话,给出明确答案)、"输出对齐"(遵守格式要求)和"离散规则辨别"(在有限的选项中做出准确判断)等能力。
不过研究团队也坦承,改进效果并不均匀,而且这只是一个初步探索性实验,规模较小,还需要更系统的研究来确认A?RBench作为训练数据的潜力。
六、这套方法的局限性和未来方向
研究团队没有回避这套方法的固有局限。出题AI能设计的题目复杂度,上限就是出题AI自身的能力——如果出题模型对某类规则不擅长,生成的题目在那个方向上就会乏善可陈,这一点从二维题 vs 三维题的对比中已经体现得相当清楚了。未来随着更强大的模型出现,作为出题者,它们能生成更多样、更复杂的规则,这个上限自然会被推高。
此外,目前这套框架只支持"双射规则"(一一对应的可逆规则),这是为了让循环一致性验证在数学上有保证。但现实中还有很多有意义的推理规则是"多对一"的(比如"把所有偶数都替换成0,奇数替换成1"——这个方向是不可逆的),这类规则目前还无法纳入框架。扩展到多对一规则是研究团队明确列出的未来方向之一。
分析模型对推理质量的判断依赖于一个AI来近似实现"奥卡姆剃刀",这本质上是一种启发式手段,并不完全客观,未来可以考虑用"机制性可解释性"(直接分析模型内部状态)来替代,从而获得更直接的推理质量度量。
说到底,A?RBench这项研究做的事情,可以用一句话来概括:它造出了一把能自动生产、自动检验、自动分级的"AI推理能力尺子",而且这把尺子背后有数学保证,不是拍脑袋设计出来的。用这把尺子量了量目前最好的AI,发现得分只有人类的一半出头——更关键的是,失败的根源不是"算错了",而是"根本没想通规律是什么"。这对整个AI研究领域是一个相当清醒的提醒:在推理能力这件事上,我们距离真正像人类一样举一反三,还差得相当远。这项研究本身的意义也许不只在于揭示了差距,更在于提供了一种可以持续追踪这个差距的方法——随着AI模型不断演进,这把尺子可以自动产生更多新题目,让我们始终保有一个有效的检验工具。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.17278查阅完整论文。
Q&A
Q1:A?RBench是如何保证每道题有且只有一个正确答案的?
A:A?RBench要求每道题的规则必须同时实现正向函数f和反向函数g,然后自动运行"循环一致性检验",验证g(f(x))=x对所有输入都成立。研究团队从数学上证明,通过此检验的规则必然是一一对应的双射函数,从根本上保证了答案唯一性,这个结论在论文中被称为"定理3.1"。
Q2:AI在A?RBench上得分低,是因为题目太难还是有其他原因?
A:主要原因是AI在"从示例中归纳规则"这一步就失败了,而不是找到规则后计算出了错。分析显示,"抽象失败"是所有模型最主要的错误类型。此外,符号替换测试还发现部分模型对熟悉符号存在依赖,换成陌生符号后得分大幅下滑,说明它们依赖的是"直觉反应"而非真正的抽象理解。
Q3:为什么三维题反而比二维题更容易被AI解答?
A:这是出题AI能力局限导致的现象,而非三维推理本身更简单。出题模型在处理三维空间结构时消耗了大量认知资源,被迫简化了规则内部的逻辑复杂度,导致三维题的内在逻辑反而比二维题更浅显,解题AI更容易识别规律。代码复杂度分析证实了这一点:O4-mini生成的二维题条件嵌套深度平均2.33层,三维题只有1.40层。





京公网安备 11011402013531号