当前位置: 首页 » 资讯 » 科技头条 » 正文

延世大学等揭秘:AI做了"作弊题",竟能从"神经反应"里抓住破绽

IP属地 中国·北京 科技行者 时间:2026-06-03 22:23:41


这项由延世大学、首尔国立大学和佐治亚理工学院联合开展的研究,以预印本形式发布于2026年5月28日,论文编号为arXiv:2605.29888,有兴趣深入钻研的读者可通过该编号在arXiv平台上查阅完整原文。

当一个学生在考试前偷偷看过答案,他在考场上的表现会有些微妙的不同——答题太快、太流畅,甚至在题目被稍微改动后就慌了神。大型语言模型(也就是我们常说的AI)面临着同样的问题,只不过"作弊"这件事在AI领域被称为"数据污染"。这项研究正是为了找出那些"偷看过答案"的AI模型,而研究团队发现的破绽,不在AI说了什么,而在它的大脑深处如何"思考"。

一、AI也会"作弊",而且这件事比你想象的更麻烦

近几年,一种叫做强化学习的训练方式让AI的推理能力突飞猛进。你可以把强化学习理解成这样一种训练方法:AI每次答对题就得到奖励,答错就被扣分,慢慢地它学会了如何一步一步推理出正确答案。DeepSeek-R1这类出色的推理模型正是通过这种方式训练出来的。

然而,如果用来训练AI的题目,恰好就是之后用来考试的题目,那这个"考试"还公平吗?这就是数据污染的问题——训练数据与评测数据之间的界限被打破了,AI可能只是记住了答案,而不是真正学会了推理。这对整个AI评测体系来说是个严重隐患,因为我们无法分辨AI到底是真的聪明还是只是"背过了"。

更棘手的是,以往用来发现这类作弊行为的方法,大多是盯着AI的"输出"——比如检查它给出某个词的概率是否异常高,或者它的措辞是否表现得异常确定。这些方法在旧式训练方式下还算好用,但对于强化学习训练出来的模型,这条路走不通了。强化学习优化的是整个推理过程的奖励,而不是每个词的概率,所以那些输出层面的信号变得混乱而不可靠。打个比方,就好像你想通过观察一个演员背台词时的嘴型来判断他有没有提前看过剧本,但这个演员恰好接受过专业的即兴表演训练,他的嘴型永远看起来自然流畅,根本看不出破绽。

研究团队由此提出了一个全新的思路:与其盯着AI说了什么,不如看它的大脑内部在想什么。

二、LaRA登场:一套专门"照X光"的检测工具

这套工具被命名为LaRA,全称是"逐层表示分析框架"。如果把一个AI模型比作一栋楼,那么这栋楼的每一层都对输入的问题进行加工处理,最底层接收原始文字,逐层向上提炼和整合信息,最终在顶层输出答案。LaRA做的事情,就是给这栋楼的每一层都装上传感器,然后在输入问题时,悄悄改动一些关键信息,观察每一层的传感器读数发生了怎样的变化。

研究团队的核心假设是:如果一道题被AI"背过了",那么当你对这道题动手脚时,AI内部的反应会和没背过的题截然不同。具体来说,他们设计了三种不同的"动手脚"方式,每种方式对应一个检测指标。

第一种指标叫做"表示偏移量"(RSM)。操作方法是把题目中最关键的信息用"空白"替换掉,比如把"x+y=8,x-7=6,求x"改成"x+y=8,[空白]=6,求x"。接下来,观察AI在处理修改前和修改后这两版题目时,内部每一层的"神经状态"变化了多大。对于没背过这道题的AI来说,删掉关键信息会让它的内部状态产生一定程度的困惑,这很正常。但如果这道题被它背熟了,删掉关键信息就像把一首它背得滚瓜烂熟的歌曲中间切掉一句,它的内部会产生巨大的"震荡"——因为记忆的连贯性被打断了,反应会格外剧烈。RSM值越高,说明这道题对AI的影响越异常,越可能是它"背过"的题。

第二种指标叫做"方向塌缩"(DC)。这个概念稍微抽象一点,但可以这样理解:当你对一批结构相似的题目都做同样的"删空白"处理时,AI内部的"震荡"通常会朝着各自不同的方向分散。就好像一群人各自受到了相似的轻微干扰,每个人的反应姿势都略有不同。但如果有一道题是被背过的,它的"震荡"方向会和其他题高度一致,像是所有人突然排成一列向同一个方向摔倒,显得格外整齐划一——这种"整齐"本身就很反常。DC指标正是用来捕捉这种异常的方向一致性。

第三种指标叫做"表示稳定性指数"(RSI)。这次的操作是换一个角度:把原题用不同的措辞改写成好几个语义相同的版本,比如把题目换一种说法,但意思完全一样。然后让AI分别处理这些版本,观察它在处理"被删了空白的版本"时,内部状态是否会随着措辞改变而有所波动。对于没有特殊"背诵记忆"的题目,AI的内部状态会随着措辞的改变而自然地有所波动。但如果这道题被背过了,AI的记忆已经固化,即便措辞变了,它的内部状态也会异常地一成不变——就像一个人背熟了一段文字,不管你怎么换个方式问他,他的脑子里浮现的始终是那段固定的记忆,根本没有灵活性。RSI值越低,说明这道题的处理越"死板",越像是机械记忆的产物。

这三个指标分别从不同角度照射AI的内部结构,就像医生用X光、CT和核磁共振从不同角度检查同一个器官,三者合用才能得到最完整的判断。

三、实验如何设计:造一个可控的"作弊场景"

为了验证这套工具是否真的好用,研究团队需要一个可控的实验场景——他们得知道哪些题目肯定被模型"背过了",哪些题目肯定没有。

他们选取了三个公开的、已知训练数据的强化学习模型:EURUS-2-7B-PRIME、LIMR和Olmo-3.1-7B-RL-Zero-Math。对于每个模型,他们从该模型的已知训练集里抽出30道奥林匹克级别的数学题作为"被污染样本"(即模型肯定背过的题),同时从2026年的AIME数学竞赛题目中抽取30道题作为"干净样本"(即模型肯定没见过的题)。这样就形成了每个模型各60道题的评测集,其中一半是作弊题,一半是正常题。

为了进一步研究污染信号随训练进行如何演变,研究团队还在这些开源模型的基础上继续进行强化学习训练。他们把30道"被污染样本"和970道额外的奥林匹克题混合在一起,组成了1000道题的训练集,然后继续训练这些模型,并记录训练过程中每个检查点的检测信号变化。

整个实验的设计有点像是在一个学生考试前、考试中、考试后分别给他做测验,观察他什么时候表现得最像在"背答案"。

四、发现:被"背过"的题,在AI大脑里留下了独特的印记

实验结果清晰地揭示了一个规律:那些被AI背过的题,在它的内部各层留下了与正常题不同的几何结构。

在RSM指标上,被污染的题目在AI处理的中间层(大约第7到第9层)会出现一个明显的"信号峰",在这几层里,删去关键信息引发的内部震荡比正常题目大得多,而正常题目在整个深度范围内都接近零。这说明AI对于背过的题目有着异常强烈的依赖——一旦关键信息被抹去,它的内部"记忆框架"就会崩塌,产生剧烈反应。

在DC指标上,被污染的题目表现出异常统一的方向性。正常题目在遭受相同扰动时,各层的反应方向相对分散,呈现出健康的多样性。而被污染的题目,仿佛所有的信息都被压缩进了某几个固定方向,缺乏多样性,显示出一种"方向塌缩"的现象。有趣的是,随着强化学习训练的持续推进,这种方向塌缩现象在模型的深层变得越来越明显,说明持续的强化学习训练会进一步加深这种"记忆固化"的痕迹。

在RSI指标上,被污染的题目在早期层(较浅的层)表现出异常低的局部变异性,也就是说,不管措辞怎么变,这些层里的神经状态都非常顽固地保持不变。这与RSM的发现形成了有趣的对比:背过的题目在关键信息被删除时反应剧烈(高RSM),但在措辞轻微改变时反应迟钝(低RSI)。这就好比一个背熟了答案的学生——你直接把题目的核心数字划掉,他会完全懵掉;但你只是把题目换个表述方式,他照样能流利地背出答案,根本不需要真正理解题意。

随着训练轮次增加,这三个信号的差距都在逐渐拉大,说明被污染的数据在持续强化学习的过程中,会让模型的内部结构越来越偏离健康状态。

五、如何把这三个信号变成一个"污染分数"

有了这三个指标之后,研究团队还需要把它们整合成一个单一的评分,方便实际使用。这个过程分三步进行,设计得相当精细。

第一步是对原始数值进行压缩处理。三个指标的数值范围差异悬殊,直接叠加会导致某个指标主导最终结果。于是他们先把每个数值用一种保留正负号的对数压缩公式处理,让极端值不再那么"吓人",同时保留数值接近零时的精细变化。

第二步是用"干净样本"作为参照基准,对每个层、每个指标的数值分别做标准化。参照基准的计算使用的是中位数和中位绝对偏差(MAD)而非普通的均值和标准差,这样做是因为普通均值很容易被极端值带偏,而MAD更加稳健,即使参照集里混入了一些异常样本,基准也不会失真。1.4826这个数字是MAD的校正系数,让它在统计意义上等价于标准差,这是来自稳健统计学领域的经典设计。

第三步是综合各层、各指标的标准化得分,同时根据每个指标的"污染方向"调整正负号——RSM和DC越高越可疑,RSI越低越可疑(因此RSI要取反),最终求平均得到每道题的综合污染分。这个分数越高,说明这道题越可能是被模型背过的"污染题"。

六、和已有方法比,LaRA强在哪里

研究团队把LaRA与六种现有的检测方法进行了横向比较,这六种方法分别是Recall(通过让AI复现答案来测试记忆)、CDD(通过对比扰动前后输出的差异来检测)、Min-K%(取最低概率词的平均概率)、Min-K%++(Min-K%的改进版)、PPL(困惑度,衡量模型对文本的整体不确定性)和Self-Critique(让模型自我评估来判断是否见过该题)。

在三个模型的初始检查点上,LaRA在LIMR模型上的表现尤为突出:ROC-AUC(一种衡量整体区分能力的指标,越接近1越好)达到了0.80,在误报率仅为5%的严格条件下,它成功识别出46%的真实污染样本,远超其他所有方法。

当LaRA与Self-Critique结合使用时,在Eurus模型上效果最好,ROC-AUC达到0.73,误报率5%条件下的识别率达到31%。随着强化学习训练继续推进,这个组合的表现还在持续提升,到第二轮训练结束时ROC-AUC进一步达到0.79,识别率达到38%——这说明随着训练深入,被污染的题目在AI内部留下的印记越来越深,越来越容易被LaRA捕捉到。

相比之下,PPL方法虽然有时ROC-AUC数值不低,但在严格低误报率条件下的识别率非常不稳定,各模型之间差异悬殊,并不可靠。Self-Critique单独使用时在某些模型上表现不错,但在其他模型上效果很差,难以推广。这种不稳定性在实际使用中是个大问题,因为你永远不知道下一个模型上它还管不管用。

七、几个值得关注的细节实验

研究团队还做了几组额外的实验来打磨这套工具。

在"删空白"的数量上,他们尝试了删除1到4个关键信息,发现默认的删除1个就已经能得到相当不错的效果。删除3个时ROC-AUC略微提升,但删除4个时误报率指标反而有所下降——说明这个工具在默认设置下已经足够稳健,不需要刻意折腾。

在"动手脚"的方式上,除了删除关键信息,研究团队还尝试了替换变量名称、替换题目中的数字,以及在题目中插入无关干扰句子等方式。所有这些方式都能产生类似的检测效果,ROC-AUC都在0.56到0.69之间,说明LaRA对于具体的扰动方式并不挑剔,鲁棒性相当好。

在不同层窗口的分析上,无论是只看浅层、只看中层还是只看深层,污染信号都保持着相当程度的稳定性,LIMR在任何层窗口下ROC-AUC都接近0.8。这说明污染的印记并不局限于某几层,而是弥漫在整个网络深度中,进一步印证了跨层聚合的必要性。

此外,研究团队还分析了LaRA评分与其他输出层指标之间的相关性。他们发现,LaRA评分高的题目(即更可能被污染的题目)往往伴随着较低的Self-Critique分数和较低的困惑度,这意味着被污染的样本在输出层表现得更加自信、更少反思,而在内部结构上却更加僵硬——两种信号恰好形成互补,这也解释了为什么把LaRA和Self-Critique结合使用效果往往更好。

八、工具的局限性在哪里

研究团队对这套工具的局限性也相当坦诚。

从计算成本来看,LaRA需要生成若干扰动版本,提取每一层的中间状态,再聚合多个指标,比直接检查输出概率要麻烦得多。对于规模庞大的模型或数量众多的题目,这个成本不可忽视。

从检测可靠性来看,仍然存在漏报和误报的情况。论文中提到了一个反面例子:某道确实被模型背过的题目,在三个指标上的得分都很低(RSM为0.151、DC为0.423、RSI为0.310),最终综合分数仅为0.295,被LaRA误判为干净样本。原因在于这道题的内部几何结构恰好没有偏离正常范围,说明并非所有的记忆都会留下足够明显的内部痕迹。反过来,也有一道非污染题因为DC值异常偏高而被误判为污染样本,说明某些题目的内部结构本身就比较"特殊",与污染样本难以区分。

从理论理解来看,为什么强化学习训练会在内部产生这些几何变化,目前还没有完整的理论解释。研究团队发现了这些现象,也验证了检测效果,但背后更深层的机制仍有待探索。

说到底,这项研究做了一件以前没人做过的事:不是从AI说的话里找作弊证据,而是从它思考问题的方式里找。这种思路的转变有点像是从审问嫌疑人的口供,改成了直接读取他大脑的神经信号——后者更难造假,也更直接。

当AI评测越来越重要,当强化学习训练的AI越来越普及,如何保证评测结果的真实可信,就成了一个不得不认真对待的问题。LaRA提供的这套方法,或许能成为未来AI评测生态中的一个重要工具,帮助研究者更准确地判断一个AI是真的学会了推理,还是只是恰好背过了那些题。

当然,这套工具本身仍有改进的空间,检测成本需要降低,对各类情形的覆盖需要更全面。但作为一个新方向的开创性探索,它提出的问题和给出的答案都值得认真对待。有兴趣深入了解这项研究全部技术细节的读者,可以通过arXiv:2605.29888这个编号找到完整论文。

Q&A

Q1:LaRA检测AI数据污染的方法和传统方法有什么区别?

A:传统方法主要看AI的输出,比如检查它给出答案的概率是否异常高。但对于强化学习训练的AI,这类输出信号很不可靠。LaRA转而分析AI内部每一层的"神经状态",通过对题目做微小改动,观察AI内部的反应是否异常,相当于从看AI说了什么,变成了看它怎么想的。

Q2:RSM、DC、RSI这三个指标分别在检测什么?

A:RSM衡量删除题目关键信息后AI内部状态变化有多剧烈;DC衡量这种变化是否朝着异常统一的方向集中;RSI衡量题目换种说法后AI内部状态是否异常地毫无变化。三个指标分别从敏感性、方向性和灵活性三个角度刻画同一个问题:AI是真的理解了题目,还是只是背过了答案。

Q3:LaRA实验中检测准确率大概是多少?

A:在LIMR模型上,LaRA的ROC-AUC达到0.80,在只允许5%误报率的严格条件下,能识别出约46%的真实污染样本,显著优于所有对比方法。当LaRA与Self-Critique方法结合使用时,在Eurus模型上ROC-AUC达到0.73,且随着训练推进进一步提升至0.79。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。