当前位置: 首页 » 资讯 » 科技头条 » 正文

宾夕法尼亚州立大学发明了一种让AI无处遁形的检测方法

IP属地 中国·北京 科技行者 时间:2026-05-30 00:19:44


这项由宾夕法尼亚州立大学计算机科学团队完成的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.21856,有兴趣深入了解的读者可通过该编号查询完整论文。

你有没有这样的经历——考试前偷偷背了答案,上了考场照样能写得漂漂亮亮,让人以为你真的懂了?只要没人拆穿,一切看起来都完美。当下大型语言模型(也就是我们常说的AI大模型)在各类数学推理测试中表现惊人,但背后藏着一个让研究人员寝食难安的问题:这些模型,究竟是真的学会了解题,还是偷偷背了答案?

宾夕法尼亚州立大学的研究团队发现,这个问题远比表面上看起来复杂得多。不仅有些模型确实"背了答案",更麻烦的是,它们还进化出了一种极其狡猾的手段——把偷背来的答案藏在貌似合理的推理过程后面,让人根本分辨不出真假。研究团队把这种现象称为"推理掩盖记忆",并为此专门设计了一套反作弊系统,名叫零链式思考探针,英文缩写是ZCP。

**一、考场上的作弊者:数据污染是怎么回事**

在深入了解这套反作弊系统之前,先搞清楚"数据污染"是什么意思。

评测AI模型的能力,需要专门的考题集,就像高考一样,平时不对外公开,到了测试时才亮出来。这些考题集学界称为"基准测试集"。正常情况下,模型在训练时不应该见过这些考题,测试成绩才能反映它的真实能力。

然而,有些模型的训练数据中悄悄混入了这些考题,甚至连答案也一起打包进去了。这就像学生上考场前已经拿到了原题,成绩自然亮眼,但这完全不代表他真正理解了数学。这种情况就叫做数据污染。

更麻烦的是,现实中的污染远不止这么直接。有些心存不良的模型发布方会对考题进行改头换面,把"杰克有12本书"改成"玛丽有一摞书脊总厚12英寸",数字没变、答案没变,但说法完全不同。这种手段叫做"规避性污染"或"间接污染"。现有的检测方法大多靠比对文字是否相似,遇到这种改头换面的手法就完全失效了——文字变了,但核心内容根本没变。

研究团队检验了几种主流检测方法的表现,结论相当令人沮丧。基于统计概率的检测方法(如DPCC)在面对改写过的题目时,得分会从0.73骤降到0.19,几乎失去了检测能力。依靠让模型"补全题目前半段"来判断是否见过原题的数据重建方法,在改写题目上的识别准确率同样大幅下滑,从约40%跌到不足20%。还有一种方法是把数据集名称悄悄加进提示词里,看模型是否会自动补全后续内容,但恶意的发布方完全可以在训练时把这些标识信息删干净,让这招也彻底无效。

**二、推理链是如何帮助AI"掩盖作弊"的**

研究团队在研究过程中有了一个关键发现,正是这个发现为整套检测方法奠定了基础——链式思维推理不仅没能帮助暴露作弊,反而成了最好的"遮羞布"。

什么是链式思维推理?简单来说,就是AI在给出答案之前,先把解题步骤一步一步写出来,就像在草稿纸上演算。这种方式确实能帮助AI解决复杂问题,也让人觉得它在认真"思考"。

但研究团队发现了一个微妙的问题:当模型偷背了答案时,它依然可以生成一段看起来完整、合理的推理过程,然后自然地引出那个它早已"知道"的答案。从旁观者角度来看,推理过程有模有样,答案也对,谁能说它是在作弊呢?

这就像一个记住了解题答案的学生,上了考场之后反推出一条看起来像推导过程的演算过程,工工整整地写在试卷上。评卷老师看到解题过程完整、答案正确,自然给满分,但真正的能力从未被检验。

为了验证这一点,研究团队做了一个逐步截断推理链的实验。他们让模型在只获得完整推理过程的0%、20%、40%……一直到100%的情况下回答问题,分别统计在"已经见过的题目"和"没有见过的干净题目"上的答题正确率差距。结果显示,当模型能看到完整推理链时,两类题目的正确率差距相当小,几乎分辨不出来。但随着推理链被逐渐截断,差距开始扩大;等到推理链完全消失、模型必须直接给出答案时,差距急剧拉大。这意味着,那条推理链确实一直在掩盖着模型内心深处"直接知道答案"的捷径。

**三、零链式思考探针:强迫AI"不打草稿"直接作答**

发现了这个规律之后,反制方案的思路就变得清晰起来——既然推理链是遮羞布,那就把遮羞布拿走,强迫模型直接给出答案,不准打草稿。

这就是零链式思考探针的核心操作。在正常测试中,模型会先生成推理过程再给出答案。而在零链式思考探针的测试中,研究团队会通过特殊的方式强制模型跳过推理,直接输出最终答案。

对于可以直接操控内部参数的开源模型,比如Qwen系列,研究团队会在模型的输出前面强行预填"最终答案是:[ boxed{"这样的文字片段,让模型只能补全答案本身,无法生成任何推理步骤。对于像GPT系列这样只能通过接口调用的封闭模型,则在发给模型的问题末尾加上一段严格指令,要求它"只把最终答案放在方框内输出,不得有任何其他内容,包括推理或解释",通过提示词工程达到同样的效果。

强迫模型"不打草稿"之后,背了答案的模型和没背答案的模型就有了截然不同的表现。没背过答案的模型在面对它没见过的题时,失去推理链的辅助,正确率会明显下降;而背了答案的模型则可以直接从记忆中调出答案,正确率几乎不受影响。差距就这样暴露了。

**四、参照组的设计:如何区分"真本事"和"背答案"**

不过,仅仅强迫模型直接作答还不够,因为这里有一个容易被忽视的问题:万一这个模型真的特别厉害,不需要推理过程就能算出答案呢?

这个疑问是合理的。毕竟,有些题目本身就不需要多少推理,模型凭借对数学关系的理解,直接给出答案也完全合理。如果把这种真实能力误判为作弊,检测就失去了意义。

为了把"真本事"和"背答案"区分开来,研究团队引入了一组参照题目。他们把原来的考题进行了一种特殊改造——只改数字,不改结构。具体来说,就是保持题目的逻辑框架和解题思路完全不变,但把里面所有的数值都换掉(保持数量级相近,比如原来是12的地方换成15)。这样一来,新题和原题的难度完全一致,解法也完全一样,但答案变了,而且模型绝对没有见过这道新题。

研究论文中有一个非常直观的例子。原题是:"杰克有一摞书,总厚12英寸。他知道80页厚度为1英寸。如果他有6本书,平均每本多少页?"答案是160页。改写后的参照题是:"艾米丽有一堆叠放的笔记本,高度为15英寸。她知道90页等于1英寸厚。如果她有5本,每本平均多少页?"答案变成了270页。

这两道题的解法思路完全一样,难度也相同,但一道是模型见过的(直接的或改写过的),另一道是全新的。如果模型在两道题上的直接作答正确率相近,说明它是凭真本事答题;如果在原题上正确率明显更高,说明它背了答案,遇到新题就露馅了。

为了大规模地生产这些参照题,研究团队设计了一套自动化流水线,由一个生成模型负责创造新题并给出解答,再由两个相互独立的评判模型各自验证答案是否正确。只有两个评判模型都认可,这道参照题才会被纳入参照集,确保参照题的质量可靠。

**五、污染置信度:把"有没有作弊"变成一个精确的数字**

有了零链式思考探针的测试结果之后,研究团队还需要一个方式来量化"到底有多大可能是在作弊"。毕竟,现实世界里的数据污染程度千差万别,有的模型可能只接触过一小部分考题,有的则把整个题库都背了。用简单的"是/否"来判断太过粗糙,需要一个能反映污染严重程度的连续数值。

为此,研究团队设计了一个叫做"污染置信度"的指标,数值范围在0.5到1之间。0.5代表没有任何统计证据表明存在污染,1则代表几乎可以确定存在记忆性背题。

这个数字的计算过程分两步。第一步,用统计方法检验模型在原题上和参照题上的表现差距是否在统计意义上足够显著——简单说就是,这个差距到底有多大概率只是运气好,而不是真的背了答案。对于连续型指标(如每个词的生成概率),使用自举抽样检验,重复抽样一万次;对于离散型指标(如答对了几道),使用麦克尼马尔检验。第二步,把得到的概率值转换成一个贝叶斯意义上的后验概率,也就是"在看到这些结果之后,模型真的背了答案的概率是多少"。这个转换假设事先不偏袒任何一方(背了或没背各占50%的可能性),让数字本身来说话。

这样设计的好处是,当两组表现差距不够大时,置信度会保持在0.5附近,意味着没有证据支持污染的结论;当差距越来越显著时,置信度会朝着1.0逼近,明确指向作弊行为。整个过程不需要主观判断,完全由数学来决定结论。

**六、检测有哪些具体工具?四种指标各有分工**

在实际检测中,研究团队为零链式思考探针配备了四种不同的衡量指标,针对不同的使用场景各有侧重。

第一种叫做准确率,就是直接看模型在强制不打草稿的情况下答对了多少题。这是最直观的指标,对原题和参照题分别统计,对比差异。第二种叫做一致性,看模型在不打草稿时给出的答案,和它在正常打草稿时给出的答案是否一致。这个指标有一个特别的优势——不需要知道标准答案,只要比较两种模式下的输出就行,适合在没有答案的情况下使用。第三种是首词生成概率,即在强制不打草稿的情况下,模型生成标准答案第一个词的概率是多少。背了答案的模型对第一个词往往有更高的"直觉反应",这个概率会明显更高。第四种是全词生成概率,把整个答案每个词的生成概率做几何平均,得到模型"自然流露"出完整答案的综合概率。

这四种指标形成了从"最方便但要求最多"到"最不方便但要求最少"的梯度。基于概率的两种指标信号最强、最敏感,但需要能访问模型内部参数,封闭的商用API模型无法使用。基于准确率的指标在中等规模的题目集下就能给出可靠结论,适合有标准答案的场景。基于一致性的指标要求最低,既不需要内部参数,也不需要标准答案,但需要更多题目才能统计出显著差异。

**七、实验验证:在已知"有没有背题"的情况下测试效果**

检测工具设计好之后,当然要在实际场景中验证效果。研究团队采用了两种不同的验证路径。

第一种验证路径叫做"翻转实验",利用的是两个已有的数学推理专用模型:Qwen2.5-Math-7B和DeepSeek-Math-7B。这两个模型的技术报告明确写明了它们的训练数据包含了数学考题集GSM8K和MATH的训练部分,所以可以确定这两个模型对这些题目是"背过"的。研究团队同时使用了一个叫做GSM1K的题目集作为对照,这个题目集发布时间晚于两个模型的训练截止日期,因此可以确定它们没有见过。

在已经背过的GSM8K和MATH题目上,零链式思考探针的污染置信度在几乎所有指标上都逼近或达到了1.000,而在没有背过的GSM1K题目上,污染置信度则稳定在0.500附近,完全符合预期。

更关键的是,为了模拟"规避性污染"的情景,研究团队把GSM8K和MATH的题目交给GPT-4o进行改写——改变文字表述,保留数字和答案——然后在改写后的版本上重新测试。结果令人振奋:即便是在改写后的题目上,污染置信度依然接近1.000。这说明零链式思考探针检测的是模型内部深层的"问题到答案的捷径映射",而不是表面文字的相似度,改写文字根本破坏不了这条捷径。

第二种验证路径更加严格——研究团队自己动手制造了"作弊模型",然后测试能否抓住。他们把两个基础模型Qwen2.5-Math-7B和Qwen3-8B分别在改写版的考题上进行微调,让它们学习改写版题目的解法,然后在原版题目上测试。微调所用的数学题来自竞赛级别的Omni-MATH和跨领域的MMLU-Pro加XFINBENCH,每组题目各自均分为两半,一半用于制造污染,另一半完全隔离不参与训练,作为干净对照。

训练完成后,在用于训练的那一半题目上,模型准确率有了显著提升——Qwen2.5-Math在Omni-MATH上从21%跳到了43%,Qwen3在多领域数据上从37%跳到了66%。而在没有参与训练的那一半题目上,准确率几乎没有变化,这证实了性能提升确实来自背题而非真正能力的提升。

面对这些自己制造的作弊模型,零链式思考探针依然成功地识别出了污染。在已经背过的题目上,置信度接近1.000;在干净题目上,置信度维持在0.500附近。精准区分,没有误判。

**八、数据集大小的影响:要抓住作弊者,需要多少题目**

研究团队还专门分析了一个实际操作中很重要的问题——要抓住作弊行为,至少需要多少道题?

通过在50到1000题之间取不同规模的样本进行实验,研究发现各类指标有着明显不同的"抓人效率"。依靠概率的两种指标最灵敏,哪怕只有50到100题,置信度就能超过0.94,因为每道题都贡献了连续的概率数值,信息量远比简单的对错更丰富。基于准确率的指标需要中等规模,大约200到500题才能稳定给出高置信度,但它完全不需要访问模型内部,适合外部审计。基于一致性的指标最"省事"(不需要答案也不需要内部参数),但也需要大约1000题才能稳定暴露差异。

这意味着,在实际使用中,审计者可以根据自己能获取的条件灵活选择:如果能访问模型内部参数,用100题左右就够了;如果只能通过接口调用,用几百题的准确率对比也能达到目的;如果连标准答案都没有,只要题目数量足够,一致性指标依然可靠。

**九、现实世界的扫描:哪些知名模型被检测到了污染**

最后,研究团队把目光投向了当前真实部署的知名模型,对它们进行了一次"抽查"。被检测的模型包括Qwen-2.5-Math、Qwen-3、GPT-4o和GPT-5.1,使用的考题是GSM8K的测试集和MATH-500。

检测结果相当耐人寻味。Qwen-2.5-Math在两个数据集上都表现出了明显的污染迹象,概率类指标的置信度超过0.998,说明这个模型深度记忆了这两套题目的答案。Qwen-3的情况则很有趣:在MATH-500上污染迹象明显,但在GSM8K上的所有四个指标置信度都在0.500附近,强烈暗示它在GSM8K上是干净的,可能开发团队在准备这个版本时进行了更严格的数据过滤。

在商用封闭模型中,GPT-4o在两个数据集上都显示出了明确的污染,置信度超过0.85。而GPT-5.1则完全不同,置信度在两个数据集上都维持在约0.5,接近完全干净的状态。研究团队分析认为,这可能意味着OpenAI在GPT-5.1的开发过程中采取了更为主动积极的去污染措施或数据过滤策略。

需要说明的是,对商用模型的检测完全通过提示词工程实现,无需访问任何内部参数,这也证明了零链式思考探针在最受限制的场景下依然具备实际操作能力。

**十、研究本身的局限与坦诚**

研究团队也坦率地指出了当前方法的局限所在。对于开源模型,通过在输出前预填特定文字片段来强制绕过推理是完全可靠的;但对于封闭商用模型,目前只能依靠提示词工程,而随着未来的商用模型被更深度地优化为"必须先推理后回答",这种提示词方法的可靠性可能会下降。毕竟,一个被训练到极度擅长推理的模型,可能无论怎样要求它都会先生成一段推理再给出答案,这时候提示词就失去了效力。这个问题被列为未来需要进一步解决的重要方向。

归根结底,这项研究解决的是一个影响整个AI行业诚信基础的问题。当我们用排行榜上的高分来选择应该相信哪个模型、把哪个模型部署到关键场景时,这些分数究竟代表真实能力还是对考题的记忆,至关重要。零链式思考探针提供了一种不需要接触训练数据、不需要了解模型内部结构就能可靠检测的方法,把"作弊检测"这件事变得切实可行。

考虑到未来AI模型的应用会越来越广泛和深入,确保性能评估的真实性不仅是学术问题,也直接关系到每一个依赖AI系统做决策的人。这套检测框架的价值,或许正在于它让这种可信性变得可验证,而不只是停留在发布方的一纸承诺。有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.21856查阅原始论文,研究团队也在GitHub上公开了完整代码。

Q&A

Q1:数据污染对AI评测会产生多大影响?

A:数据污染会让AI模型在测试集上的分数虚高,因为模型可能背过了这些题目的答案,而非真正掌握了解题能力。这意味着排行榜上的高分可能并不代表真实水平,开发者和用户据此做出的部署决策可能存在严重偏差,实际使用效果会比测试分数显示的差很多。

Q2:零链式思考探针为什么能检测到改写过的题目中的污染?

A:零链式思考探针检测的不是文字是否相似,而是模型内部有没有形成"题目语义直接对应答案"的快捷通道。改写只改变了表面文字,但题目的数值和逻辑结构没变,所以这条捷径依然存在。与此同时,参照题改变了数值,彻底打断了这条捷径,对比之下差距就暴露出来了。

Q3:GPT-5.1为什么污染置信度接近0.5?

A:研究团队的检测结果显示GPT-5.1在GSM8K和MATH-500上的污染置信度均接近0.5,即几乎没有统计意义上的污染证据。研究团队分析认为,这很可能说明OpenAI在GPT-5.1的开发阶段实施了更严格的数据去污染或过滤措施,从而避免了对这些标准测试集的记忆性学习。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新