当前位置: 首页 » 资讯 » 科技头条 » 正文

芝加哥大学破解AI"瞎编"难题:用图书馆查词频,给大模型"事实核查"

IP属地 中国·北京 科技行者 时间:2026-06-03 22:23:28


这项由美国伊利诺伊大学芝加哥分校研究团队完成的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.29648,有兴趣深入了解的读者可通过该编号查询完整论文。

你有没有遇到过这种场景:问某个AI助手一个看似简单的历史问题,它一本正经地给你讲了一大段故事,结果里面一半是错的?这不是偶然,而是当前大型语言模型(也就是ChatGPT这类AI)的一个系统性缺陷。它们非常擅长"瞎编"——用流畅、自信的语言说出错误的事情。更麻烦的是,涉及冷僻知识点时,这种"瞎编"现象会更严重,因为AI在训练时见过这类知识的机会很少。

为了解决这个问题,研究人员通常会通过"强化学习"的方式训练AI,简单来说就是给AI的回答打分,然后让AI朝着高分方向进化。但这里有个棘手的问题:怎么给AI的每一句话打分?之前的方法要么只看最终答案对不对(就像只给作文打一个总分,不管中间过程),要么为了评判每一句话的真假,专门再调用另一个大型AI或者复杂系统来当"裁判"——这就像每做一道数学题,都要请一位教授来现场监考,成本极高,速度极慢。

芝加哥大学的研究团队另辟蹊径,提出了一个名叫CorVer(全称Corpus Verify,意为"语料库验证")的方案。他们的核心思路非常朴素:既然Wikipedia里记录了人类几乎所有公认的知识,那一个真实的知识点(比如"乔丹效力于公牛队")在Wikipedia里应该被大量提及,而一个AI编造出来的假信息(比如"乔丹效力于湖人队")在Wikipedia里的出现频率应该极低甚至为零。于是,他们把"在Wikipedia里查词频"这件事变成了给AI打分的依据,用一把"出现频率"的尺子来衡量AI说的每句话是否靠谱。

一、AI为什么会瞎编,以及传统解法为何代价太高

要理解这套方案的聪明之处,得先搞清楚AI为什么会犯这种错误。现在的大型AI模型是通过阅读海量互联网文字"学习"的。对于那些在网上被反复讨论的知识——比如"莎士比亚是英国剧作家"、"北京是中国首都"——AI学得滚瓜烂熟,很少出错。但对于那些只被少数文章提及的冷僻知识——比如某个小城市的地方民俗、某个历史上不太知名的人物的生卒年份——AI见过的例子太少,记忆模糊,于是就容易"脑补"出一个听起来合理但实际上是错的答案。芝加哥大学的研究人员引用了学界的一个发现:AI的事实记忆能力,和它在训练时见过某个"主语-宾语"组合的频率直接相关。见得多,记得准;见得少,就容易乱说。

既然知道了根源,强化学习就是一个很自然的改进方案。强化学习的逻辑类似于训练宠物:做对了给奖励,做错了给惩罚,久而久之,AI就学会朝着正确的方向走。问题的关键在于,怎么设计这个"奖励信号"?

如果只看最终答案(比如AI最后说的答案是否匹配标准答案),这种方法叫做"结果层面的奖励"。它的问题类似于只看学生的考试总分:一篇作文里有三句话,其中两句是胡编的,一句恰好说对了,如果最终答案碰巧对了,整篇文章的每个字都得到奖励,包括那两句胡编的内容。这显然不公平,也让AI很难真正学会"每句话都说真话"这个习惯。

更细粒度的方案是"过程层面的奖励",也就是给AI回答里的每一句话单独打分。这在数学解题领域已经被成功应用,但数学有个得天独厚的条件:每一步推理的对错,可以通过计算机程序自动验证,成本极低。事实类问答就没有这种福利了。要判断AI说的"某某人在1985年获得了某个奖项"是否属实,就得调用一个知识丰富的"裁判"——通常是另一个大型AI模型或者复杂的知识库系统。

这里有两个致命问题。第一是成本。在强化学习训练中,AI会被要求对同一个问题生成很多次不同的回答(研究团队设置的是每个问题生成16个回答),而且每个回答通常包含好几句话。所有这些句子都要调用"裁判"打分。研究团队粗算了一下:整个训练过程需要大约12万次句子级别的打分操作。如果每次都要调用一个大模型来当裁判,代价极其高昂,速度慢到训练完全无法正常推进。第二是"近亲相认"的问题。用AI来评判AI,就像让一个人自己给自己的卷子打分。更糟糕的是,"裁判AI"和"学生AI"是用同样的数据训练出来的,对于那些冷僻知识,两者都记忆模糊。这意味着在最需要准确打分的地方,裁判最不靠谱——它可能也不知道答案,从而给错误的内容打了高分。

二、图书馆的词频统计,怎么变成了AI的"良心"

CorVer的设计思路,可以用一个日常场景来理解。假设你是一名事实核查员,每天要审查大量文章,判断里面每句话的真假。你没有时间一一查阅专业资料,但你有一个快速方法:用图书馆的全文检索系统,搜索句子里提到的两个关键实体,看看它们在大量文献里同时出现的次数。如果搜"乔丹"加"公牛队",结果有几万条,那"乔丹效力于公牛队"这句话十有八九是真的。如果搜"乔丹"加"湖人队",结果是零,那这句话很可能是编造的。这不是百分之百准确的方法,但作为一个快速的粗筛工具,它的效率极高,成本极低。

CorVer的工作原理与此完全一致,只是把"图书馆的全文检索系统"换成了一个叫做Infini-gram的Wikipedia索引引擎。研究团队预先下载了2023年11月版本的英语Wikipedia全文,包含约640万篇文章、55亿个词元,并建立了一个高效的索引,让查询操作变得极快。

整个打分流程分为三步。第一步,用一个非常轻量的小型AI(只有5亿参数,相比那些动辄几百亿参数的大模型,它只是个"小学生")从AI生成的每一句话里提取"主语-宾语"对。比如,从"网球在1988年汉城奥运会上成为正式项目"这句话里,提取出"网球"和"1988年汉城奥运会"这两个实体。第二步,把这两个实体的关键词送入Wikipedia索引,查询它们在Wikipedia文章里一千个词的范围内同时出现的次数。第三步,根据出现次数,按照一个简单的四档规则打分:完全没出现(计数为0),打负0.3分的惩罚;出现次数很少(1到4次),打负0.1分的小惩罚;出现次数中等(5到19次),打0分,即中性处理;出现次数较多(20次及以上),打正0.1分的奖励。

研究团队为了确认"出现频率"确实是判断句子真实性的可靠指标,专门做了一项人工标注实验。他们从AI的训练过程中随机抽取了700句话,让团队成员仔细核实每句话的真假,然后和Infini-gram的查询结果对比。结论相当令人鼓舞:在出现次数为零的句子里,有76%被证实确实是错的;在出现次数超过20次的句子里,有81%被证实确实是对的。更重要的是,从频率最低到最高,句子的正确率呈单调递增趋势——频率为0时正确率约24%,频率在1到4次时约53%,5到9次时约70%,10到19次时约73%,超过20次时约81%。这种单调递增的关系,就是"词频可以当奖励信号"这个想法的实证支撑。

三、把句子分数"翻译"成每个字的奖励,以及整体训练框架

打分只是第一步,还需要把这个句子层面的分数,精确地传递给AI回答里的每一个词,告诉它"这个词所在的那句话是好的还是坏的"。研究团队借鉴了前人的工作,设计了一套"词-句对齐"机制:通过分析AI的文字输出,把每个生成的词标注到它所属的句子编号。这样,一个词就会收到两类信号的叠加:一类是整体回答对不对的"全局分",另一类是它所在句子的"词频分"。同一篇回答里,说得好的句子中的词会获得更高奖励,说得不好的句子中的词会受到惩罚,两者可以同时存在,甚至完全相反。

这套机制被嵌入到一个叫做GRPO的强化学习框架里。GRPO的工作方式类似于考试排名:对于同一道题,让AI生成16个不同的回答,然后给这16个回答打分,以这组回答的平均分为基准,把高于平均分的回答作为"好例子"加强,把低于平均分的回答作为"坏例子"削弱。CorVer在这套框架上叠加了句子级别的词频奖励,让AI不仅知道整体答案好不好,还能感受到"我这篇回答里的第三句话说错了"这种更精确的反馈。

训练时AI还需要遵循一个固定的格式:先用一个"思考"标签包裹推理过程,再用一个"回答"标签给出最终答案。思考部分的每句话也会被CorVer打分,而不只是最终答案部分。这意味着AI不仅要在最后说出正确答案,还要在推理过程中保持每句话都有事实支撑。

四、训练速度:比竞争对手快将近十倍

CorVer的另一个核心优势是速度。研究团队在四个不同大小的模型上,对比了CorVer和四种竞争方案的训练耗时。这四种竞争方案分别是:FoRAG(用检索增强的方式逐句验证事实)、RLFH(调用一个约270亿参数的大模型当逐句评判员)、FSPO(调用一个专门的文本蕴含模型逐句打分)和KnowRL(调用GPT-4o-mini加上一套原子事实验证流程逐句核查)。

结果是,CorVer平均只需要3.2小时完成训练,而四种竞争方案分别需要约21.5小时、14.5小时、29.5小时和24.1小时。最慢的FSPO比CorVer慢8.4倍,最快的RLFH也慢了4.8倍。在最大的模型(Qwen3-8B)上,差距更加悬殊:FSPO需要整整65.8小时,KnowRL需要36.4小时,而CorVer只需4.1小时。这种速度差异并不是因为CorVer偷工减料,而是因为它的每次打分操作成本极低——一次5亿参数的小模型前向推理加上一次数据库查询,耗时毫秒级,与调用大型神经网络验证器的代价完全不在同一个数量级。

研究团队也坦诚地指出:这个速度对比并不完全公平,因为竞争方案是在算力约束下用了缩减版的训练配置(比如更少的并行回答数量),而CorVer则是用完整配置训练的。但这恰恰说明了CorVer的本质优势:它的奖励计算成本足够低,使得完整配置的训练在现有算力条件下实际可行,而竞争方案则因为代价太高而被迫妥协。

五、在三十个考场里全部及格:横跨六个模型、五个测试集的实验结果

研究团队设计了一套规模相当大的实验来验证CorVer的效果。他们选取了六个不同大小的AI模型,涵盖30亿、40亿、80亿、130亿和140亿参数规模,来自Llama-3、Qwen3和OLMo三个不同的模型家族。这六个模型都在CorVer下进行了训练,然后在五个知识密集型问答测试集上逐一评估。这五个测试集分别是:TriviaQA(约1.8万道通用知识题)、NQ-Open(约3600道真实用户搜索问题)、PopQA(约1.4万道与维基百科词条相关的问题)、SimpleQA(约4300道聚焦于事实核查的简短问题)以及TruthfulQA(约817道专门用来测试AI是否会附和错误信念的问题)。训练数据仅来自NQ-Open的训练集和WebQuestions数据集,其余测试集对于AI来说都是从未见过的"陌生考场"。

六个模型乘以五个测试集,构成了30个独立的(模型,测试集)组合。在这30个组合里,CorVer训练后的准确率相比未经训练的原始模型,全部提升,一个也没有退步。以TriviaQA为例,六个模型的平均提升是4.1个百分点;NQ-Open和PopQA上的提升更为明显,部分模型单项提升超过9个百分点。SimpleQA和TruthfulQA上的提升相对较小(通常在1到3个百分点之间),因为这两个测试集本来就极难,原始准确率只有个位数,提升空间有限。

把CorVer和四种竞争方案(在各自可行的训练配置下)进行横向对比,CorVer在20个可比较的(模型,测试集)组合中,赢下了18个,仅有2个略低于竞争方案,且差距都在统计噪声范围内(分别为0.26和0.58个百分点)。

六、它对哪类问题最有帮助?实体冷热与奖励密度的关系

一个很自然的问题是:CorVer对冷僻知识(罕见实体)是否有特别的帮助?毕竟,AI在冷僻知识上出错最多,而CorVer的信号来自Wikipedia,也覆盖各种实体。研究团队在PopQA测试集上做了一个细粒度分析,因为PopQA的每道题都标注了对应维基百科词条的月均访问量,可以精确区分"热门实体"和"冷僻实体"。

他们把问题分为四个访问量区间(从最冷僻的Q1到最热门的Q4),分别统计CorVer的提升幅度。结果出乎部分人的预料:提升并不是在最冷僻的实体上最大,而是在中等偏热门的实体上更大。以OLMo-2-13B这个模型为例,四个区间的提升分别是3.68、4.33、5.51和9.03个百分点,呈单调递增趋势。Llama-3.1-8B的结果也类似。研究团队将这一现象解释为"信号密度假说":对于热门实体,Wikipedia里的共现数据更丰富,打分信号更可靠,梯度更有用;对于冷僻实体,Wikipedia里记录较少,有时候即使AI说错了,词频查询也可能返回较低但非零的数字,打分信号相对模糊。这也是CorVer局限性的一个具体体现:它在冷僻知识上依然提供了帮助,但帮助相对有限。

七、消融实验:拆解每个零件,看看少了哪个零件最致命

为了弄清楚CorVer的效果究竟来自哪里,研究团队做了一系列"拆零件"实验,每次去掉方案中的一个组成部分,观察性能变化。

去掉词频信号,只保留"最终答案对不对"这个奖励,TriviaQA准确率从76.52%下降到71.3%,说明词频信号本身确实提供了超越答案级奖励的额外信息。去掉"最终答案对不对"这个奖励,只保留词频信号,TriviaQA准确率保持在76.1%,接近完整版,但NQ-Open和PopQA下降明显(分别从48.34%降到42.6%,从35.30%降到31.7%),说明词频信号在TriviaQA这类事实性较强的测试上几乎可以独当一面,但在其他类型的测试上仍然需要"答案是否正确"这个信号的配合。

最有趣的对比是把"词-句对齐"这个机制去掉——也就是说,依然计算每句话的词频分,但不把它精确地传递给对应的每个词,而是把所有句子的词频分加起来取平均,统一作用于整篇回答的每个词。这个变体的TriviaQA准确率只有72.9%,远低于完整版的76.52%。关键是,这个变体接收的总词频奖励信号和完整版完全一样,只是分配方式不同——没有对齐,每个词不知道自己所在的句子质量如何。这个结果有力地说明:CorVer的价值主要来自于"精确到每个词所在句子"的奖励分配,而不仅仅是词频信号的总量。

八、一个设计细节引发的意外:不同的"聚合方式"导致截然不同的结果

在设计"怎么处理一句话里有多个实体对"这个问题时,研究团队也做了不同方案的对比。CorVer的标准做法是只取第一个有效的"主语-宾语"对来查词频,称为FIRST方案。他们还测试了另外两种方案:MIN方案(提取句子里所有的实体对,分别查词频,取最小值)和RELCHECK方案(在查词频时把动词关系也加入查询条件)。

结果是标准的FIRST方案效果最好,同时速度也最快。MIN方案出了一个意想不到的问题:训练出的AI学会了通过"说更短的回答"来规避惩罚——句子越短,被提取出多个实体对的概率越低,触发低词频惩罚的风险也越低。于是AI的平均回答长度从约150个词崩溃到只有35到46个词,回答变得非常简短,准确率也跟着大幅下降。RELCHECK方案则因为动词关系的表达形式在Wikipedia里变化多端("执导"、"是导演"、"负责执导"等都指同一个意思),字面匹配经常失败,导致很多正确的句子被错误地降分,而且查询成本比FIRST高约70%。这些对比实验揭示了一个设计原则:简单可靠的第一条规则往往优于看似更精细但引入了新问题的复杂规则。

九、实验背后的工程细节:如何保证训练的可靠性

在实际训练中,研究团队还积累了几个值得记录的工程经验,虽然这些不是受控实验的正式结论,但对于想要复用这套方案的人来说非常有参考价值。

他们发现,先用一个大型AI生成的"思维链"数据对小模型进行监督微调,再进行强化学习,这个看似标准的"预热"流程在他们的实验里反而起了反效果。经过监督微调的模型,在随后的强化学习阶段表现更差,甚至在某些情况下连原始的未经微调的模型都不如。他们的推测是:这些大型AI生成的推理链太复杂,小模型根本无法可靠地复现,强行模仿反而打乱了原本的知识提取能力。于是,最终方案选择直接从原始指令模型出发进行强化学习,跳过预热阶段。

对于30亿和40亿参数规模的小模型,训练过程中出现了一个稳定性问题:如果只用"AI之前学过但偶尔答错"的题目训练(这本来是RL的标准做法,只选那些AI有时对有时错的题目),训练会不稳定,准确率会随训练进行反而下降。研究团队的解决方案是在训练数据里混入一部分"AI总是答对"的题目,作为"锚点",防止模型在学习新东西时忘记已经掌握的知识。80亿及以上规模的大模型则没有这个问题。

还有一个有趣的现象与提示词的设计有关。对于未经训练的原始AI,在提示词里加入"不要重复或循环叙述"这条指令,反而让准确率略微下降,可能是因为额外的规则让原始模型感到困惑。而对于经过CorVer训练的模型,这条指令则是必要的——因为训练后的模型有时会学会一个"作弊"行为:把一句得分高的话反复重复,以此刷高奖励。加上防重复指令后,这种行为得到了有效抑制。

归根结底,CorVer的贡献可以用一句话概括:它找到了一种用图书馆词频统计代替昂贵AI裁判的方法,让"给AI的每句话打分"这件事变得既便宜又快速,同时保持了相当的可靠性。这个方案在三十个独立实验场景里全部有效,在二十个与竞争方案的直接对比里赢下十八个,训练速度则比所有竞争方案快4.8到8.4倍。当然,这套方案并非无懈可击——它只能捕捉主语和宾语是否在Wikipedia里共现,无法识别"实体对了但关系错了"的情况(比如说某两个人确实都出现在Wikipedia同一篇文章里,但AI说的关系是错的,词频打分就无法发现这个错误)。此外,对于那些在Wikipedia里记录极少的冷僻实体,词频信号本身也不够可靠。这些局限性被研究团队坦诚地记录在论文中,也指明了未来改进的方向。

如果说这项研究启发了什么,那可能是一个更宽泛的思考:在我们习惯于用更大、更复杂的AI来解决AI的问题之前,也许应该先问一问,有没有什么简单的、基于事实的、不依赖另一个AI的方法能先做一层有效的粗筛。有时候,一本词典的力量并不亚于一位教授。有兴趣深入了解这项研究所有技术细节的读者,可以通过arXiv编号2605.29648获取原始论文,其中包含完整的实验设置、超参数列表和人工标注细节。

Q&A

Q1:CorVer方法在评判AI每句话真假时,具体是怎么操作的?

A:CorVer的做法分三步:先用一个5亿参数的小型AI从每句话里提取"主语-宾语"实体对,然后在Wikipedia的全文索引里查这两个实体在一千词范围内同时出现的次数,最后按照出现次数的多少分为四档打分——从零次(扣0.3分)到超过20次(加0.1分)。这个分数再精确地传递给对应句子里的每一个词,作为强化学习的奖励信号。

Q2:CorVer训练出来的AI,在冷僻知识上表现有没有明显改善?

A:有所改善,但改善幅度相对有限。研究团队在PopQA测试集上按Wikipedia词条访问量把问题分为四档,结果发现CorVer对访问量越高的热门实体提升越大,对最冷僻的实体提升最小。这是因为Wikipedia里关于冷僻实体的记录本来就少,词频打分信号不够稳定可靠。研究团队在论文中坦承这是CorVer的一个局限性。

Q3:CorVer和其他给AI事实打分的方法相比,最大的优势是什么?

A:最大的优势是速度和成本。其他方法需要对每一句生成的话调用一个大型神经网络模型当裁判,代价极高。CorVer只需要一次小模型推理加一次数据库查询,毫秒级完成。实验中,CorVer的训练速度比最慢的竞争方案快8.4倍,平均只需3.2小时,而竞争方案普遍需要10至30小时,最长的甚至需要65.8小时。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。