当前位置: 首页 » 资讯 » 科技头条 » 正文

芝加哥伊利诺伊大学等机构联合出品:AI大模型"想太多"怎么办?

IP属地 中国·北京 科技行者 时间:2026-05-25 22:21:02


这项由美国伊利诺伊大学芝加哥分校、伊利诺伊大学厄巴纳-香槟分校、意大利米兰理工大学以及谷歌研究院联合开展的研究,以预印本形式于2026年5月发布在arXiv平台,编号为arXiv:2605.17672。对于每天都在使用AI助手、或者对AI未来发展感兴趣的普通读者来说,这项研究触及了一个非常现实的问题——当AI在思考的时候,它会不会"想太多"?

一、一个你可能没想到的AI烦恼

当你向一位博学多才但有点"话痨"的朋友提问时,他可能会先完整地回答你的问题,然后继续说"不过我再想想……""对了,我刚才有没有说漏什么……""让我再验证一遍……",如此循环往复,直到你礼貌地打断他。这种现象在最新一代大型推理模型(比如DeepSeek-R1和OpenAI o1)身上同样存在,而且程度相当惊人。

这些推理模型的工作方式是:在给出最终答案之前,先生成一段很长的"思考过程",就像在稿纸上打草稿一样。这种做法确实能提高答案质量,让模型在回答复杂问题时更加准确。然而,研究团队通过仔细分析五款主流推理模型的思考轨迹后发现,这些模型平均有41%到52%的思考内容,是在模型已经想出正确答案之后还在继续产生的——也就是纯粹的"废话"。

换句话说,模型在已经找到答案后,还会继续重复验证、换个说法再说一遍、自我怀疑再检查一遍,然后再换个角度说一遍。这不仅浪费了大量计算资源,还拉长了用户等待时间。更令人担忧的是,模型在已经找到正确答案之后继续"想下去",偶尔还会把自己绕进去,推翻原本正确的答案,反而得出错误结论。

这项研究的核心目标,就是为推理模型设计一套精准的"刹车系统"——在模型的思考真正收敛、答案已经稳定的时候,及时叫停,既节省算力,又保住答案质量,同时保证保留下来的思考过程仍然是一段完整、连贯、有逻辑的推导路径。

二、现有"刹车"方案为何总是踩早了或踩晚了

在这项研究之前,已经有不少团队尝试为推理模型设计早停机制,但研究者们发现这些方法存在一个共同的根本性缺陷:它们全都只盯着"模型现在给出的答案是否稳定",却完全忽视了"模型的思考过程是否真的已经收敛"。

以"信心值"方案为例,这类方法会在模型每走一步思考之后,让模型临时给出一个中间答案,然后计算模型对这个答案有多大把握。一旦把握度超过某个阈值,就立刻停止。问题在于,推理模型在探索阶段也常常会表现出很高的"虚假信心"——它可能已经自信地走在一条错误的路上,信心值高得很,但距离正确答案还差得远。研究团队的统计显示,基于信心值的停止信号,平均有44%的触发时机是错误的,也就是此时的中间答案实际上是错的。而在所有这些错误触发中,又有42%属于"如果不强行停下来,模型本来能自我纠正到正确答案"的情况。也就是说,这套刹车踩下去,恰恰踩在了模型正在自我纠错的关键时刻。

"一致性"方案则是盯着连续几步的中间答案,如果连续三步都给出同样的答案,就认为模型已经收敛,立刻停止。这个思路更危险:模型在早期探索阶段可能已经陷入了一个错误答案的循环,连续三步都输出同样的错误答案,触发停止,然后这个错误就被当成最终答案输出了。统计数据显示,这类方法的错误触发率高达64%,而在一些最难的数学竞赛题上,错误触发率甚至能达到83%。

这两类方案的通病,用一个生活比喻来说,就像厨师在看锅里的东西有没有煮好时,只盯着锅里冒不冒泡,却不去闻味道、不看颜色、不尝口味——泡泡多不代表食物熟了,泡泡少也不代表还生着。盯着单一信号做判断,必然会频繁误判。

三、用"语义雷达"感知思考是否真正完成

研究团队提出的核心创新,是把注意力从"答案是否稳定"转移到"思考过程是否还在产生新内容"上。这个思路的灵感来自一个叫做"语义熵"的概念:如果你对同一个问题让模型回答十次,每次的回答语义都完全不同,说明模型对这个问题还很不确定;如果每次回答的意思都差不多,说明模型已经收敛到了一个稳定的判断。

研究团队把这个跨回答比较的方法,改造成了同一次推理过程内部的步步比较:如果最新一步的思考内容,和前一步的思考内容语义高度相似,说明这步没有产生任何新的推进,思考已经开始"踏步不前";反之,如果两步之间语义差异明显,说明模型还在积极探索新思路,不应该打断。

为了实现这种语义比较,研究团队专门训练了一个轻量级的"冗余探测器"。他们选用了阿里云开源的Qwen3-Embedding-0.6B作为基础模型,用一种叫做LoRA的微调技术进行针对性训练,让它能够准确区分"这步推理真正带来了新进展"和"这步推理只是在重复已有内容"。训练数据来自大规模自动标注:收集了QwQ-32B、GPT-OSS-120B等模型在解题时产生的近两百万对推理步骤,用AI辅助标注哪些步骤是有效推进、哪些是冗余重复,最终形成了约70万条训练样本,标注成本约合两千美元。

这个探测器的工作原理非常直接:给定当前推理步骤和前一个步骤,分别用模型提取它们的语义向量,然后计算两个向量之间的余弦相似度。相似度越高,说明当前步骤越冗余;当相似度超过0.35这个阈值时,探测器就会举起"可能可以停了"的信号牌。在独立测试集上,这个探测器的判断准确率达到91.26%,对"这步其实是有效推进"的识别正确率更是高达93.58%——也就是说,它很少会把真正有用的思考步骤误判为冗余。

四、双重验证机制:先感知冗余,再确认答案

光有冗余探测器还不够。即使思考步骤开始重复,也不能直接停下来——毕竟,"推理开始踏步"只是停止的必要条件,不是充分条件。模型可能在推理收敛的同时,答案其实还不够稳定。

正因如此,研究团队设计了一套双重验证机制,整个系统被命名为PUMA,全称"进度感知的统一监控自适应早停框架"。它的工作流程可以用一家餐厅的出菜流程来理解:冗余探测器相当于厨房里的计时器,提示"这道菜差不多该上了";答案验证机制相当于主厨的最终检查,确认"这道菜确实已经做好、可以端出去"。两道关卡缺一不可。

具体来说,当冗余探测器第一次发出信号时,系统不会立刻停止,而是进入一个"验证窗口"。在这个窗口内,系统会悄悄在当前的推理前缀后面拼接一段诱导语(比如"因此,最终答案是□"),让模型临时给出一个试探性的答案,同时计算模型对这个答案的置信度。验证窗口会等待第二个冗余探测器的触发信号,再次获取一个试探性答案和置信度。只有当两次试探性答案完全一致、第一次试探的置信度超过0.98、第二次置信度不低于第一次太多这三个条件同时满足,系统才会真正停下来,把当前的推理前缀作为完整的思考过程输出。

任何一个条件不满足,系统就继续放任模型推理,等待下一次冗余探测器的触发。这种设计的精妙之处在于,它把"在哪里考虑停止"和"是否真的应该停止"分成了两个独立的决策,避免了仅靠答案信号或仅靠冗余信号就草率停下来的错误。

还有一种特殊情况:有些推理轨迹会在很长时间内既不满足所有验证条件,但也在持续产生冗余步骤,陷入无休止的循环。为此,PUMA还配备了一个"循环破解器"作为最后的安全网:当推理步骤数超过50步之后,如果冗余探测器连续触发多次(具体次数因模型而异),系统就会查看迄今为止所有试探性答案中置信度最高的那个,只要超过0.8,就强制停止,把最高置信度对应的推理前缀作为输出。

五、在五款模型、五个数据集上的全面检验

为了全面验证PUMA的效果,研究团队在五款来自不同公司、架构各异的推理模型上进行了测试:DeepSeek-R1-Distill系列的7B、14B、32B三个参数规模版本,英伟达的Llama-3.1-Nemotron-Nano-8B,以及阿里云的Qwen3-30B混合专家模型。测试数据集覆盖了从高中数学竞赛(MATH-500)到顶级数学竞赛(AIME24/25)、奥林匹克级别理科综合(OlympiadBench)以及研究生级别科学问答(GPQA-Diamond)。

核心结论是:在五款模型和五个数据集的组合上,PUMA平均削减了26.2%的生成token数量,同时几乎不损失答案准确率。更有趣的是,PUMA在多数情况下的准确率比原始完整推理还略微高一点点——这恰恰印证了前面提到的"想太多会把自己绕进去"的问题:提前在正确时机停下来,有时反而能避免模型后来的自我怀疑导致答案偏差。

与现有方案的横向比较更能说明问题。"答案一致性停止"方案虽然能削减80%以上的token,但准确率会暴跌20到40个百分点,基本上是牺牲质量换效率,得不偿失。DEER(基于置信度的早停方案)在准确率上相对稳定,但token削减效果很有限,有时甚至比不停还多用了token,原因是它需要频繁生成试探性答案。Dynasor(结合置信度与一致性的方案)效果不稳定,在较大模型上会严重拖慢速度。各种提示词压缩方案在简单任务上能节省token,但在复杂推理任务上(如Qwen3-30B)准确率会下滑到45%到60%,远低于原始的81.7%。

PUMA在不同参数规模的模型上表现出了良好的可扩展性:对7B的小模型能削减35.6%的token,对30B的大模型能削减28.2%,在各个规模上都保持了准确率不下降的底线。

六、节省的token能转化为真实的速度提升吗

一个很自然的疑问是:削减了token数量,实际运行速度会不会也跟着提升?毕竟,如果早停机制本身需要频繁调用试探性答案生成,这些额外操作也会消耗时间。

研究团队在实际部署环境下测量了端到端的墙钟时间(也就是真实世界的等待时间,而非理论计算量)。结果显示,PUMA在7B模型上实现了平均1.40倍的速度提升,在14B模型上实现了1.28倍的速度提升。相比之下,DEER在两款模型上都比不停还要慢(速度比分别为0.69×和0.71×),Dynasor在14B模型上的速度比更是仅有0.21×,比不停慢了将近五倍。

速度差异的根源在于"试探频率"。PUMA只在冗余探测器举旗的时候才触发一次试探性答案生成,而DEER和Dynasor在每一步都需要触发试探,累积的开销非常巨大。冗余探测器本身非常轻量,每次调用只需约18毫秒,在整个处理流程中只占0.4%到1.1%的时间,几乎可以忽略不计。

七、思维链的质量:早停之后留下来的推理过程好不好

由于推理模型产生的思考过程不只是内部运算,还常常直接展示给用户看,作为答案的解释和依据,所以仅仅保住答案准确率是不够的——留下来的推理过程本身也必须是高质量的。

研究团队邀请GPT-5.4-thinking作为评判者,对每种方案保留的推理链从四个维度进行评分(满分100分,以10分为步长):完整性(推导过程是否充分完整地从题目推导到答案)、连贯性(整个推理流程是否逻辑顺畅、没有突兀跳跃)、简洁性(是否避免了不必要的重复和无效循环)、以及论证质量(读者能否清楚地理解答案为何成立)。

评测结果显示,PUMA在这四个维度上的综合平均分为54.3分,是所有对比方案中最高的,比完整推理的44.1分还要高出10分多。这个结果乍看反直觉,实际上非常合理:完整推理链包含了大量的重复验证和无效绕弯,拖低了简洁性和连贯性的得分;PUMA删掉的恰好是这些冗余部分,保留的是最核心的推导主线,反而让整个推理链更清晰、更好读。一位人类标注员对100对推理链进行了盲测比较,结果有85%的情况下,人类的偏好与AI评判者的评分结论一致。

八、它能推广到代码生成和视觉理解任务吗

研究团队还测试了PUMA在文字推理之外的两类场景下的表现。在代码生成任务上,他们使用LiveCodeBench数据集(880道编程题),对两款模型分别测试。结果显示,在把冗余判断阈值稍微调宽一点(从0.35提高到0.50)之后,PUMA能削减18%到19%的token,而答案通过率只下降了不超过1.5个百分点。

在视觉语言推理任务上,他们选用了两款支持图文混合输入的推理模型(Qwen3-VL-8B-Thinking和Kimi-VL-16B-A3B-Thinking),在MathVista和MathVision两个数学视觉推理数据集上进行测试。这里有一个特别值得关注的细节:PUMA的冗余探测器完全没有在视觉任务上重新训练,直接零样本迁移过去。结果显示,token削减幅度在23.8%到33.6%之间,准确率变化不超过1.5个百分点,有时甚至还略有提升。这说明"推理步骤之间的语义冗余"作为一种停止信号,在不同模态的推理任务上具有相当强的普适性。

九、把"在哪里停"的知识烧进模型里

PUMA本身是一个推理时的外挂模块,每次使用都需要调用冗余探测器和答案验证机制。研究团队进一步探索了一个更有野心的问题:能不能把PUMA挑选的停止位置,转化成训练信号,让模型自己学会在合适的地方停下来,从而在不依赖任何外部模块的情况下实现高效推理?

他们在DeepSeek-R1-Distill-Qwen-7B模型上,用12000道数学题对应的PUMA停止位置数据,分别尝试了三种训练范式。

监督微调方向,他们用PUMA截断后的推理前缀加上正确答案作为训练目标,让模型学习"在这个位置产生答案"的模式,只保留那些截断比例低于60%且再生成答案仍然正确的样本,约得到6500条训练数据。以相同方式但用固定间隔位置(而非PUMA语义停止点)作为截断位置进行训练的对照组,在三个测试集上的平均准确率比PUMA引导的版本低了12.8个百分点,说明PUMA选择的停止位置确实包含了有意义的语义信息,而不只是"截短一点"这么简单。

偏好学习方向,他们用PUMA截断链(更短的正确推理路径)作为偏好样本,完整推理链作为非偏好样本,训练模型学会"在同样正确的前提下,短的比长的好"。这个版本在三个测试集上实现了平均48.8%的token削减,同时准确率仍然比原始基础模型略有提升。

强化学习方向,他们设计了一套奖励机制:答案正确给基础奖励,在此基础上按照推理的短程度给予额外奖励,同时在同一批次的多个推理路径中,对最短的那条正确路径额外加分。用PUMA冗余探测器标记的位置作为推理前缀的起点,让模型从这里开始生成答案阶段,学习如何用最简洁的方式完成推理。这个方向取得了最佳的综合效果,平均准确率达到67.0%(比原始基础模型的63.0%和推理时PUMA的66.2%都略高),平均token削减34.9%。

这组实验证明,PUMA发现的停止位置不仅对当下的推理有价值,还可以作为一种训练信号,教会模型内化"适时收手"的能力。

说到底,这项研究揭示的问题其实相当普遍:做到了不等于做完了,说清楚了不等于还需要再说一遍。推理模型在这一点上和人类有相似的毛病——明明已经想清楚了,却停不下来,总觉得再检查一遍更安心。PUMA提供的解决思路很有启发性:不是强行限制思考长度,也不是只盯着最终答案,而是真正去感知"思考过程是否还在产生新的有效内容",在推理轨迹自然收敛的地方优雅地刹车。从目前的实验结果来看,这套方案在保住答案质量的同时,平均节省了四分之一以上的计算量,在实际部署中也转化出了可观的速度提升。随着推理模型被越来越广泛地用于智能助手、科学计算和代码生成等场景,这类高效推理技术的价值只会越来越大。对这一方向有兴趣的读者可以通过arXiv编号2605.17672查阅完整论文,研究团队的代码也已在GitHub(giovanni-vaccarino/PUMA)上公开。

Q&A

Q1:PUMA框架是如何判断推理模型的思考已经"收敛"的?

A:PUMA通过一个专门训练的冗余探测器来判断。它会把当前推理步骤和上一步的内容分别转化为语义向量,然后计算两者的相似度。相似度超过0.35说明当前步骤没有带来新内容,只是在重复。不过光探测到冗余还不够,PUMA还会进一步验证答案是否稳定、置信度是否足够高,两个条件都满足才真正停止。

Q2:推理模型"想太多"会带来哪些具体危害?

A:危害有两类。一是浪费算力和时间,研究发现五款主流推理模型有41%到52%的推理内容是在正确答案出现之后还在继续生成的,用户为此多等了将近一半的时间。二是"想太多"有时反而会出错,模型在已经给出正确答案之后继续自我怀疑、反复验证,偶尔会把自己绕回到错误答案,提前在正确时机停下反而更安全。

Q3:PUMA削减了推理长度之后,保留下来的推理过程质量会不会变差?

A:不仅没有变差,反而评分更高。研究团队用GPT-5.4-thinking对推理链从完整性、连贯性、简洁性和论证质量四个维度打分,PUMA保留的推理链平均得54.3分,比完整推理链的44.1分还要高。原因在于PUMA删掉的恰好是重复验证和无效绕弯的部分,留下的是最核心的推导主线,读起来反而更清晰。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。