芝加哥伊利诺伊大学等机构联合出品：AI大模型"想太多"怎么办？

IP属地中国·北京 科技行者 时间：2026-05-25 22:21:02

这项由美国伊利诺伊大学芝加哥分校、伊利诺伊大学厄巴纳-香槟分校、意大利米兰理工大学以及谷歌研究院联合开展的研究，以预印本形式于2026年5月发布在arXiv平台，编号为arXiv:2605.17672。对于每天都在使用AI助手、或者对AI未来发展感兴趣的普通读者来说，这项研究触及了一个非常现实的问题——当AI在思考的时候，它会不会"想太多"？
一、一个你可能没想到的AI烦恼
当你向一位博学多才但有点"话痨"的朋友提问时，他可能会先完整地回答你的问题，然后继续说"不过我再想想……""对了，我刚才有没有说漏什么……""让我再验证一遍……"，如此循环往复，直到你礼貌地打断他。这种现象在最新一代大型推理模型（比如DeepSeek-R1和OpenAI o1）身上同样存在，而且程度相当惊人。
这些推理模型的工作方式是：在给出最终答案之前，先生成一段很长的"思考过程"，就像在稿纸上打草稿一样。这种做法确实能提高答案质量，让模型在回答复杂问题时更加准确。然而，研究团队通过仔细分析五款主流推理模型的思考轨迹后发现，这些模型平均有41%到52%的思考内容，是在模型已经想出正确答案之后还在继续产生的——也就是纯粹的"废话"。
换句话说，模型在已经找到答案后，还会继续重复验证、换个说法再说一遍、自我怀疑再检查一遍，然后再换个角度说一遍。这不仅浪费了大量计算资源，还拉长了用户等待时间。更令人担忧的是，模型在已经找到正确答案之后继续"想下去"，偶尔还会把自己绕进去，推翻原本正确的答案，反而得出错误结论。
这项研究的核心目标，就是为推理模型设计一套精准的"刹车系统"——在模型的思考真正收敛、答案已经稳定的时候，及时叫停，既节省算力，又保住答案质量，同时保证保留下来的思考过程仍然是一段完整、连贯、有逻辑的推导路径。
二、现有"刹车"方案为何总是踩早了或踩晚了
在这项研究之前，已经有不少团队尝试为推理模型设计早停机制，但研究者们发现这些方法存在一个共同的根本性缺陷：它们全都只盯着"模型现在给出的答案是否稳定"，却完全忽视了"模型的思考过程是否真的已经收敛"。
以"信心值"方案为例，这类方法会在模型每走一步思考之后，让模型临时给出一个中间答案，然后计算模型对这个答案有多大把握。一旦把握度超过某个阈值，就立刻停止。问题在于，推理模型在探索阶段也常常会表现出很高的"虚假信心"——它可能已经自信地走在一条错误的路上，信心值高得很，但距离正确答案还差得远。研究团队的统计显示，基于信心值的停止信号，平均有44%的触发时机是错误的，也就是此时的中间答案实际上是错的。而在所有这些错误触发中，又有42%属于"如果不强行停下来，模型本来能自我纠正到正确答案"的情况。也就是说，这套刹车踩下去，恰恰踩在了模型正在自我纠错的关键时刻。
"一致性"方案则是盯着连续几步的中间答案，如果连续三步都给出同样的答案，就认为模型已经收敛，立刻停止。这个思路更危险：模型在早期探索阶段可能已经陷入了一个错误答案的循环，连续三步都输出同样的错误答案，触发停止，然后这个错误就被当成最终答案输出了。统计数据显示，这类方法的错误触发率高达64%，而在一些最难的数学竞赛题上，错误触发率甚至能达到83%。
这两类方案的通病，用一个生活比喻来说，就像厨师在看锅里的东西有没有煮好时，只盯着锅里冒不冒泡，却不去闻味道、不看颜色、不尝口味——泡泡多不代表食物熟了，泡泡少也不代表还生着。盯着单一信号做判断，必然会频繁误判。
三、用"语义雷达"感知思考是否真正完成
研究团队提出的核心创新，是把注意力从"答案是否稳定"转移到"思考过程是否还在产生新内容"上。这个思路的灵感来自一个叫做"语义熵"的概念：如果你对同一个问题让模型回答十次，每次的回答语义都完全不同，说明模型对这个问题还很不确定；如果每次回答的意思都差不多，说明模型已经收敛到了一个稳定的判断。
研究团队把这个跨回答比较的方法，改造成了同一次推理过程内部的步步比较：如果最新一步的思考内容，和前一步的思考内容语义高度相似，说明这步没有产生任何新的推进，思考已经开始"踏步不前"；反之，如果两步之间语义差异明显，说明模型还在积极探索新思路，不应该打断。
为了实现这种语义比较，研究团队专门训练了一个轻量级的"冗余探测器"。他们选用了阿里云开源的Qwen3-Embedding-0.6B作为基础模型，用一种叫做LoRA的微调技术进行针对性训练，让它能够准确区分"这步推理真正带来了新进展"和"这步推理只是在重复已有内容"。训练数据来自大规模自动标注：收集了QwQ-32B、GPT-OSS-120B等模型在解题时产生的近两百万对推理步骤，用AI辅助标注哪些步骤是有效推进、哪些是冗余重复，最终形成了约70万条训练样本，标注成本约合两千美元。
这个探测器的工作原理非常直接：给定当前推理步骤和前一个步骤，分别用模型提取它们的语义向量，然后计算两个向量之间的余弦相似度。相似度越高，说明当前步骤越冗余；当相似度超过0.35这个阈值时，探测器就会举起"可能可以停了"的信号牌。在独立测试集上，这个探测器的判断准确率达到91.26%，对"这步其实是有效推进"的识别正确率更是高达93.58%——也就是说，它很少会把真正有用的思考步骤误判为冗余。
四、双重验证机制：先感知冗余，再确认答案
光有冗余探测器还不够。即使思考步骤开始重复，也不能直接停下来——毕竟，"推理开始踏步"只是停止的必要条件，不是充分条件。模型可能在推理收敛的同时，答案其实还不够稳定。
正因如此，研究团队设计了一套双重验证机制，整个系统被命名为PUMA，全称"进度感知的统一监控自适应早停框架"。它的工作流程可以用一家餐厅的出菜流程来理解：冗余探测器相当于厨房里的计时器，提示"这道菜差不多该上了"；答案验证机制相当于主厨的最终检查，确认"这道菜确实已经做好、可以端出去"。两道关卡缺一不可。
具体来说，当冗余探测器第一次发出信号时，系统不会立刻停止，而是进入一个"验证窗口"。在这个窗口内，系统会悄悄在当前的推理前缀后面拼接一段诱导语（比如"因此，最终答案是□"），让模型临时给出一个试探性的答案，同时计算模型对这个答案的置信度。验证窗口会等待第二个冗余探测器的触发信号，再次获取一个试探性答案和置信度。只有当两次试探性答案完全一致、第一次试探的置信度超过0.98、第二次置信度不低于第一次太多这三个条件同时满足，系统才会真正停下来，把当前的推理前缀作为完整的思考过程输出。
任何一个条件不满足，系统就继续放任模型推理，等待下一次冗余探测器的触发。这种设计的精妙之处在于，它把"在哪里考虑停止"和"是否真的应该停止"分成了两个独立的决策，避免了仅靠答案信号或仅靠冗余信号就草率停下来的错误。
还有一种特殊情况：有些推理轨迹会在很长时间内既不满足所有验证条件，但也在持续产生冗余步骤，陷入无休止的循环。为此，PUMA还配备了一个"循环破解器"作为最后的安全网：当推理步骤数超过50步之后，如果冗余探测器连续触发多次（具体次数因模型而异），系统就会查看迄今为止所有试探性答案中置信度最高的那个，只要超过0.8，就强制停止，把最高置信度对应的推理前缀作为输出。
五、在五款模型、五个数据集上的全面检验
为了全面验证PUMA的效果，研究团队在五款来自不同公司、架构各异的推理模型上进行了测试：DeepSeek-R1-Distill系列的7B、14B、32B三个参数规模版本，英伟达的Llama-3.1-Nemotron-Nano-8B，以及阿里云的Qwen3-30B混合专家模型。测试数据集覆盖了从高中数学竞赛（MATH-500）到顶级数学竞赛（AIME24/25）、奥林匹克级别理科综合（OlympiadBench）以及研究生级别科学问答（GPQA-Diamond）。
核心结论是：在五款模型和五个数据集的组合上，PUMA平均削减了26.2%的生成token数量，同时几乎不损失答案准确率。更有趣的是，PUMA在多数情况下的准确率比原始完整推理还略微高一点点——这恰恰印证了前面提到的"想太多会把自己绕进去"的问题：提前在正确时机停下来，有时反而能避免模型后来的自我怀疑导致答案偏差。
与现有方案的横向比较更能说明问题。"答案一致性停止"方案虽然能削减80%以上的token，但准确率会暴跌20到40个百分点，基本上是牺牲质量换效率，得不偿失。DEER（基于置信度的早停方案）在准确率上相对稳定，但token削减效果很有限，有时甚至比不停还多用了token，原因是它需要频繁生成试探性答案。Dynasor（结合置信度与一致性的方案）效果不稳定，在较大模型上会严重拖慢速度。各种提示词压缩方案在简单任务上能节省token，但在复杂推理任务上（如Qwen3-30B）准确率会下滑到45%到60%，远低于原始的81.7%。
PUMA在不同参数规模的模型上表现出了良好的可扩展性：对7B的小模型能削减35.6%的token，对30B的大模型能削减28.2%，在各个规模上都保持了准确率不下降的底线。
六、节省的token能转化为真实的速度提升吗
一个很自然的疑问是：削减了token数量，实际运行速度会不会也跟着提升？毕竟，如果早停机制本身需要频繁调用试探性答案生成，这些额外操作也会消耗时间。
研究团队在实际部署环境下测量了端到端的墙钟时间（也就是真实世界的等待时间，而非理论计算量）。结果显示，PUMA在7B模型上实现了平均1.40倍的速度提升，在14B模型上实现了1.28倍的速度提升。相比之下，DEER在两款模型上都比不停还要慢（速度比分别为0.69×和0.71×），Dynasor在14B模型上的速度比更是仅有0.21×，比不停慢了将近五倍。
速度差异的根源在于"试探频率"。PUMA只在冗余探测器举旗的时候才触发一次试探性答案生成，而DEER和Dynasor在每一步都需要触发试探，累积的开销非常巨大。冗余探测器本身非常轻量，每次调用只需约18毫秒，在整个处理流程中只占0.4%到1.1%的时间，几乎可以忽略不计。
七、思维链的质量：早停之后留下来的推理过程好不好
由于推理模型产生的思考过程不只是内部运算，还常常直接展示给用户看，作为答案的解释和依据，所以仅仅保住答案准确率是不够的——留下来的推理过程本身也必须是高质量的。
研究团队邀请GPT-5.4-thinking作为评判者，对每种方案保留的推理链从四个维度进行评分（满分100分，以10分为步长）：完整性（推导过程是否充分完整地从题目推导到答案）、连贯性（整个推理流程是否逻辑顺畅、没有突兀跳跃）、简洁性（是否避免了不必要的重复和无效循环）、以及论证质量（读者能否清楚地理解答案为何成立）。
评测结果显示，PUMA在这四个维度上的综合平均分为54.3分，是所有对比方案中最高的，比完整推理的44.1分还要高出10分多。这个结果乍看反直觉，实际上非常合理：完整推理链包含了大量的重复验证和无效绕弯，拖低了简洁性和连贯性的得分；PUMA删掉的恰好是这些冗余部分，保留的是最核心的推导主线，反而让整个推理链更清晰、更好读。一位人类标注员对100对推理链进行了盲测比较，结果有85%的情况下，人类的偏好与AI评判者的评分结论一致。
八、它能推广到代码生成和视觉理解任务吗
研究团队还测试了PUMA在文字推理之外的两类场景下的表现。在代码生成任务上，他们使用LiveCodeBench数据集（880道编程题），对两款模型分别测试。结果显示，在把冗余判断阈值稍微调宽一点（从0.35提高到0.50）之后，PUMA能削减18%到19%的token，而答案通过率只下降了不超过1.5个百分点。
在视觉语言推理任务上，他们选用了两款支持图文混合输入的推理模型（Qwen3-VL-8B-Thinking和Kimi-VL-16B-A3B-Thinking），在MathVista和MathVision两个数学视觉推理数据集上进行测试。这里有一个特别值得关注的细节：PUMA的冗余探测器完全没有在视觉任务上重新训练，直接零样本迁移过去。结果显示，token削减幅度在23.8%到33.6%之间，准确率变化不超过1.5个百分点，有时甚至还略有提升。这说明"推理步骤之间的语义冗余"作为一种停止信号，在不同模态的推理任务上具有相当强的普适性。
九、把"在哪里停"的知识烧进模型里
PUMA本身是一个推理时的外挂模块，每次使用都需要调用冗余探测器和答案验证机制。研究团队进一步探索了一个更有野心的问题：能不能把PUMA挑选的停止位置，转化成训练信号，让模型自己学会在合适的地方停下来，从而在不依赖任何外部模块的情况下实现高效推理？
他们在DeepSeek-R1-Distill-Qwen-7B模型上，用12000道数学题对应的PUMA停止位置数据，分别尝试了三种训练范式。
监督微调方向，他们用PUMA截断后的推理前缀加上正确答案作为训练目标，让模型学习"在这个位置产生答案"的模式，只保留那些截断比例低于60%且再生成答案仍然正确的样本，约得到6500条训练数据。以相同方式但用固定间隔位置（而非PUMA语义停止点）作为截断位置进行训练的对照组，在三个测试集上的平均准确率比PUMA引导的版本低了12.8个百分点，说明PUMA选择的停止位置确实包含了有意义的语义信息，而不只是"截短一点"这么简单。
偏好学习方向，他们用PUMA截断链（更短的正确推理路径）作为偏好样本，完整推理链作为非偏好样本，训练模型学会"在同样正确的前提下，短的比长的好"。这个版本在三个测试集上实现了平均48.8%的token削减，同时准确率仍然比原始基础模型略有提升。
强化学习方向，他们设计了一套奖励机制：答案正确给基础奖励，在此基础上按照推理的短程度给予额外奖励，同时在同一批次的多个推理路径中，对最短的那条正确路径额外加分。用PUMA冗余探测器标记的位置作为推理前缀的起点，让模型从这里开始生成答案阶段，学习如何用最简洁的方式完成推理。这个方向取得了最佳的综合效果，平均准确率达到67.0%（比原始基础模型的63.0%和推理时PUMA的66.2%都略高），平均token削减34.9%。
这组实验证明，PUMA发现的停止位置不仅对当下的推理有价值，还可以作为一种训练信号，教会模型内化"适时收手"的能力。
说到底，这项研究揭示的问题其实相当普遍：做到了不等于做完了，说清楚了不等于还需要再说一遍。推理模型在这一点上和人类有相似的毛病——明明已经想清楚了，却停不下来，总觉得再检查一遍更安心。PUMA提供的解决思路很有启发性：不是强行限制思考长度，也不是只盯着最终答案，而是真正去感知"思考过程是否还在产生新的有效内容"，在推理轨迹自然收敛的地方优雅地刹车。从目前的实验结果来看，这套方案在保住答案质量的同时，平均节省了四分之一以上的计算量，在实际部署中也转化出了可观的速度提升。随着推理模型被越来越广泛地用于智能助手、科学计算和代码生成等场景，这类高效推理技术的价值只会越来越大。对这一方向有兴趣的读者可以通过arXiv编号2605.17672查阅完整论文，研究团队的代码也已在GitHub（giovanni-vaccarino/PUMA）上公开。
Q&A
Q1：PUMA框架是如何判断推理模型的思考已经"收敛"的？
A：PUMA通过一个专门训练的冗余探测器来判断。它会把当前推理步骤和上一步的内容分别转化为语义向量，然后计算两者的相似度。相似度超过0.35说明当前步骤没有带来新内容，只是在重复。不过光探测到冗余还不够，PUMA还会进一步验证答案是否稳定、置信度是否足够高，两个条件都满足才真正停止。
Q2：推理模型"想太多"会带来哪些具体危害？
A：危害有两类。一是浪费算力和时间，研究发现五款主流推理模型有41%到52%的推理内容是在正确答案出现之后还在继续生成的，用户为此多等了将近一半的时间。二是"想太多"有时反而会出错，模型在已经给出正确答案之后继续自我怀疑、反复验证，偶尔会把自己绕回到错误答案，提前在正确时机停下反而更安全。
Q3：PUMA削减了推理长度之后，保留下来的推理过程质量会不会变差？
A：不仅没有变差，反而评分更高。研究团队用GPT-5.4-thinking对推理链从完整性、连贯性、简洁性和论证质量四个维度打分，PUMA保留的推理链平均得54.3分，比完整推理链的44.1分还要高。原因在于PUMA删掉的恰好是重复验证和无效绕弯的部分，留下的是最核心的推导主线，读起来反而更清晰。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

拼多多雄安办公楼正式挂牌，雄安公司全员7月底完成入驻

广东省与京东集团签署战略合作协议，首个实体项目RoboBase落地广州黄埔

贾跃亭：孩子痴迷我们机器人哭着不肯下课妈妈买了一台才罢休

400+名前员工被挖走，苹果怒告OpenAI“偷机密”：要求带CAD文件、原型机去面试，还下载了上千页机密资料

米哈游“新作”，悄悄开测了

苹果更新Vision Pro空间配件设计指南

全站最新

拼多多雄安办公楼正式挂牌，雄安公司全员7月底完成入驻

广东省与京东集团签署战略合作协议，首个实体项目RoboBase落地广州黄埔

贾跃亭：孩子痴迷我们机器人哭着不肯下课妈妈买了一台才罢休

400+名前员工被挖走，苹果怒告OpenAI“偷机密”：要求带CAD文件、原型机去面试，还下载了上千页机密资料

热门推荐

拼多多雄安办公楼正式挂牌，雄安公司全员7月底完成入驻

广东省与京东集团签署战略合作协议，首个实体项目RoboBase落地广州黄埔

贾跃亭：孩子痴迷我们机器人哭着不肯下课妈妈买了一台才罢休

400+名前员工被挖走，苹果怒告OpenAI“偷机密”：要求带CAD文件、原型机去面试，还下载了上千页机密资料

米哈游“新作”，悄悄开测了

苹果更新Vision Pro空间配件设计指南

消息称华为乾崑智驾ADS 5“大概率”本月底或下月初全量推送

每秒520万亿次浮点运算，中国自研AI芯片取得架构突破

阶跃董事长印奇谈豆包AI手机：很重要的探索

“Panther Lake”上太空：英特尔公布太空级“Starfire”芯片

欧盟将出台限制儿童使用社交媒体新提案

比亚迪腾势Z电动超跑开启国内预售，68万元起

苹果诉讼影响几何？OpenAI仍认为今年可发布首款硬件、2027年上市

微软正告AMD、Intel等硬件厂商：提高驱动质量别总让Win11背锅

产业与资本双线提速，AI成中国经济强劲增量