乔治理工等联手出招：让AI先说答案再思考，推理速度提升近一倍

IP属地中国·北京 科技行者 时间：2026-05-26 18:27:59

这项由乔治亚理工学院、加州大学伯克利分校、斯坦福大学与微软联合开展的研究，于2026年5月19日以预印本形式发布在arXiv平台，编号为arXiv:2605.20075。感兴趣的读者可以通过该编号检索到完整论文。
说起人工智能怎么"思考"，你可能以为它跟人一样——先在脑子里想清楚，再开口说答案。事实上，目前主流的大语言模型确实是这样做的：面对一道题，先洋洋洒洒写出一大段推理过程，再给出最终答案。这种方式被称为"链式思维"（Chain-of-Thought，CoT）。
但这套流程有个你可能没想到的尴尬：很多时候，模型其实早就"心里有数"了，却还在装模作样地走完整个推理流程。就像一个学生明明一眼就看出答案是42，却还要在草稿纸上演算半页，才肯动笔写答案。研究人员把这种现象叫做"表演性推理"——推理过程是做给别人看的，不是真的必要。
这个问题带来的代价是实实在在的：模型每多输出一个词，都要消耗时间和计算资源。在实际应用中，用户等待的时间也会相应拉长。能不能让模型更聪明一点，该简洁时简洁，该深思时深思？来自上述四所顶尖机构的研究团队给出了他们的答案，并将这套新方法命名为CopT（Contrastive On-Policy Thinking，对比式在策思考）。
一、先说答案，再决定要不要思考
CopT的核心思路可以用一个生活场景来理解。假设你是一位经验丰富的老医生，病人进来描述症状，你扫一眼就有了初步判断。这时候有两条路：如果你对这个判断很有把握，就直接告诉病人；如果你心里没底，才会进一步问诊、做检查，然后修正或确认最初的判断。
CopT让AI也采用这套逻辑。模型拿到问题后，先直接给出一个"草稿答案"，跳过漫长的推理环节。然后，系统会评估这个草稿答案靠不靠谱。如果靠谱，直接输出，省时省力；如果不靠谱，再启动后续的推理过程，对草稿答案进行反思和修正。
这与传统的CoT恰好相反——CoT是"先思考，后回答"，而CopT是"先回答，后（按需）思考"。这个顺序的调换，带来了两个直接好处：用户可以更快看到答案的初步版本，而且对于那些模型本就掌握的简单问题，可以大幅减少不必要的推理开销。
不过，这个方案立刻引出了两个绕不开的问题：怎么判断草稿答案是否可信？以及，一旦启动后续推理，应该如何利用那个也许不太可靠的草稿答案？这两个问题，正是CopT需要解决的核心难题。
二、用"平行宇宙"来衡量答案的可信度
为了评估草稿答案靠不靠谱，CopT发明了一套颇为巧妙的检验机制，核心思路是：用两种不同的方式"回放"模型的生成过程，看看结果有多大差异。
正常情况下，模型生成文字时，每次只挑一个最可能的词，然后把这个已经确定的词作为下一步的输入继续生成。这就像走迷宫时，每到一个路口只选一条路，之后就再也看不到其他岔路了。
但实际上，在模型"心里"，每个位置上并不是只有一个选项，而是有一整张概率分布表——所有可能的词都有对应的概率值。CopT的做法是，把这张概率分布表本身转换成一个"软性输入"（连续嵌入），送回模型，让模型在保留所有可能性的状态下重新生成同一段答案。
你可以把它理解为：第一次是模型在"已做决定"的状态下重新读自己的答案；第二次是模型在"还没做决定、所有可能性都还悬着"的状态下重新读同一段答案。如果这两种状态下，模型对同一段答案的支持程度差不多，说明草稿答案比较可靠——无论模型在每个步骤上"可能走哪条路"，最终都倾向于给出类似的答案。如果差异很大，说明那些"未走的路"会导致截然不同的结果，草稿答案就值得怀疑。
这个差异被量化为一个叫做κ_a的分数，数学上它是两种分布之间的"逆向KL散度"的归一化估计。分数越高，说明草稿答案越不可靠，越需要后续推理来纠正；分数低于某个阈值τ_a，模型就可以放心地直接采纳草稿答案。
研究团队还对这个机制给出了严格的理论解释：在一定假设条件下，这个估计值的期望等于"潜在状态"与"答案词"之间的互信息。用人话说，这个分数衡量的不是模型"整体上有多不确定"，而是模型的不确定性是否真的会影响到答案本身。如果模型心里有多种可能的推理路径，但所有路径都会导向同一个答案，那分数就会很低，草稿答案依然可信。只有当不同推理路径会导致不同答案时，分数才会升高，触发后续推理。
三、推理时，要不要让模型"看见"自己的草稿答案
一旦κ_a超过阈值，说明草稿答案不够可靠，CopT会触发后续的在策思考（on-policy thinking）阶段。此时模型会重新进入"思考模式"，基于问题和草稿答案展开推理，试图验证、修正或推翻最初的判断。
但这里有个微妙的两难困境：草稿答案虽然不够可靠，但也许包含部分有用信息，完全忽略它可能是种浪费；然而，如果整个推理过程都盯着这个有问题的草稿答案，模型可能会被它带歪，越想越偏。
CopT的解法是动态控制草稿答案的"可见性"。推理过程被切分成一段一段的"思考块"（chunk），每段结束时，系统会用类似的对比机制评估当前这段推理的稳定程度，得到一个分数κ_r。如果这段推理比较稳定（κ_r低于阈值τ_r），说明模型当前的思路比较清晰，可以让它看见草稿答案，利用其中可能有价值的信息；如果这段推理比较混乱（κ_r超过阈值），说明模型当前状态容易受干扰，就把草稿答案"藏起来"，让模型在不受其影响的情况下独立推理。
这个机制的效果可以从实验数据中直接观察到：当τ_r设置得越严格（草稿越少暴露），模型在后续推理中能纠正的初始错误就越多。这说明，当推理状态不稳定时，草稿答案的可见性确实会起到负面作用，阻碍模型自我纠错。而在推理状态稳定时，适度暴露草稿答案则可以提供有用的信息支撑。
从实现角度看，κ_a和κ_r都是在模型正常生成文字的过程中顺带计算的，生成时缓存的概率值和连续嵌入被复用，额外开销很小。
四、在数学、编程和智能体任务上的表现
研究团队在10个基准测试上对CopT进行了系统评估，覆盖数学推理（GSM8K、Math500、AIME 2024、AIME 2025、GPQA Diamond）、编程推理（HumanEval、MBPP、LeetCode竞赛题）以及智能体推理（BFCL v4、ZebraArena多轮交互），并在Qwen3和Qwen3.5系列的2B、8B、35B多个规模模型上进行了验证。
在数学任务上，CopT展现出双重优势。对于比较简单的题目，CopT允许可靠的草稿答案直接被采纳，大幅削减了不必要的推理开销。以GSM8K（小学奥数级别的数学题）为例，CopT在准确率持平甚至小幅提升的前提下，把生成的词数减少了55%以上，实际推理延迟降低了37%。Math500上也有类似表现，词数减少约28%，延迟降低20%。
对于更难的题目，CopT通过激活后续推理获得了精度提升。在AIME 2024（美国数学邀请赛）上，准确率提升了3.34个百分点；在AIME 2025上提升了2.92个百分点。这类题目对模型来说本就容易出错，草稿答案的不可靠率更高，触发修正推理的机会也更多。
编程任务上的改善同样显著。HumanEval（Python编程题）上，CopT在减少57%词数的同时，准确率提升了1.83个百分点；若进一步增加推理强度，准确率最高可提升3.66个百分点。LeetCode竞赛难题集上，CopT的整体准确率从59.44%提升至66.11%，其中最难题目的准确率从43.18%跳升至54.55%，绝对提升超过11个百分点。
智能体推理任务上，CopT在单轮函数调用基准BFCL v4上，2B模型减少40.6%的词数、35B模型减少44.7%的词数，同时准确率均有小幅提升。在多轮交互的ZebraArena基准上，效果随问题复杂度增加而愈发明显：小规模问题准确率提升2.98个百分点，中等规模提升13.14个百分点，大规模问题准确率更是提升了23.03个百分点，词数也相应减少了近20%。这意味着在需要多轮对话和工具调用的复杂智能体场景中，CopT的优势会随着交互轮次积累而不断放大。
五、与其他"连续空间"推理方法的对比
近年来，学界还有另一条提升推理效率的技术路线：让模型在推理时不输出人类可读的文字，而是直接在连续向量空间中"思考"，这类方法被称为潜在推理（Latent Reasoning）或连续思维（Continuous CoT）。代表方法包括Soft-Thinking和SwiReasoning。
这些方法的优势在于，连续空间可以编码更丰富的不确定性信息，比离散词语承载的信息量更大。但它们也有明显的副作用：推理过程不再是人类可读的自然语言，用户无法检查模型的推理是否合理；此外，直接使用连续嵌入生成还会面临分布漂移（模型可能逐渐"飘"到训练时没见过的表示空间）和多样性退化等问题。
CopT选择了一条折中路线：推理全程保持自然语言的可读性，只在"验证答案可靠性"这个特定环节借用连续嵌入的信息优势，而不用它来生成内容。结果是，CopT在词数相近或更少的情况下，准确率超过了Soft-Thinking和SwiReasoning。以Qwen3-8B为例，与SwiReasoning相比，CopT在GSM8K上减少18.3%词数的同时提升0.30%准确率；在HumanEval上减少36.4%词数同时提升0.61%准确率；在GPQA Diamond上减少18.0%词数同时提升0.51%准确率。与此同时，CopT的推理过程完全可读，用户可以完整看到模型的思考链路。
六、两个控制旋钮，一条准确率-效率曲线
CopT提供了两个可以灵活调节的参数：草稿答案的可信度阈值τ_a和推理稳定性阈值τ_r。
把τ_a调低（更容易接受草稿答案），模型会更频繁地跳过后续推理，词数大幅减少，但准确率可能略有下降；把τ_a调高，更多草稿答案会被视为不可靠而触发推理，准确率可以进一步提升，代价是更多词数消耗。把τ_r调低（推理时更少暴露草稿答案），自我纠错能力增强；调高则允许模型更多地参考草稿答案中可能存在的有效信息。
这意味着用户可以根据实际需求灵活控制准确率与效率之间的权衡——对于实时性要求高的场景，可以偏向效率；对于精度要求高的场景，可以偏向准确率。实验中，通过调整这两个参数绘制出的准确率-词数曲线显示，CopT的效率边界整体优于标准CoT，即在相同词数下能达到更高准确率，或在相同准确率下消耗更少词数。
七、可信度估计器真的有区分能力吗
研究团队专门对κ_a的区分能力进行了消融实验，将其与"随机选一批答案触发推理"的均匀分配策略进行对比。结果显示，随着τ_a变严格，CopT选中的"不可靠答案"中，真正包含错误的比例（精确率）会持续上升，而均匀分配策略的精确率则始终在低位徘徊、几乎没有识别能力。换句话说，κ_a确实捕捉到了真实的答案不确定性，而不是随机噪声。
在草稿答案可见性控制的消融实验中，当τ_r设置为始终暴露草稿答案时，能被纠正的错误数量最少；随着τ_r变严格，逐步减少草稿答案的可见性，被成功纠正的错误数量稳步增加。这直接说明，在推理不稳定时让模型"看见"自己的错误草稿，确实会阻碍自我纠正。
研究团队还测试了计算κ_a时使用的文本范围：默认设置是在整个草稿答案上计算，而如果只在最终答案内容（如数学题中被`boxed{}`包裹的部分）上计算，准确率可以进一步提升、词数进一步减少。这表明更精准的答案定位能提供更有效的可靠性估计，但由于不是所有任务都能方便地提取出答案区域，研究团队在所有实验中统一使用了全草稿计算的默认设置，以保证跨任务的通用性。
此外，最大草稿长度的设置（默认1024个词）同样经过了消融验证。实验表明这个上限主要起到"防止草稿阶段失控蔓延"的保护作用，并非敏感的性能超参数：在GSM8K上，1024的默认设置达到最佳精度-效率组合；Math500上，适当缩短上限能带来额外提升；但放宽到2048反而没有帮助。
说到底，CopT做的事情用一句话概括就是：让AI学会"先亮底牌，再看需不需要复盘"。这套逻辑听起来简单，实现起来却需要一套精心设计的信号——连续嵌入充当了这个信号源，让模型能够在不额外训练的情况下，从自身的推理过程中提取出可靠性信息。
对普通用户而言，这意味着未来使用AI助手时，简单的问题会得到更快的回复，而复杂的问题依然能获得深思熟虑的答案，而不是两种情况都要等一样长的时间。对AI开发者而言，CopT提供了一个无需重新训练模型、直接在推理阶段部署的优化方案，成本极低。
当然，这套方案也有其局限：κ估计是基于单次生成路径的，理论上比多次采样的估计方差更高；它还需要模型能够输出完整的概率分布（即logits），对于只返回文本的封闭API暂时难以适用。不过这些都是未来可以进一步改进的方向。有兴趣深入了解技术细节的读者，可以通过arXiv编号arXiv:2605.20075查阅完整论文，代码也已在GitHub上公开发布（https://github.com/sdc17/CopT）。
Q&A
Q1：CopT和普通的链式思维（CoT）有什么本质区别？
A：传统CoT强制模型先写出完整推理过程再给答案，而CopT反其道而行之——先给出一个草稿答案，再用一套基于连续嵌入的对比机制判断这个答案是否可信，只在不可信时才触发后续推理。这样对简单问题可以大幅节省词数，对难题则通过动态推理提升准确率。
Q2：CopT需要重新训练大语言模型吗？
A：不需要。CopT是一种完全无需训练的推理阶段方法，直接应用于现有模型的推理过程中。它通过在正常生成时顺带缓存概率分布和连续嵌入，再做一次对比计算来评估可靠性，额外计算开销很小，不改变模型本身的任何参数。
Q3：CopT在哪类任务上效果最明显？
A：CopT在两类场景下效果最突出：一是简单任务（如基础数学题、常规编程题），模型本就知道答案，CopT可以跳过推理直接给出，词数减少幅度可达55%以上；二是需要多轮交互的复杂智能体任务，如ZebraArena大规模问题，准确率提升可达23个百分点，因为推理质量的改善在多轮对话中会持续积累放大。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

美股半导体、存储芯片股，集体下跌

互联网退居幕后？2026中国互联网大会揭开AI时代算力底牌

Anthropic、OpenAI与SpaceX的上市规模超过过去25年科技退出总和

BW2026首日AMD火力全开：游戏本与AI创作本齐发，引领智能娱乐新风潮

AMD与联想强强联手，BW2026首发锐龙AI Max新品，开启AI笔记本新体验

工信部第409批车辆公告出炉：小米澎程系列领衔，多款新车集中亮相

全站最新

美股半导体、存储芯片股，集体下跌

互联网退居幕后？2026中国互联网大会揭开AI时代算力底牌

Anthropic、OpenAI与SpaceX的上市规模超过过去25年科技退出总和

BW2026首日AMD火力全开：游戏本与AI创作本齐发，引领智能娱乐新风潮

热门推荐

美股半导体、存储芯片股，集体下跌

互联网退居幕后？2026中国互联网大会揭开AI时代算力底牌

Anthropic、OpenAI与SpaceX的上市规模超过过去25年科技退出总和

长征十号乙海上网系回收成功，外媒关注：中国航天迈出追赶SpaceX新步伐

智元精灵G2获中美欧多地认证开启具身智能机器人全球商用新篇章

从预热到官宣！小米澎程N90与N70的“空间魔法”全揭秘

小米澎程N90 Max官图亮相，前脸车侧车尾全视角一览无余

Meta收购Virtue AI核心团队，为超级智能计划筑牢安全防线

十亿级参数纯华语AI音乐大模型问世，打通字节七大平台开启创作新篇

字节跳动公益基金会捐2000万支援灾区平台带动超200万人捐款助力

AI竞争白热化！扎克伯格“现身”X宣传，马斯克互动调侃成焦点

雷军分享小米澎程N90座舱：七座布局多样场景满足六至七口人需求

小米澎程首款SUV SkyNomad N90命名公布，座舱空间多元场景自由切换

BW2026首日AMD火力全开：游戏本与AI创作本齐发，引领智能娱乐新风潮

AMD与联想强强联手，BW2026首发锐龙AI Max新品，开启AI笔记本新体验