![]()
这项由乔治亚理工学院、加州大学伯克利分校、斯坦福大学与微软联合开展的研究,于2026年5月19日以预印本形式发布在arXiv平台,编号为arXiv:2605.20075。感兴趣的读者可以通过该编号检索到完整论文。
说起人工智能怎么"思考",你可能以为它跟人一样——先在脑子里想清楚,再开口说答案。事实上,目前主流的大语言模型确实是这样做的:面对一道题,先洋洋洒洒写出一大段推理过程,再给出最终答案。这种方式被称为"链式思维"(Chain-of-Thought,CoT)。
但这套流程有个你可能没想到的尴尬:很多时候,模型其实早就"心里有数"了,却还在装模作样地走完整个推理流程。就像一个学生明明一眼就看出答案是42,却还要在草稿纸上演算半页,才肯动笔写答案。研究人员把这种现象叫做"表演性推理"——推理过程是做给别人看的,不是真的必要。
这个问题带来的代价是实实在在的:模型每多输出一个词,都要消耗时间和计算资源。在实际应用中,用户等待的时间也会相应拉长。能不能让模型更聪明一点,该简洁时简洁,该深思时深思?来自上述四所顶尖机构的研究团队给出了他们的答案,并将这套新方法命名为CopT(Contrastive On-Policy Thinking,对比式在策思考)。
一、先说答案,再决定要不要思考
CopT的核心思路可以用一个生活场景来理解。假设你是一位经验丰富的老医生,病人进来描述症状,你扫一眼就有了初步判断。这时候有两条路:如果你对这个判断很有把握,就直接告诉病人;如果你心里没底,才会进一步问诊、做检查,然后修正或确认最初的判断。
CopT让AI也采用这套逻辑。模型拿到问题后,先直接给出一个"草稿答案",跳过漫长的推理环节。然后,系统会评估这个草稿答案靠不靠谱。如果靠谱,直接输出,省时省力;如果不靠谱,再启动后续的推理过程,对草稿答案进行反思和修正。
这与传统的CoT恰好相反——CoT是"先思考,后回答",而CopT是"先回答,后(按需)思考"。这个顺序的调换,带来了两个直接好处:用户可以更快看到答案的初步版本,而且对于那些模型本就掌握的简单问题,可以大幅减少不必要的推理开销。
不过,这个方案立刻引出了两个绕不开的问题:怎么判断草稿答案是否可信?以及,一旦启动后续推理,应该如何利用那个也许不太可靠的草稿答案?这两个问题,正是CopT需要解决的核心难题。
二、用"平行宇宙"来衡量答案的可信度
为了评估草稿答案靠不靠谱,CopT发明了一套颇为巧妙的检验机制,核心思路是:用两种不同的方式"回放"模型的生成过程,看看结果有多大差异。
正常情况下,模型生成文字时,每次只挑一个最可能的词,然后把这个已经确定的词作为下一步的输入继续生成。这就像走迷宫时,每到一个路口只选一条路,之后就再也看不到其他岔路了。
但实际上,在模型"心里",每个位置上并不是只有一个选项,而是有一整张概率分布表——所有可能的词都有对应的概率值。CopT的做法是,把这张概率分布表本身转换成一个"软性输入"(连续嵌入),送回模型,让模型在保留所有可能性的状态下重新生成同一段答案。
你可以把它理解为:第一次是模型在"已做决定"的状态下重新读自己的答案;第二次是模型在"还没做决定、所有可能性都还悬着"的状态下重新读同一段答案。如果这两种状态下,模型对同一段答案的支持程度差不多,说明草稿答案比较可靠——无论模型在每个步骤上"可能走哪条路",最终都倾向于给出类似的答案。如果差异很大,说明那些"未走的路"会导致截然不同的结果,草稿答案就值得怀疑。
这个差异被量化为一个叫做κ_a的分数,数学上它是两种分布之间的"逆向KL散度"的归一化估计。分数越高,说明草稿答案越不可靠,越需要后续推理来纠正;分数低于某个阈值τ_a,模型就可以放心地直接采纳草稿答案。
研究团队还对这个机制给出了严格的理论解释:在一定假设条件下,这个估计值的期望等于"潜在状态"与"答案词"之间的互信息。用人话说,这个分数衡量的不是模型"整体上有多不确定",而是模型的不确定性是否真的会影响到答案本身。如果模型心里有多种可能的推理路径,但所有路径都会导向同一个答案,那分数就会很低,草稿答案依然可信。只有当不同推理路径会导致不同答案时,分数才会升高,触发后续推理。
三、推理时,要不要让模型"看见"自己的草稿答案
一旦κ_a超过阈值,说明草稿答案不够可靠,CopT会触发后续的在策思考(on-policy thinking)阶段。此时模型会重新进入"思考模式",基于问题和草稿答案展开推理,试图验证、修正或推翻最初的判断。
但这里有个微妙的两难困境:草稿答案虽然不够可靠,但也许包含部分有用信息,完全忽略它可能是种浪费;然而,如果整个推理过程都盯着这个有问题的草稿答案,模型可能会被它带歪,越想越偏。
CopT的解法是动态控制草稿答案的"可见性"。推理过程被切分成一段一段的"思考块"(chunk),每段结束时,系统会用类似的对比机制评估当前这段推理的稳定程度,得到一个分数κ_r。如果这段推理比较稳定(κ_r低于阈值τ_r),说明模型当前的思路比较清晰,可以让它看见草稿答案,利用其中可能有价值的信息;如果这段推理比较混乱(κ_r超过阈值),说明模型当前状态容易受干扰,就把草稿答案"藏起来",让模型在不受其影响的情况下独立推理。
这个机制的效果可以从实验数据中直接观察到:当τ_r设置得越严格(草稿越少暴露),模型在后续推理中能纠正的初始错误就越多。这说明,当推理状态不稳定时,草稿答案的可见性确实会起到负面作用,阻碍模型自我纠错。而在推理状态稳定时,适度暴露草稿答案则可以提供有用的信息支撑。
从实现角度看,κ_a和κ_r都是在模型正常生成文字的过程中顺带计算的,生成时缓存的概率值和连续嵌入被复用,额外开销很小。
四、在数学、编程和智能体任务上的表现
研究团队在10个基准测试上对CopT进行了系统评估,覆盖数学推理(GSM8K、Math500、AIME 2024、AIME 2025、GPQA Diamond)、编程推理(HumanEval、MBPP、LeetCode竞赛题)以及智能体推理(BFCL v4、ZebraArena多轮交互),并在Qwen3和Qwen3.5系列的2B、8B、35B多个规模模型上进行了验证。
在数学任务上,CopT展现出双重优势。对于比较简单的题目,CopT允许可靠的草稿答案直接被采纳,大幅削减了不必要的推理开销。以GSM8K(小学奥数级别的数学题)为例,CopT在准确率持平甚至小幅提升的前提下,把生成的词数减少了55%以上,实际推理延迟降低了37%。Math500上也有类似表现,词数减少约28%,延迟降低20%。
对于更难的题目,CopT通过激活后续推理获得了精度提升。在AIME 2024(美国数学邀请赛)上,准确率提升了3.34个百分点;在AIME 2025上提升了2.92个百分点。这类题目对模型来说本就容易出错,草稿答案的不可靠率更高,触发修正推理的机会也更多。
编程任务上的改善同样显著。HumanEval(Python编程题)上,CopT在减少57%词数的同时,准确率提升了1.83个百分点;若进一步增加推理强度,准确率最高可提升3.66个百分点。LeetCode竞赛难题集上,CopT的整体准确率从59.44%提升至66.11%,其中最难题目的准确率从43.18%跳升至54.55%,绝对提升超过11个百分点。
智能体推理任务上,CopT在单轮函数调用基准BFCL v4上,2B模型减少40.6%的词数、35B模型减少44.7%的词数,同时准确率均有小幅提升。在多轮交互的ZebraArena基准上,效果随问题复杂度增加而愈发明显:小规模问题准确率提升2.98个百分点,中等规模提升13.14个百分点,大规模问题准确率更是提升了23.03个百分点,词数也相应减少了近20%。这意味着在需要多轮对话和工具调用的复杂智能体场景中,CopT的优势会随着交互轮次积累而不断放大。
五、与其他"连续空间"推理方法的对比
近年来,学界还有另一条提升推理效率的技术路线:让模型在推理时不输出人类可读的文字,而是直接在连续向量空间中"思考",这类方法被称为潜在推理(Latent Reasoning)或连续思维(Continuous CoT)。代表方法包括Soft-Thinking和SwiReasoning。
这些方法的优势在于,连续空间可以编码更丰富的不确定性信息,比离散词语承载的信息量更大。但它们也有明显的副作用:推理过程不再是人类可读的自然语言,用户无法检查模型的推理是否合理;此外,直接使用连续嵌入生成还会面临分布漂移(模型可能逐渐"飘"到训练时没见过的表示空间)和多样性退化等问题。
CopT选择了一条折中路线:推理全程保持自然语言的可读性,只在"验证答案可靠性"这个特定环节借用连续嵌入的信息优势,而不用它来生成内容。结果是,CopT在词数相近或更少的情况下,准确率超过了Soft-Thinking和SwiReasoning。以Qwen3-8B为例,与SwiReasoning相比,CopT在GSM8K上减少18.3%词数的同时提升0.30%准确率;在HumanEval上减少36.4%词数同时提升0.61%准确率;在GPQA Diamond上减少18.0%词数同时提升0.51%准确率。与此同时,CopT的推理过程完全可读,用户可以完整看到模型的思考链路。
六、两个控制旋钮,一条准确率-效率曲线
CopT提供了两个可以灵活调节的参数:草稿答案的可信度阈值τ_a和推理稳定性阈值τ_r。
把τ_a调低(更容易接受草稿答案),模型会更频繁地跳过后续推理,词数大幅减少,但准确率可能略有下降;把τ_a调高,更多草稿答案会被视为不可靠而触发推理,准确率可以进一步提升,代价是更多词数消耗。把τ_r调低(推理时更少暴露草稿答案),自我纠错能力增强;调高则允许模型更多地参考草稿答案中可能存在的有效信息。
这意味着用户可以根据实际需求灵活控制准确率与效率之间的权衡——对于实时性要求高的场景,可以偏向效率;对于精度要求高的场景,可以偏向准确率。实验中,通过调整这两个参数绘制出的准确率-词数曲线显示,CopT的效率边界整体优于标准CoT,即在相同词数下能达到更高准确率,或在相同准确率下消耗更少词数。
七、可信度估计器真的有区分能力吗
研究团队专门对κ_a的区分能力进行了消融实验,将其与"随机选一批答案触发推理"的均匀分配策略进行对比。结果显示,随着τ_a变严格,CopT选中的"不可靠答案"中,真正包含错误的比例(精确率)会持续上升,而均匀分配策略的精确率则始终在低位徘徊、几乎没有识别能力。换句话说,κ_a确实捕捉到了真实的答案不确定性,而不是随机噪声。
在草稿答案可见性控制的消融实验中,当τ_r设置为始终暴露草稿答案时,能被纠正的错误数量最少;随着τ_r变严格,逐步减少草稿答案的可见性,被成功纠正的错误数量稳步增加。这直接说明,在推理不稳定时让模型"看见"自己的错误草稿,确实会阻碍自我纠正。
研究团队还测试了计算κ_a时使用的文本范围:默认设置是在整个草稿答案上计算,而如果只在最终答案内容(如数学题中被`boxed{}`包裹的部分)上计算,准确率可以进一步提升、词数进一步减少。这表明更精准的答案定位能提供更有效的可靠性估计,但由于不是所有任务都能方便地提取出答案区域,研究团队在所有实验中统一使用了全草稿计算的默认设置,以保证跨任务的通用性。
此外,最大草稿长度的设置(默认1024个词)同样经过了消融验证。实验表明这个上限主要起到"防止草稿阶段失控蔓延"的保护作用,并非敏感的性能超参数:在GSM8K上,1024的默认设置达到最佳精度-效率组合;Math500上,适当缩短上限能带来额外提升;但放宽到2048反而没有帮助。
说到底,CopT做的事情用一句话概括就是:让AI学会"先亮底牌,再看需不需要复盘"。这套逻辑听起来简单,实现起来却需要一套精心设计的信号——连续嵌入充当了这个信号源,让模型能够在不额外训练的情况下,从自身的推理过程中提取出可靠性信息。
对普通用户而言,这意味着未来使用AI助手时,简单的问题会得到更快的回复,而复杂的问题依然能获得深思熟虑的答案,而不是两种情况都要等一样长的时间。对AI开发者而言,CopT提供了一个无需重新训练模型、直接在推理阶段部署的优化方案,成本极低。
当然,这套方案也有其局限:κ估计是基于单次生成路径的,理论上比多次采样的估计方差更高;它还需要模型能够输出完整的概率分布(即logits),对于只返回文本的封闭API暂时难以适用。不过这些都是未来可以进一步改进的方向。有兴趣深入了解技术细节的读者,可以通过arXiv编号arXiv:2605.20075查阅完整论文,代码也已在GitHub上公开发布(https://github.com/sdc17/CopT)。
Q&A
Q1:CopT和普通的链式思维(CoT)有什么本质区别?
A:传统CoT强制模型先写出完整推理过程再给答案,而CopT反其道而行之——先给出一个草稿答案,再用一套基于连续嵌入的对比机制判断这个答案是否可信,只在不可信时才触发后续推理。这样对简单问题可以大幅节省词数,对难题则通过动态推理提升准确率。
Q2:CopT需要重新训练大语言模型吗?
A:不需要。CopT是一种完全无需训练的推理阶段方法,直接应用于现有模型的推理过程中。它通过在正常生成时顺带缓存概率分布和连续嵌入,再做一次对比计算来评估可靠性,额外计算开销很小,不改变模型本身的任何参数。
Q3:CopT在哪类任务上效果最明显?
A:CopT在两类场景下效果最突出:一是简单任务(如基础数学题、常规编程题),模型本就知道答案,CopT可以跳过推理直接给出,词数减少幅度可达55%以上;二是需要多轮交互的复杂智能体任务,如ZebraArena大规模问题,准确率提升可达23个百分点,因为推理质量的改善在多轮对话中会持续积累放大。





京公网安备 11011402013531号