![]()
这项由韩国科学技术院(KAIST)与蔚山国家科学技术院(UNIST)联合开展的研究,以预印本形式于2026年5月4日发布在arXiv平台,论文编号为arXiv:2605.02290。有兴趣深入了解的读者可以通过该编号查询完整论文。
**一个绕不开的现实问题**
近年来,一类被称为"大型推理模型"(Large Reasoning Models,LRM)的人工智能系统开始展示出令人瞩目的能力——它们能像人一样"想一想再回答",对复杂数学题、逻辑推理题甚至科学问题给出详细的分析过程。DeepSeek-R1就是其中的代表之一,它的回答有时会绵延数千个词,逐步展开论证、反复核查、自我纠错,最终给出答案。
然而,这类模型的代价极其高昂。运行一次这样的"深度思考"所需的算力,对普通企业和研究机构来说近乎奢侈。于是,一个顺理成章的想法出现了:能不能把这种深度思考的能力"教"给更小、更轻便的模型?这就是"推理蒸馏"的核心思路——让小模型通过学习大模型的思考过程,而非仅仅学习最终答案,来掌握类似的推理能力。
问题在于,怎样才能把大模型的思考过程"提炼"成最有价值的学习材料?现有的主流做法是:让大模型把题目从头解到尾,再挑出其中答对了、步骤最合理的那些,交给小模型学习。这个方法听起来没什么毛病,但研究团队发现了一个深层缺陷:每个大模型都各自独立地解题,它们之间没有任何交流,优秀的局部思路被封锁在各自的"解题纸"里,彼此无法互相借鉴。更糟糕的是,大量算力被浪费在最终被丢弃的解题过程上。
正是为了解决这个问题,KAIST和UNIST的研究团队提出了CoRD(Collaborative Reasoning Decoding,协作推理解码)框架。这个框架的核心理念,是让多个大模型不再各自为战,而是像一支分工合作的团队一样,在推理的每一个步骤上共同商议、择优而行。
**一、为什么"各自为战"是个大问题**
以一道复杂的数学竞赛题为例,假设你手边有三位数学老师,他们各有所长——老师A擅长分析题目条件和建立方程,老师B对几何直觉一流,老师C则在整理思路、写出最终推导时特别清晰。
现有的"蒸馏"方法是这样的:让三位老师各自独立地从头解到尾,然后拿出最好的那份解答让学生去学。这样固然能保证最终有一份不错的解答,但有一个根本性的遗憾:老师A在题目分析阶段写下的精妙洞察,并没有被老师B在几何推导时用上;老师C的最终整理也没有建立在另外两位老师最强的那些步骤之上。三位老师的智慧被人为地分隔在三张独立的答卷里,从未真正交汇。
CoRD要做的,正是打破这种隔离。它让三位老师坐在同一张桌子前,每解完一步,就由一个公正的"考官"来评判:此刻,谁写的这一步最有可能引导向正确答案?然后,下一步就从那里继续写,不管那个"最优的下一步"来自哪位老师。这样,最终产出的解答过程,可能是老师A写了前几步、老师B接手中间部分、老师C完成收尾——每个阶段都是当前最合适的那个人贡献的。
这个直觉背后有深刻的合理性:不同模型在推理的不同阶段确实各有优势。研究团队在实验中发现,当三个异构模型(DeepSeek-R1-Distill-Qwen-32B、QwQ-32B和Phi4-Reasoning-Plus)协作时,前两者确实主导了解题的早期阶段,也就是理解题目、分析约束条件的部分;而Phi4-Reasoning-Plus则在后期越来越占主导,也就是综合前面所有步骤、得出结论的阶段。这种自然出现的"专业分工",正是协作推理的力量所在。
**二、CoRD的三个核心机制:分步、评分、保留选项**
CoRD之所以能实现这种协作,依赖三个精心设计的机制,它们环环相扣,缺一不可。
第一个机制叫"提示引导的步骤分割"。在让大模型解题之前,研究团队会在提示语中嵌入一个特殊标记"思考 步骤N"来开头,内容清晰独立。这样,来自不同模型的步骤才能被平等地放在一起比较和拼接。
第二个机制叫"预测困惑度评分"。在每个解题步骤完成后,需要有一个方式来判断:这一步到底写得好不好?它真的在朝着正确答案前进吗?
研究团队引入了一个被称为"元证明器"(meta-prover)的额外模型来承担这个"考官"角色。元证明器会看着当前已经写好的所有推理步骤,然后尝试"预测"最终正确答案是什么,并计算出这个预测的"困惑程度"——困惑程度越低,说明当前的推理路径越自然地指向正确答案,这条路走对了。困惑程度越高,说明当前的步骤让答案变得更加难以预测,很可能走偏了。
这个"预测困惑度"(predictive perplexity)的妙处在于,它并不要求推理已经完成,只需要看到目前已有的部分,就能给出一个信号:这条路走下去,多大可能是对的?这让实时、逐步的评估成为可能,而不需要等到整个解答写完才能知道好坏。
第三个机制叫"束搜索"(beam search)。即便有了逐步评分,如果每次都只保留当前评分最高的那一步,还是可能掉入一个陷阱:局部最优未必通向全局最优。有些推理路径在某个中间步骤时看起来"绕了个弯",但恰恰是这个弯路,之后成就了更严密的逻辑。
束搜索的做法是同时保留最有潜力的若干条推理路径,而不是孤注一掷地只走一条。具体来说,研究团队设定束的宽度为4,意味着在每个步骤完成后,同时保留得分最高的4条部分推理路径,让它们并行延伸下去。到最后再从这4条完整路径中选出最好的一条,作为最终用于训练小模型的学习材料。
这三个机制协同工作:统一格式的步骤分割让不同模型的输出可以公平比较,预测困惑度评分让系统能实时判断哪一步更优秀,束搜索则确保系统不会因一时的局部判断而放弃潜在的优秀路径。
**三、与其他方法的正面较量**
研究团队设计了严格的对比实验,将CoRD与两种基线方法进行了系统比较,并在多个标准测试集上验证了结果。
第一种对比方法叫"筛选法"(Curation),这是目前业界最常用的做法,也是S1和LIMO等知名工作所采用的策略:让每个模型独立生成完整解答,然后挑出最好的一条。第二种叫"融合法"(Integration),它的思路是先让各个模型独立解完,再用一个外部模型(实验中用了GPT-5o-mini)把这些解答综合整合成一条。
实验在AIME24和AIME25两个数学竞赛测试集上进行,这两个测试集都是以难度极高的美国数学邀请赛题目为基础,是评估模型数学推理能力的权威标准。被训练的小模型是R1-Qwen系列,分别测试了7B、14B和32B三个参数规模的版本。
结果非常清楚。在异构教师配置(三个不同架构的模型协作)下,CoRD生成的推理数据答案准确率达到93.1%,而筛选法只有84.8%,融合法为91.2%。更能说明问题的是"预测困惑度"这个指标——CoRD达到0.774,筛选法为0.652,而融合法仅有0.223。
融合法的困惑度数值为什么这么低?研究团队深入分析后发现,问题出在整合过程本身。融合法需要把三个模型各自长达数千词的推理过程交给一个外部模型去"消化综合"。然而,处理如此漫长的上下文(大约3万个词的输入)对当前的语言模型来说本身就是一个挑战,它们很容易丢失中间的关键信息——这个现象在研究界被称为"中间迷失"(lost in the middle)效应。融合的结果是,那些精彩的长链推理过程被压缩成了短而浅的形式,推理深度大幅下降,自然也就无法给小模型提供有效的学习信号,学出来的小模型在实际测试中表现极差。
反观CoRD,它不是事后整合,而是在推理进行的每一步实时协调,不同模型的智慧在推理过程中就已经融入,没有任何事后压缩的损耗。
在学生模型的实际性能上,这种差异体现得更为明显。以32B规模的学生模型为例,通过CoRD-异构设置训练后,它在AIME24上达到79.6%的正确率,在AIME25上达到70.2%。而三个教师模型自身的成绩分别是:R1-Qwen-32B在两个测试集上是71.6%和53.8%,QwQ-32B是77.9%和66.7%,Phi4-Reasoning-Plus是78.9%和67.9%。换句话说,这个32B的学生模型经过CoRD训练后,竟然超过了所有三个教师模型的成绩。学生超越了老师,这在直觉上有些反常,却在逻辑上完全说得通:学生学习的是三位老师各展所长时的最佳组合,而不是任何一位老师独自发挥的结果。
**四、一个更细致的追问:三个核心机制各自贡献了多少**
研究团队没有满足于整体比较,他们还对CoRD的三个核心机制逐一进行了消融实验,也就是分别去掉其中一个,看看效果会发生什么变化。
关于步骤分割方式的实验对比了三种方案:以换行符(nn)为边界的"换行分割"、以特定语义词(比如"等等"、"换个方法试试")为触发的"前缀分割",以及CoRD采用的"提示引导分割"。换行分割的方案在答案准确率和困惑度上都是最差的,因为换行往往出现在语义尚未完整的地方,把一个完整的思维单元硬生生切断了。前缀分割稍好一些,因为"等等"这类词确实标志着思维的转折,但问题是不同模型使用这类词的频率和位置差异很大,无法保证跨模型比较的一致性。只有提示引导分割,通过统一格式约束,让每一步的内容真正完整自洽,从而实现最高质量的协作。
关于评分标准的实验则对比了五种方案:随机选择、选最长的那步、用一个专门训练的过程奖励模型(PRM)打分、用语言模型直接判断对错(二元判断),以及CoRD的预测困惑度。随机选择和选最长这两种方式表现最差,因为它们根本没有真正评估推理质量。PRM的表现中规中矩,但研究团队指出它有一个根本缺陷:PRM倾向于过早淘汰那些看起来"走了弯路"但最终会自我纠正的推理路径,而这类自我纠正恰恰是深度推理能力的重要组成部分。二元判断只给出"对或错"两个离散选项,无法捕捉不同步骤之间的细微质量差异。预测困惑度则以连续的数值输出,既能区分细微差别,又自然地具有前瞻性——它衡量的是"这步对未来答案的预测有多大帮助",而非仅仅评判当前步骤的局部正确性。
关于解码策略的实验对比了贪心解码(每次只保留当前最优的一步,不走回头路)、蒙特卡洛树搜索(MCTS)和束搜索三种方式。贪心解码的问题已如前述,容易陷入局部最优。MCTS理论上应该能找到全局最优,因为它会从当前位置模拟多条完整路径再作决策,但这样做的代价是巨大的计算量,而且研究团队发现MCTS倾向于偏向整体实力最强的模型,忽视了其他模型在特定阶段的局部优势,反而削弱了协作的效果。束搜索在探索广度和计算效率之间取得了最好的平衡。
**五、计算效率:代价值不值**
一个自然的担忧是:CoRD这么复杂,会不会在计算代价上吃亏太多?
研究团队在四块NVIDIA H200 GPU上进行了墙钟时间(即实际耗时)测试。每道题的平均耗时方面,筛选法(Curation)需要168.3秒,MCTS需要589.2秒,CoRD需要288.7秒。换句话说,CoRD比筛选法慢了大约71%,但比MCTS快了约51%。
此外,研究团队还做了一个"公平对比"实验:把筛选法的计算预算加倍,让它生成8条完整解答而非4条,使其总耗时(336.6秒)接近CoRD(288.7秒)。结果,预算加倍的筛选法在推理质量上确实有所提升,但仍然明显低于CoRD,在学生模型的实际表现上也没有带来相应提升。这说明,CoRD的优势不是来自"花了更多时间",而是来自"把时间花在更有价值的地方"——逐步协作和实时筛选,而不是生成大量重复的独立解答后再从中挑一个。
值得一提的是,元证明器(QwQ-32B)在CoRD整体计算中占比很小,仅约11.4秒,相对于整体288.7秒的总耗时可以忽略不计。整体来看,CoRD的额外计算代价是有限的,而换来的推理质量提升和学生模型性能提升是实质性的。
**六、不只是数学:CoRD在其他领域的表现**
研究团队还检验了CoRD能否迁移到数学竞赛以外的领域。他们测试了三个额外的任务:MATH500(覆盖更广泛的数学问题,与训练数据重叠度较高)、TaTQA(需要理解表格数据并进行推理的财务问答,属于全新的题型领域)以及PubMedQA(生物医学领域的开放式问答,答案是长段落而非具体数值)。
在MATH500上,CoRD异构版本达到94.8%的正确率,高于筛选法的93.4%。在TaTQA这个全新领域上,差距更为显著:CoRD异构版本达到95.2%,而筛选法只有88.2%,差了整整7个百分点。这说明CoRD的协作推理机制并不是对训练数据的"记忆",而是提炼出了真正可迁移的推理能力。
PubMedQA的实验尤为值得关注,因为它代表了与数学题型完全不同的推理模式。生物医学问答需要阅读长段落、整合专业知识、给出有据可查的结论,既没有唯一正确答案,也无法用简单数值评判。研究团队为此重新筛选了一批456个高难度样本,并调整了元证明器使用的提示语以适配这种开放式答案的格式。最终,CoRD异构版本在PubMedQA上达到91.8%的准确率,高于筛选法的88.4%和融合法的83.0%。在完全没有数值型正确答案的开放域任务上,CoRD的优势依然稳健。
**七、研究本身的局限与未来方向**
研究团队在论文中坦诚地指出了两个主要的局限性。
第一,目前的实验主要集中在英语任务上,尚不清楚CoRD能否有效地跨语言迁移推理能力。近期已有研究表明,可以通过将英语推理轨迹翻译成其他语言来提升多语言能力,但CoRD框架是否能自然地支持这一方向,还需要进一步探索。
第二,CoRD目前只使用了监督微调(SFT)来训练学生模型,也就是让学生直接模仿CoRD生成的高质量推理过程。近年来,偏好学习(如直接偏好优化,DPO)也被证明能有效提升模型推理能力,通过让模型明确区分"好的推理"和"不够好的推理"来进行更精细的训练。将CoRD产生的高质量推理数据与偏好学习方法结合起来,可能是进一步提升效果的有效方向。
说到底,CoRD这项工作解答的,是一个既朴素又重要的问题:当你有多位各有所长的专家,最好的协作方式是让他们同时盯着同一道题,随时接棒贡献自己最擅长的那一步,还是各自独立解完再挑一份出来?答案似乎显而易见,但在AI推理领域,真正把这个想法落地并验证其有效性,还是需要相当多的技术创新。
这项工作的意义,并不仅仅在于那几个百分点的准确率提升。它更深层次的启示是:AI模型的推理能力,可能并不只取决于单个模型本身的规模或训练量,而更取决于在推理过程中如何组织和利用多个模型之间的互补性。一个精心协作的小团队,有时确实能胜过各自为战的大玩家。
有兴趣深入了解技术细节的读者,可以通过arXiv编号2605.02290查阅完整论文,相关代码和数据集也已在论文提及的GitHub仓库中开源。
Q&A
Q1:CoRD中的"预测困惑度"评分具体是怎么计算的?
A:预测困惑度由一个叫"元证明器"的模型来计算。在推理进行到某一步时,元证明器会查看当前所有已完成的推理步骤,然后尝试预测正确答案,并计算出预测这个答案有多"困难"。困难程度越低,说明当前推理路径越自然地指向正确答案;困难程度越高,说明推理可能走偏了。这个评分不需要等到推理完成,随时可以给出实时判断。实验中使用的元证明器是QwQ-32B,选择最强的模型担任这个角色效果最好。
Q2:CoRD的束搜索和普通贪心解码有什么区别,为什么束搜索更好?
A:贪心解码每次只保留当前评分最高的那一个推理步骤,一旦选定就不回头,很容易陷入局部最优——某步看起来好,但后面越走越偏。束搜索则同时保留多条(实验中是4条)推理路径并行推进,每步从所有路径的候选延伸中选出得分最高的4个保留,最后再从这4条完整路径中选最好的。这样即使某条路在中间某步稍差,只要后续潜力大,就不会被提前淘汰。实验数据显示,束搜索比贪心解码在答案准确率上高出约11个百分点。
Q3:为什么融合法(Integration)训练出的学生模型表现反而比筛选法还差?
A:融合法需要把三个模型各自生成的超长推理过程(总计约3万个词)交给一个外部模型综合整合。但处理这么长的上下文对当前语言模型来说本身就很难,它们容易遗忘中间的关键信息,这个现象叫"中间迷失"效应。结果是,那些精彩的长链推理过程被压缩成了短而浅的形式,失去了深度推理的特征,学生模型从这种"浓缩版"中学不到真正有价值的推理模式,因此实际测试中表现极差,有时甚至不如完全不做蒸馏的原始小模型。





京公网安备 11011402013531号