![]()
这项由中国人民大学高瓴人工智能学院和腾讯大模型部门联合开展的研究发表于2026年2月,论文编号为arXiv:2602.12125v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
在人工智能训练领域,长期以来存在一个看似不可打破的天花板:学生模型的能力上限往往被老师模型所限制,就像传统师傅带徒弟一样,徒弟很难青出于蓝而胜于蓝。然而,这项最新研究却发现了一种让AI"学生"突破老师能力边界的神奇方法。
研究团队针对的核心问题是在线策略蒸馏技术的局限性。在线策略蒸馏是当前AI训练的一种重要方法,可以把它理解为一种特殊的学习方式:不同于传统的让学生照抄老师的作业,这种方法让学生先自己做题,然后参考老师在相同题目上的解答来改进自己的表现。这种方法已经被证明比传统的离线学习更加有效,但它有一个关键限制——学生的最终表现通常无法超越老师。
研究的突破性发现在于,他们首先从理论角度证明了在线策略蒸馏实际上是一种特殊的强化学习方法。强化学习可以理解为通过奖励和惩罚来引导学习的过程,就像训练宠物时给予零食奖励一样。研究团队发现,传统的在线策略蒸馏在处理奖励信号和约束条件时采用了固定的1比1权重比例,这就像在天平的两端永远放置相等重量的砝码。
基于这个发现,研究团队提出了广义在线策略蒸馏框架。这个新框架的核心创新是引入了一个可调节的奖励缩放因子,允许研究人员灵活控制奖励信号的强度。更重要的是,他们还加入了一个可灵活选择的参考模型机制。这就像给天平增加了可调节的刻度,可以根据需要调整两端的重量比例。
当奖励缩放因子设置为大于1时,就进入了他们称为"奖励外推"的神奇区域。在这种设置下,训练过程会放大来自老师模型的指导信号,让学生模型能够捕捉到更加细微和深层的模式。这种方法被研究团队命名为ExOPD,它能够让学生模型在某些任务上的表现真正超越老师模型。
研究团队在数学推理和代码生成两个重要领域进行了大量实验验证。他们使用的主要模型是Qwen3系列,包括1.7B、4B和30B等不同规模的版本。在数学领域,他们使用了AIME24、AIME25、HMMT25等竞赛级别的数学题目作为测试基准。在代码生成领域,则采用了HumanEval+、MBPP+和LiveCodeBench等专业编程测试集。
实验结果令人印象深刻。在单一老师蒸馏实验中,当奖励缩放因子设置在0到1之间时,学生模型的表现确实介于原始状态和老师模型之间,验证了插值效应。但当因子设置为1.25时,学生模型开始展现出超越老师的能力。在数学推理任务中,ExOPD方法在所有测试集上都获得了显著提升,平均提升幅度达到2个百分点。
更令人惊叹的是多老师蒸馏实验的结果。在这种设置下,研究团队训练了多个专门的老师模型,每个都在特定领域表现优秀,然后尝试将这些专业知识整合到一个统一的学生模型中。传统方法往往只能让学生模型达到各个老师的平均水平,但ExOPD方法却让学生模型在所有测试任务上都超越了每一个专业老师。
在强弱模型蒸馏实验中,研究团队探索了将大型模型的能力传递给小型模型的场景。他们使用30B参数的大型模型作为老师,训练1.7B和4B参数的小型学生模型。结果显示,ExOPD方法能够显著提升小型模型的性能,在某些数学推理任务上提升幅度达到4个百分点以上。
研究团队还提出了一种"奖励修正"技术,专门用于强弱模型蒸馏场景。这种技术的核心思想是使用老师模型训练前的基础版本作为参考点,而不是使用学生模型的初始状态。这样做的好处是能够提供更加准确的奖励信号,因为它更好地反映了老师模型通过训练获得的真实改进。实验证明,这种修正方法能够进一步提升蒸馏效果,尽管它需要额外的计算资源。
从训练动态的角度来看,ExOPD方法展现出了有趣的特征。与传统方法相比,它能够获得更高的训练奖励,但同时也会生成更长的回答。这种现象可能与隐含奖励函数的长度偏差有关,但并没有影响最终的性能提升。研究团队通过平滑处理的训练曲线发现,ExOPD在保持更高回答多样性的同时,确实能够学到更有价值的模式。
理论分析表明,ExOPD的成功源于其对奖励函数权重的巧妙调节。当缩放因子大于1时,模型的最优策略会在老师策略的基础上增加一个额外的偏移项,这个偏移项包含了老师模型相对于参考模型的知识差异。这种机制使得学生模型不仅能够学习老师的直接知识,还能够捕捉到更深层的模式规律。
研究还发现了奖励外推的边界效应。当缩放因子设置过高时,比如1.5,模型性能开始出现不稳定甚至下降的趋势。这是因为过度的奖励放大可能导致模型过拟合于某些极端的信号模式,从而失去泛化能力。因此,选择合适的缩放因子至关重要,研究中发现1.25是一个相对理想的设置。
与现有的权重外推方法相比,ExOPD展现出了明显的优势。权重外推是一种直接在模型参数空间进行插值和外推的技术,虽然计算简单但可控性较差。ExOPD通过在训练过程中动态调节奖励信号,能够更精确地控制学习方向,从而获得更稳定和可预测的改进效果。
这项研究的意义远超技术层面的突破。它为人工智能模型的能力边界提供了新的思考角度。长期以来,人们认为AI模型的性能上限主要受限于训练数据的质量和数量,但这项研究表明,通过巧妙的训练策略调整,模型有可能突破原有的性能天花板。
从实际应用的角度来看,这种技术对于资源受限的场景具有特殊价值。在很多实际部署环境中,由于计算和存储限制,无法直接使用大型模型,必须依赖较小的模型来完成任务。ExOPD技术为这种场景提供了新的解决方案,使得小型模型能够更好地吸收大型模型的知识精华。
研究团队也诚实地指出了当前方法的局限性。首先,奖励修正技术需要访问老师模型的训练前版本,这在实际应用中可能并不总是可行。其次,计算更大模型的对数概率会带来额外的计算开销。此外,如何在更大规模的模型上验证这些发现,以及如何将这种技术扩展到更多样化的任务领域,仍然是需要进一步探索的问题。
值得注意的是,这项研究还揭示了一个有趣的现象:在某些情况下,继续训练老师模型本身获得的改进幅度,实际上小于使用ExOPD方法训练学生模型获得的提升。这个发现暗示,问题的关键可能不在于模型规模的大小,而在于如何更有效地利用已有的知识信号。
研究的实验设计也值得称道。团队不仅在多个不同难度和类型的任务上进行了验证,还细致地分析了不同超参数设置的影响。他们发现,在不同的teacher-student规模组合下,ExOPD都能够带来一致的性能提升,这说明该方法具有良好的普适性。
从更广阔的视角来看,这项研究为AI训练领域带来了新的思维模式。传统的模型训练往往追求在固定框架内优化性能,而ExOPD提供了一种跳出固定框架的可能性。通过调节训练过程中的关键参数,可能发现模型潜能的新边界。
说到底,这项研究的核心价值在于它挑战了我们对AI学习能力边界的传统认知。就像人类学习一样,有时候换一种学习方法或调整学习策略,就能获得意想不到的进步。ExOPD方法为AI模型提供了这样一种"换个角度学习"的可能性,让学生模型能够在某种程度上青出于蓝。
当然,这只是AI能力提升道路上的一个里程碑。随着技术的不断发展,我们可能会看到更多类似的突破性方法。但无论如何,这项研究已经为我们展示了AI训练技术的新可能性,也为后续的研究工作提供了宝贵的启发。对于那些关注AI技术发展的读者,这无疑是一个值得深入思考的重要进展。有兴趣的读者可以通过论文编号arXiv:2602.12125v1查阅完整的技术细节和实验数据。
Q&A
Q1:什么是ExOPD方法?
A:ExOPD是一种新型的AI训练方法,全称是"奖励外推的在线策略蒸馏"。它通过调节训练过程中的奖励信号强度,让AI学生模型能够突破老师模型的性能限制,在某些任务上表现得比老师还要好。
Q2:ExOPD方法是如何让学生超越老师的?
A:ExOPD通过引入大于1的奖励缩放因子,放大来自老师模型的指导信号。这就像把学习信号"放大镜化",让学生模型能够捕捉到更细微的模式,从而学到比老师更深层的知识规律。
Q3:这种方法在实际应用中有什么限制吗?
A:主要限制包括需要额外的计算资源来处理参考模型,在某些情况下需要访问老师模型的训练前版本,以及需要仔细调节参数避免过度外推导致性能下降。





京公网安备 11011402013531号