![]()
这项由字节跳动抖音团队完成的研究以预印本形式发布于2026年5月,论文编号为arXiv:2605.11458,有兴趣深入了解的读者可通过该编号查阅完整原文。
每个上过学的人大概都有类似的经历:老师讲的内容要么太简单,昏昏欲睡;要么太难,完全听不懂。理想的课堂,是老师能恰好讲在你能够够得到的那个难度——跳一跳能摘到果子,而不是望着悬崖上的苹果兴叹。这篇研究想解决的,正是AI"老师"身上存在的类似问题,只不过这里的"老师"和"学生"是同一个大型语言模型。
研究的背景需要稍作交代。近年来,让AI自己辅导自己学习推理已经成为一个热门方向。其中有一种叫做"在线自蒸馏"(On-Policy Self-Distillation,简称OPSD)的方法表现相当亮眼:同一个模型同时扮演老师和学生两个角色。学生版本只看题目,自己尝试作答;老师版本则额外看到参考答案,然后用自己的判断来指导学生版本如何改进。这套机制的妙处在于,老师批改的是学生自己写的答题过程,而不是别人的标准答案,避免了"学生根本不会那道题,却被要求照抄一份完美答案"的尴尬。
然而,OPSD以及所有类似方法都共享着一个从未被质疑过的默认设定:老师每次都能看到完整的参考解题过程。研究团队发现,这个"默认设定"本身就是问题所在。当参考解题过程远超学生当前的理解能力时,老师给出的指导信号对学生而言就像天书,根本无法吸收。这就是这篇论文命名为"自适应教师暴露"(Adaptive Teacher Exposure for Self-Distillation,简称ATESD)所要解决的核心矛盾。
一、被忽视的"老师端"困境:信息量太多也是一种负担
要理解这个问题,不妨用一个生动的场景来体会。假设你是一名刚学会骑自行车的初学者,教练要指导你参加一场职业公路自行车赛。如果教练直接按照职业选手的训练计划——精确的功率控制、高速过弯技术、团队协作战术——来告诉你每一步该怎么做,你会如何反应?大概只是一脸茫然。反而,如果教练先只教你控制速度和保持平衡,你才能真正学到东西。
ATESD的核心发现就是这个道理在AI训练中的精确体现。研究团队把参考解题过程的"暴露比例"定义为一个从0到1的连续变量,称为α(alpha)。α=1意味着老师看到完整的参考解题过程,α=0意味着老师只看到最终答案,α=0.5则意味着老师只看到参考解题过程的前一半。
为了验证这个想法,研究团队做了一组受控实验:在Qwen3-1.7B这个模型上,把α固定在0、0.25、0.5、0.75、1.0五个不同的值,每组重复3次随机种子,然后测试在AIME 2024(一个竞赛数学测试集)上的准确率。结果相当清晰:最好的固定α值是0.5,而不是完全暴露的1.0。这个发现打破了"老师信息越全面越好"的直觉。
更值得关注的是第二个发现:随着α的增大,老师和学生之间的"理解鸿沟"单调递增。研究团队用两个指标来衡量这个鸿沟,一个是在学生自己写出来的答题过程上,老师的预测分布和学生的预测分布之间的KL散度(可以简单理解为两者"想法差距"的数学度量),另一个是老师和学生在每一步最有可能选择的下一个词是否一致。两个指标都随着α的增大而单调增大,完全符合预期——老师看得越多、越深入,给出的指导信号就越难被当前水平的学生消化。
第三个发现更有意思:最优的α值因问题难度而异。对于简单问题,α=1最好,因为学生完全看得懂老师的完整推理;对于中等难度问题,α=0.5表现最好;而对于难题,α=0(只看答案)反而是测试网格中表现最好的。这说明根本不存在一个放之四海而皆准的固定α值,最优暴露程度需要根据"学生当前状态"来动态调整。
这个发现把教师暴露程度从一个静态的提示工程参数,转变成了一个需要动态控制的训练时变量。
二、ATESD的设计:一个会学习的"暴露调节旋钮"
既然最优的α是动态变化的,研究团队就需要设计一套机制,让α能够根据训练状态自动调整。ATESD由三个相互配合的模块组成,把这个机制落地。
第一个模块处理"如何截断参考答案"的问题。给定一个暴露比例α,系统只取参考解题过程的前α比例的内容,但始终保留最终的答案框(boxed answer)。举个例子,如果参考解题过程有100步,α=0.3就意味着老师只看到前30步推理加上最终答案,中间的其余推理对老师是不可见的。这个设计保证了两点:一是老师始终知道正确答案是什么,不会给出错误的指导方向;二是老师能看到多少"过程细节"完全由α控制,形成精确的信息量调节。
第二个模块是决定α取什么值的"控制器"。研究团队选择用Beta分布来参数化这个控制策略,原因很自然:Beta分布天然定义在[0,1]区间上,而且它的形状极其灵活——可以倾向于低值、高值,或者集中在中间某个区域。控制器的输入是一组紧凑的"训练状态统计信息",包括当前的训练进度、最近选择的α值的均值、蒸馏损失的指数移动平均、老师与学生分歧程度的指数移动平均、一个探测困惑度的均值,以及学生对自己输出的置信度。这六个数字被输入一个两层的小型神经网络,网络输出两个参数,决定Beta分布的形状,然后从这个分布中随机抽取一个α值来使用。
控制器还有一个"保持窗口"机制:抽到的α值会在接下来的H步学生训练中保持不变,而不是每步都重新抽样。这是因为一个α决策需要时间才能显现出它对学生学习的真实影响,频繁切换会让后续的评估信号噪声极大。用一个比喻来说,这就像调节暖气温度后,你需要等一段时间才能感受到房间温度的变化,而不是每分钟都去拧旋钮。
第三个模块解决一个更深层的问题:如何知道上一次选的α是好还是不好?这里有一个时间上的延迟信用分配难题。当前选择的α影响的是未来几步的学生训练质量,而不是当下这一步的损失值。如果用"这步之后损失有没有立刻下降"来评价α的好坏,往往会误判,因为有些好的α选择在短期内看起来损失下降不大,但在后续几步中反而给学生打开了新的学习空间。
为了解决这个问题,ATESD采用了一个"向前看"的奖励机制。当α在步骤t?被选定,并保持H步后,系统再向前看L步,用这L步中学生损失的加权递减变化量来计算一个"学习进步奖励"。具体来说,奖励分两部分:第一部分是学生在这L步中实际实现的损失下降,用指数折扣加权(越靠近当前时间点的变化权重越大);第二部分是老师在这段时间内对参考答案关键词的预测概率均值,用来确保高奖励的决策不是靠降低老师要求换来的。两部分组合成总奖励R,然后用REINFORCE算法来更新控制器的参数。
整个系统形成了一个闭环:学生每步都在训练,控制器在每个保持窗口结束后收到延迟的奖励反馈,然后决定下一个窗口用什么样的α分布。老师的信息暴露程度就这样从一个固定常数变成了一个随训练动态演化的自适应变量。
三、实验结果:在三个顶级竞赛数学测试集上的全面验证
研究团队在Qwen3的三个不同规模版本(1.7B、4B、8B参数量)上验证了ATESD的效果。测试集选用了三个竞赛数学领域的高难度基准:AIME 2024、AIME 2025(美国数学邀请赛历年真题)和HMMT 2025(哈佛-麻省理工学生数学锦标赛题目)。评测指标采用Average@12,即对同一题目生成12个答案并计算平均准确率,这比只看单次答对与否更能反映模型的稳健性。
所有方法都在同样的训练数据(OpenThoughts数学推理语料库)和同样的100步训练预算下进行,以确保公平对比。对比的基准方法包括:原始的Qwen3指令微调版、标准监督微调(SFT)、基于强化学习的GRPO方法,以及ATESD的直接前驱OPSD。
结果显示,ATESD在所有三个规模和所有三个测试集上的平均得分都优于OPSD,提升幅度随模型规模增大而增大。在1.7B规模上,平均得分从43.4提升到44.35,提升0.95个百分点,其中AIME 2024提升最为明显(57.2→59.17)。在4B规模上,平均得分从63.6提升到65.65,提升2.05个百分点,不仅超越了OPSD,更以2.95个百分点的优势领先GRPO。在8B规模上,平均得分从64.8提升到67.13,提升2.33个百分点,在AIME 2024上达到80.56,在AIME 2025上达到72.50,在HMMT 2025上达到48.33。
一个值得注意的规律是:提升幅度在4B和8B规模上明显大于1.7B。研究团队对此的解释有一定道理:规模较大的模型有足够的能力去利用老师给出的特权推理信息,但同时又需要对这些信息进行适度管控,避免信息量超出消化能力。而规模最小的1.7B模型本身能利用特权信息的空间更有限,因此暴露控制带来的边际收益也相对有限。这个规律也从侧面支持了"暴露控制机制确实在起作用"这一判断,而不是因为某种无关的训练技巧偶然带来了提升。
四、机制验证:控制器到底在做什么
研究团队进行了两组消融实验,用来验证ATESD的各个设计选择是否真的必要,而不是装饰性的工程细节。
第一组实验验证了"延迟信用"的必要性。研究团队逐步叠加信用分配机制,从只用即时一步反馈(52.22分),到引入短期延迟信用(56.11分),再到加入折扣向前看(58.06分),最终加上老师参考预测信号形成完整奖励(59.17分)。这组数字的梯度清晰地说明,每一层延迟信用机制的加入都带来了可观的提升,而即时一步反馈是这几种方案中最差的。这与前面提到的理论直觉完全吻合:α决策的效果要在几步训练之后才能显现,即时反馈天然会误判。
第二组实验验证了"学习性暴露策略"相比其他简单替代方案的优越性。完全暴露的OPSD得57.20分,人工挑选的最优固定α(0.5)得57.44分,纯随机暴露(不依赖训练状态的随机抽样)只有54.94分,而ATESD学到的自适应策略达到59.17分。这个对比排除了几种可能的竞争解释:ATESD的优势不是来自"恰好选了个比完全暴露更好的固定值",也不是来自"随机注入了一些噪声"。真正有价值的是根据训练状态动态调整α的能力。
在机制可视化方面,研究团队还展示了两组直观结果。第一组展示在一个固定的正样本轨迹(学生已经答对的题目的答题过程)上,把教师暴露从α=1.0降到α=0.3会发生什么:平均KL散度从0.0136降到0.0061,最大KL散度从0.2432降到0.0645,最大峰值点(第26个token位置)的KL散度从0.2432骤降到0.0098。由于学生的答题轨迹在这个对比中完全没有变化,这个差距完全来自老师信息量的变化,说明过度暴露确实在正样本轨迹上制造了不必要的监督压力。
第二组展示ATESD在整个训练过程中学到的Beta分布如何演化。训练初期,Beta分布形状较宽,探索范围大;随着训练推进,分布逐渐向中间某个区域收敛,既没有坍缩到α=0(只看答案),也没有坍缩到α=1(完全暴露)。这个"中间聚焦"的收敛模式正是研究团队希望看到的:控制器确实在学习一个有实质内容的策略,而不是退化成某种平凡的极端选择。
五、研究边界与未来方向
这项工作也清醒地认识到了自身的局限。当前的控制器在每个保持窗口内为所有样本选择同一个全局α值,这意味着简单题和难题在同一个窗口内会被施加相同的教师暴露程度。研究团队的难度分组分析已经表明,不同难度的问题最优α值是不同的,因此一个自然的扩展方向是为每个样本单独选择α,比如根据问题难度或模型当前的置信度进行条件化。
奖励设计方面,当前的折扣向前看奖励依赖一个固定长度的展望窗口。一种更精细的方案是使用反事实或基于模型的奖励估计,用一个假设的"如果当时选了不同的α会发生什么"来更准确地衡量每个决策的真实价值,但这需要额外的计算开销。
此外,这项工作目前只在竞赛数学推理场景下验证,是否能推广到代码生成、科学推理等其他复杂推理任务,还有待未来研究探索。
说到底,这项研究做的事情其实很朴素:它发现了一个被所有人忽视的问题——AI"老师"不应该每次都把自己知道的全部都告诉"学生",然后设计了一套让老师学会根据学生当前状态决定说多少的机制。有意思的是,这个机制本身也是通过学习而来的,不是人工设定的规则。研究中展现出的提升数字——在最难的竞赛数学测试集上,同等训练预算下平均分提升最高超过2个百分点——对于这个领域来说是相当扎实的进步,更重要的是这一提升方向此前完全没有人探索过,打开了一个新的研究轴线。如果你对这个方向感兴趣,可以通过arXiv:2605.11458查阅完整论文和技术细节。
Q&A
Q1:ATESD中的"教师暴露"到底是指什么?
A:教师暴露是指AI"老师"模型在给"学生"模型提供指导时,能看到多少参考解题过程。ATESD用一个0到1的比例α来控制:α=1意味着老师看到完整推理步骤,α=0意味着老师只看到最终答案。研究发现,让老师看到所有内容并非总是最好的选择,适度"屏蔽"部分推理反而能让学生学得更好。
Q2:ATESD和普通的知识蒸馏方法有什么不同?
A:普通知识蒸馏中老师和学生是两个独立的模型,而ATESD基于的OPSD框架中同一个模型既当老师又当学生。更关键的区别是,此前所有方法都默认老师每次看完整参考答案,ATESD则引入了一个可学习的控制器,让老师看多少信息能根据训练状态自动调整,而不是固定不变。
Q3:Beta分布在ATESD控制器里起什么作用?
A:Beta分布是一种天然适合表示0到1之间概率的数学工具。在ATESD中,控制器用它来描述"当前最应该选什么α值"的概率分布。分布形状可以偏向低值、高值或集中在中间,对应不同的教学策略。训练过程中,控制器会根据延迟的学习进步反馈来调整这个分布的形状,使其越来越准确地反映当前训练阶段的最优暴露策略。





京公网安备 11011402013531号