![]()
这项由中国科学技术大学、上海创新研究院、武汉大学及京东联合开展的研究,以预印本形式于2026年5月发表,论文编号为arXiv:2605.25381,有兴趣深入了解的读者可以通过该编号查询完整论文。
一 故事从一个老问题开始:怎么让AI学得更聪明?
教一个孩子做数学题,你会怎么做?大多数家长的直觉是:先把基础搞扎实,再挑战难题。你不会在孩子刚学加法的时候就把所有题型一股脑全部塞给他——乘法、除数、方程式,全部同时开练。这种循序渐进的节奏,其实暗含着一种深刻的教学智慧:学习是有阶段性的,不同的知识点需要在合适的时间被强化。
然而,当我们训练当下最先进的大语言模型时,整个过程却往往缺少这种时间维度的考量。研究团队发现,现有的强化学习训练方式,有点像把一个学生扔进一堆杂乱无序的习题中,所有题型混在一起、每道题的权重完全相同、从头到尾没有任何顺序安排——然后只根据最终答案对不对来打分,完全不在乎学生的解题过程是否合理。这篇论文的核心贡献,就是把"什么时候学哪部分内容"这个维度,正式引入到大模型的训练体系中。
二 大模型的"奖励机制"到底是怎么工作的?
在正式介绍这项研究的创新点之前,有必要先搞清楚现在主流的大模型训练方式是怎么运作的。
目前让大模型变聪明的主流方法叫做"强化学习与可验证奖励",英文缩写是RLVR。这个方法的逻辑并不复杂:给模型出一道题,让它自己生成一段回答,然后看回答最终对不对,对了就奖励,错了就惩罚。这个奖励信号会反传回去,告诉模型的每一个字符——哦,这次你做对了,你们都值得被鼓励;或者,这次做错了,你们都要被压制。
关键问题在于,一段回答可能有几千甚至上万个字符,这些字符各司其职、承担着截然不同的角色。比如,一段解题过程的开头几句话,往往是在搭建解题框架——"设x为未知数"、"根据题意,我们知道..."——这些属于推理脚手架;中间部分可能是在做逻辑跳转和反思验证;而结尾部分则是得出最终答案的收敛语言——"所以答案是62"。这三种角色完全不同,但在传统的RLVR训练中,它们收到的奖励信号却是完全相同的那一个全局分数。
这就像是一个团队完成了一个项目,老板只给出一个整体评价"做得不错",却完全不区分谁在规划阶段贡献了关键思路、谁在执行阶段踏实落实、谁在收尾阶段保证了质量。每个人的贡献被无差别地对待,这显然无法引导团队朝着真正高效的方向迭代。
三 "信用分配":已有的努力和它的局限
学术界早就意识到这个问题,并为此提出了不少解决方案,统称为"信用分配"——也就是在那个全局奖励信号之上,再想办法给每个字符分配更精准的权重。
一种方式是训练一个专门的"过程奖励模型",让它对每一步推理给出评分,相当于请来一位阅卷老师,不只看最终答案,还要逐步批改解题过程。但这种方式成本极高,需要大量人工标注,难以大规模使用。
另一种更轻量的方式,是直接利用模型自身产生的信号来区分字符的重要性。比如,某个字符的"熵"(可以理解为这个字符有多少种可能性、有多难被预测)越高,说明模型在这里做出了更有意义的选择,应该给予更多的优化关注。还有一些方法则直接选出一小部分"关键字符"来优化,忽略其余那些无关紧要的填充词。
这些方法都有效果,但它们有一个共同的盲区:无论选择什么标准来区分字符的重要性,这个标准从训练开始到结束始终固定不变。就像一位从不调整教学策略的老师,第一天用同一套方法,最后一天还是同一套方法,完全不随着学生的进步来动态调整。研究团队把这种现象称为"僵化的信用分配标准",并认为这是当前训练方法的核心瓶颈之一。
四 时间维度:被忽视的训练秘密
这篇论文的核心洞见可以用一句话概括:不只要关心"把奖励分配给哪些字符",还要关心"在训练的哪个阶段分配"。这就是所谓的"时间调度"——将信用分配的标准随着训练进程动态演变,而非一成不变。
研究团队给出了一个具体的操作方案。训练开始时,重点强化某一类特定字符(比如对应答案收敛部分的字符),给这些字符很高的优化权重;随着训练的推进,逐渐放开限制,让越来越多的字符都参与到优化中来,直到最终变成接近全量优化。这个过程就像是先精雕细琢某个关键环节,等它稳定了,再逐步把整体品质一起带上来。
用学习乐器来类比会更直观:一个钢琴老师不会让学生从第一节课就同时练习手指灵活度、踏板技巧和乐感表达。她会先专注于最基础的手型和音准,等这部分稳定了,再引入节奏训练,最后才把所有要素综合起来演奏完整曲目。这种由聚焦到综合的时间节奏,正是时间调度的本质。
五 轨迹百分位:一把读懂模型行为的钥匙
研究团队在实践中发现,想要实现有效的时间调度,首先需要一种简单可靠的方式来区分不同字符所承载的"行为特征"。他们提出了一个叫做"轨迹百分位"的概念,这个概念本身并不复杂:一段回答从头到尾,按位置分成早期、中期、晚期三段,处于不同位置的字符,往往承担着截然不同的功能。
为了验证这一点,研究团队使用Qwen3-4B模型在一个包含78,000道题的数学数据集上生成了大量回答,总计产生了5.84亿个字符的数据。他们统计了不同字符在轨迹的哪些位置最常出现,结果非常清晰:处于回答早期的字符,比如"Okay"、"hmm"、"first"等探索性词语,几乎只出现在轨迹开头;处于回答中期的字符,往往是"but"、"therefore"、"alternatively"等逻辑转折词,反映了推理过程中的批判性思维;处于回答晚期的字符,则集中在"answer"、"since"、"must"等收敛性词语,标志着答案的最终形成。
除此之外,研究团队还发现,轨迹的不同位置对应着截然不同的"熵值"动态。早期字符的熵值最低,因为回答刚开始时模型的表达方式较为固定;中期字符的熵值最高,反映了推理过程中最强的探索性;晚期字符的熵值居中。更重要的是,这种熵值差异在整个训练过程中持续存在,说明轨迹位置确实是一个稳定而有意义的行为锚点,可以用来组织优化过程。
六 具体怎么做:时间调度的操作细节
研究团队设计了一套通用的时间调度框架,可以灵活嫁接到已有的各类信用分配方法上。
基本思路是引入一个随训练进程单调递减的"调度函数"。训练刚开始时,调度函数的值接近1,意味着只优化满足严格标准的那部分字符;随着训练推进,调度函数的值逐渐降低,对应的优化门槛也随之放宽,越来越多的字符被纳入优化范围,直到训练后期基本覆盖所有字符。
具体到轨迹百分位调度(论文中称为TP-Schedule),操作方式是这样的:训练初期,只优化处于回答后半段(比如最后10%)的字符;随着训练进行,逐步将优化范围向前延伸,纳入60%、30%、最终20%位置之后的所有字符。这样做的逻辑是,回答的后半段对应着答案的直接生成,相对稳定且可验证;先把这部分稳定下来,再回头去训练更复杂的推理脚手架,可以避免早期把不成熟的推理习惯固化下来。
调度函数的具体形状有三种选择:线性(匀速放开)、Sigmoid形(先慢后快再慢)和Gamma形(先快后慢)。实验结果显示,三种函数都比没有调度的基线好,而且彼此之间差异不大,说明时间调度的收益主要来自"动态演变"这个原则本身,而非具体的衰减形状。研究团队推荐使用线性调度作为默认设置,既简单又效果好。
七 实验结果:数字背后的故事
研究团队在Qwen3-4B和Qwen3-8B两个不同规模的模型上进行了系统测试,训练数据来自OpenMathReasoning和DeepMath-103K两个数据集,共30,000道经过难度筛选和去重处理的数学题。评测覆盖了多个数学竞赛基准(AIME24/25、HMMT25、Minerva等),以及通用推理基准(GPQA-Diamond科学题、Winogrande常识推理、MuSR多步推理)。
在Qwen3-4B模型上,单纯的TP-Schedule(不引入任何额外的信用分配技巧,只是在GRPO基础上加入轨迹百分位时间调度)比原始GRPO在数学基准上平均提升了2.2个百分点,在通用推理基准上提升了2.7个百分点。其中GPQA-Diamond单项提升高达4.5个百分点,MuSR提升2个百分点,HMMT25提升3.1个百分点。在Qwen3-8B上,整体提升约1个百分点,考虑到更大模型的基础能力已经更强,这一提升同样值得肯定。
时间调度与现有信用分配方法叠加使用时,同样表现出稳定的提升效果。将时间调度加入到基于熵的优势重加权方法(Entropy Adv.)后,各项指标均有0.5到1个百分点的提升。将时间调度加入到只优化"关键字符"的方法(Forking Tok.)后,提升幅度更大,在AIME24上提升了2.7个百分点。此外,将时间调度应用到另一种强化学习算法GSPO上,也同样带来了稳定提升,说明这一方法具有较好的普适性。
八 为什么有效:熵值和KL散度的深层解读
研究团队对时间调度有效性的原因进行了深入分析,发现了两条相互印证的线索。
第一条线索关于"熵值"。在训练过程中,模型对每个字符的选择不确定性(熵值)应该保持在一个合理水平——太低说明模型陷入了过于固定的表达模式,丧失了探索能力;太高说明模型没有形成稳定的判断。研究发现,标准GRPO在训练过程中熵值下降明显,说明模型在同时应对所有位置的字符时,不得不牺牲灵活性来换取一致性。而基于轨迹百分位的时间调度,由于每个阶段只关注特定位置的字符,避免了不同行为特征之间的互相干扰,全序列熵值比标准GRPO高出约5.27%。特别值得一提的是,对比基于熵的信用分配方法(Entropy Adv.),加入时间调度后熵值提升幅度高达33.9%——这是因为纯粹基于熵的方法会让模型过度集中优化高熵字符,反而加速了整体熵值的崩塌。
第二条线索关于"KL散度"。KL散度可以理解为当前模型和初始模型之间的"变化幅度",反映了训练对模型行为的影响程度。研究团队比较了训练进行到30%和80%时,两个时间点的模型与初始模型之间的KL散度,并按照轨迹位置进行了分解。结果显示,在时间调度下,训练初期的KL散度主要集中在轨迹后半段,说明模型首先在答案收敛部分发生了较大变化;随着训练推进,KL散度逐渐向前延伸,早期字符的变化幅度逐步增大。这种"从后往前"的有序演变,与时间调度的设计意图完全吻合,说明模型确实在按照预期的节奏分阶段习得不同的推理行为,而非像标准GRPO那样对所有位置均匀地做出更新。
九 消融实验:哪些细节真正重要?
研究团队还做了一系列消融实验,用来回答几个具体问题。
调度函数的形状重要吗?实验结果显示,线性、Sigmoid和Gamma三种形式的性能差异很小,三者在AIME25上的得分分别是67.1、66.7和66.4,而没有调度的基线是65.3。这说明时间调度的核心价值在于"动态演变"本身,而非具体的曲线形状。
时间调度应该持续多久?实验测试了不同的"高点截止位置"(即调度生效的训练比例上限),结果显示在0.8时效果最好,高于0.8后性能反而略有下降。这意味着调度应该覆盖训练过程的前80%,让最后约20%的训练步骤回归全量优化,形成一个自然的收尾。
用什么标准来定义优化顺序?研究团队对比了几种不同的代理指标:轨迹百分位(从后往前)、熵值(从高到低)、后缀(只看结尾)、前缀(从前往后)以及随机选择。结果显示,轨迹百分位和熵值都表现良好,而从前往后的前缀调度效果很差——这符合直觉,因为推理早期的字符语境不充分、行为最不稳定,用它们来启动训练会引入过多噪声。随机选择的效果则是最差的,甚至会导致梯度出现不稳定的尖峰,说明无序的字符组织方式会严重破坏优化质量。
十 案例分析:一道几何旋转题揭示的差距
论文中给出了一个具体的案例对比,直观地说明了时间调度在质量上的提升。题目是这样的:将抛物线 y = x? - 4 绕原点逆时针旋转60°,求旋转后的抛物线与原抛物线在第四象限的交点的纵坐标。
标准GRPO训练的模型给出了正确的最终答案62,但在推理过程中犯了一个严重的方向性错误——把逆时针旋转的条件处理成了顺时针旋转,因此推导出的中间方程是错误的。后来又悄悄把旋转方向"改"回去,才凑出了正确答案。这是一种典型的"结果蒙对了、过程是错的"情况,说明模型通过某种捷径规避了对推理过程的真正学习。
而经过时间调度训练的模型,从头到尾都正确地使用了逆时针旋转矩阵,推导出正确的旋转坐标变换,代入原方程后得到正确的四次方程,最终通过合理的因式分解和四边形条件筛选,稳步得出正确答案。整个推理链条清晰、逻辑自洽,没有任何前后矛盾的地方。这个例子很好地说明了时间调度不只是提升了最终答案的正确率,更在推理过程的可靠性上产生了实质性的改善。
归根结底,这项研究揭示了一个被长期忽视但十分重要的训练维度:大模型的强化学习训练不只需要关心"该优化哪些字符",同样需要关心"在训练的哪个阶段优化哪些字符"。通过把信用分配的标准随时间动态演变,研究团队让模型能够像一个真正按阶段学习的学生一样,先把关键的答案收敛行为稳定下来,再去雕琢复杂的推理脚手架,最终形成更连贯、更可靠的推理能力。
这项发现对普通用户的意义,可能在于未来使用的AI助手在回答复杂问题时,不只是"答案更准了",而是"推理过程更靠谱了"——你能看到它一步步想清楚,而不是凑出一个看似正确却逻辑混乱的答案。对于那些需要验证AI推理过程的应用场景(比如数学辅导、科学研究辅助、法律分析),这种改进会更加切实地体现出价值。
如果你对这项研究的细节感兴趣,可以通过arXiv编号2605.25381查阅完整论文,标题为"Not only where, But when: Temporal Scheduling for RLVR"。
Q&A
Q1:强化学习训练大模型时,"信用分配"解决的是什么问题?
A:大模型生成回答时,一段回答包含数千个字符,但训练时只有一个"对或错"的全局奖励信号。信用分配就是要搞清楚这个奖励应该怎么分给每个字符,避免所有字符不管贡献大小都被一视同仁地对待,从而让训练更有针对性。
Q2:轨迹百分位调度(TP-Schedule)具体怎么操作?
A:TP-Schedule根据字符在回答中的位置来决定优化顺序。训练初期只优化回答后半段(答案收敛部分)的字符;随着训练推进,优化范围逐步向前延伸,纳入中期和早期字符,直到覆盖整段回答。这样做的好处是先稳定最关键的答案生成行为,再去训练更复杂的推理过程。
Q3:时间调度为什么能保留更多的模型熵值?
A:标准GRPO同时优化所有位置的字符,不同行为特征(推理脚手架、逻辑跳转、答案收敛)之间相互干扰,模型不得不牺牲灵活性来维持整体一致性,导致熵值快速下降。时间调度每次只关注特定位置的字符,减少了不同行为之间的冲突,让模型在优化过程中保留了更多的探索空间。





京公网安备 11011402013531号