中科大与上海创新研究院联手揭开AI学习秘密

IP属地中国·北京 科技行者 时间：2026-06-06 22:19:07

这项由中国科学技术大学、上海创新研究院、武汉大学及京东联合开展的研究，以预印本形式于2026年5月发表，论文编号为arXiv:2605.25381，有兴趣深入了解的读者可以通过该编号查询完整论文。
一故事从一个老问题开始：怎么让AI学得更聪明？
教一个孩子做数学题，你会怎么做？大多数家长的直觉是：先把基础搞扎实，再挑战难题。你不会在孩子刚学加法的时候就把所有题型一股脑全部塞给他——乘法、除数、方程式，全部同时开练。这种循序渐进的节奏，其实暗含着一种深刻的教学智慧：学习是有阶段性的，不同的知识点需要在合适的时间被强化。
然而，当我们训练当下最先进的大语言模型时，整个过程却往往缺少这种时间维度的考量。研究团队发现，现有的强化学习训练方式，有点像把一个学生扔进一堆杂乱无序的习题中，所有题型混在一起、每道题的权重完全相同、从头到尾没有任何顺序安排——然后只根据最终答案对不对来打分，完全不在乎学生的解题过程是否合理。这篇论文的核心贡献，就是把"什么时候学哪部分内容"这个维度，正式引入到大模型的训练体系中。
二大模型的"奖励机制"到底是怎么工作的？
在正式介绍这项研究的创新点之前，有必要先搞清楚现在主流的大模型训练方式是怎么运作的。
目前让大模型变聪明的主流方法叫做"强化学习与可验证奖励"，英文缩写是RLVR。这个方法的逻辑并不复杂：给模型出一道题，让它自己生成一段回答，然后看回答最终对不对，对了就奖励，错了就惩罚。这个奖励信号会反传回去，告诉模型的每一个字符——哦，这次你做对了，你们都值得被鼓励；或者，这次做错了，你们都要被压制。
关键问题在于，一段回答可能有几千甚至上万个字符，这些字符各司其职、承担着截然不同的角色。比如，一段解题过程的开头几句话，往往是在搭建解题框架——"设x为未知数"、"根据题意，我们知道..."——这些属于推理脚手架；中间部分可能是在做逻辑跳转和反思验证；而结尾部分则是得出最终答案的收敛语言——"所以答案是62"。这三种角色完全不同，但在传统的RLVR训练中，它们收到的奖励信号却是完全相同的那一个全局分数。
这就像是一个团队完成了一个项目，老板只给出一个整体评价"做得不错"，却完全不区分谁在规划阶段贡献了关键思路、谁在执行阶段踏实落实、谁在收尾阶段保证了质量。每个人的贡献被无差别地对待，这显然无法引导团队朝着真正高效的方向迭代。
三 "信用分配"：已有的努力和它的局限
学术界早就意识到这个问题，并为此提出了不少解决方案，统称为"信用分配"——也就是在那个全局奖励信号之上，再想办法给每个字符分配更精准的权重。
一种方式是训练一个专门的"过程奖励模型"，让它对每一步推理给出评分，相当于请来一位阅卷老师，不只看最终答案，还要逐步批改解题过程。但这种方式成本极高，需要大量人工标注，难以大规模使用。
另一种更轻量的方式，是直接利用模型自身产生的信号来区分字符的重要性。比如，某个字符的"熵"（可以理解为这个字符有多少种可能性、有多难被预测）越高，说明模型在这里做出了更有意义的选择，应该给予更多的优化关注。还有一些方法则直接选出一小部分"关键字符"来优化，忽略其余那些无关紧要的填充词。
这些方法都有效果，但它们有一个共同的盲区：无论选择什么标准来区分字符的重要性，这个标准从训练开始到结束始终固定不变。就像一位从不调整教学策略的老师，第一天用同一套方法，最后一天还是同一套方法，完全不随着学生的进步来动态调整。研究团队把这种现象称为"僵化的信用分配标准"，并认为这是当前训练方法的核心瓶颈之一。
四时间维度：被忽视的训练秘密
这篇论文的核心洞见可以用一句话概括：不只要关心"把奖励分配给哪些字符"，还要关心"在训练的哪个阶段分配"。这就是所谓的"时间调度"——将信用分配的标准随着训练进程动态演变，而非一成不变。
研究团队给出了一个具体的操作方案。训练开始时，重点强化某一类特定字符（比如对应答案收敛部分的字符），给这些字符很高的优化权重；随着训练的推进，逐渐放开限制，让越来越多的字符都参与到优化中来，直到最终变成接近全量优化。这个过程就像是先精雕细琢某个关键环节，等它稳定了，再逐步把整体品质一起带上来。
用学习乐器来类比会更直观：一个钢琴老师不会让学生从第一节课就同时练习手指灵活度、踏板技巧和乐感表达。她会先专注于最基础的手型和音准，等这部分稳定了，再引入节奏训练，最后才把所有要素综合起来演奏完整曲目。这种由聚焦到综合的时间节奏，正是时间调度的本质。
五轨迹百分位：一把读懂模型行为的钥匙
研究团队在实践中发现，想要实现有效的时间调度，首先需要一种简单可靠的方式来区分不同字符所承载的"行为特征"。他们提出了一个叫做"轨迹百分位"的概念，这个概念本身并不复杂：一段回答从头到尾，按位置分成早期、中期、晚期三段，处于不同位置的字符，往往承担着截然不同的功能。
为了验证这一点，研究团队使用Qwen3-4B模型在一个包含78,000道题的数学数据集上生成了大量回答，总计产生了5.84亿个字符的数据。他们统计了不同字符在轨迹的哪些位置最常出现，结果非常清晰：处于回答早期的字符，比如"Okay"、"hmm"、"first"等探索性词语，几乎只出现在轨迹开头；处于回答中期的字符，往往是"but"、"therefore"、"alternatively"等逻辑转折词，反映了推理过程中的批判性思维；处于回答晚期的字符，则集中在"answer"、"since"、"must"等收敛性词语，标志着答案的最终形成。
除此之外，研究团队还发现，轨迹的不同位置对应着截然不同的"熵值"动态。早期字符的熵值最低，因为回答刚开始时模型的表达方式较为固定；中期字符的熵值最高，反映了推理过程中最强的探索性；晚期字符的熵值居中。更重要的是，这种熵值差异在整个训练过程中持续存在，说明轨迹位置确实是一个稳定而有意义的行为锚点，可以用来组织优化过程。
六具体怎么做：时间调度的操作细节
研究团队设计了一套通用的时间调度框架，可以灵活嫁接到已有的各类信用分配方法上。
基本思路是引入一个随训练进程单调递减的"调度函数"。训练刚开始时，调度函数的值接近1，意味着只优化满足严格标准的那部分字符；随着训练推进，调度函数的值逐渐降低，对应的优化门槛也随之放宽，越来越多的字符被纳入优化范围，直到训练后期基本覆盖所有字符。
具体到轨迹百分位调度（论文中称为TP-Schedule），操作方式是这样的：训练初期，只优化处于回答后半段（比如最后10%）的字符；随着训练进行，逐步将优化范围向前延伸，纳入60%、30%、最终20%位置之后的所有字符。这样做的逻辑是，回答的后半段对应着答案的直接生成，相对稳定且可验证；先把这部分稳定下来，再回头去训练更复杂的推理脚手架，可以避免早期把不成熟的推理习惯固化下来。
调度函数的具体形状有三种选择：线性（匀速放开）、Sigmoid形（先慢后快再慢）和Gamma形（先快后慢）。实验结果显示，三种函数都比没有调度的基线好，而且彼此之间差异不大，说明时间调度的收益主要来自"动态演变"这个原则本身，而非具体的衰减形状。研究团队推荐使用线性调度作为默认设置，既简单又效果好。
七实验结果：数字背后的故事
研究团队在Qwen3-4B和Qwen3-8B两个不同规模的模型上进行了系统测试，训练数据来自OpenMathReasoning和DeepMath-103K两个数据集，共30,000道经过难度筛选和去重处理的数学题。评测覆盖了多个数学竞赛基准（AIME24/25、HMMT25、Minerva等），以及通用推理基准（GPQA-Diamond科学题、Winogrande常识推理、MuSR多步推理）。
在Qwen3-4B模型上，单纯的TP-Schedule（不引入任何额外的信用分配技巧，只是在GRPO基础上加入轨迹百分位时间调度）比原始GRPO在数学基准上平均提升了2.2个百分点，在通用推理基准上提升了2.7个百分点。其中GPQA-Diamond单项提升高达4.5个百分点，MuSR提升2个百分点，HMMT25提升3.1个百分点。在Qwen3-8B上，整体提升约1个百分点，考虑到更大模型的基础能力已经更强，这一提升同样值得肯定。
时间调度与现有信用分配方法叠加使用时，同样表现出稳定的提升效果。将时间调度加入到基于熵的优势重加权方法（Entropy Adv.）后，各项指标均有0.5到1个百分点的提升。将时间调度加入到只优化"关键字符"的方法（Forking Tok.）后，提升幅度更大，在AIME24上提升了2.7个百分点。此外，将时间调度应用到另一种强化学习算法GSPO上，也同样带来了稳定提升，说明这一方法具有较好的普适性。
八为什么有效：熵值和KL散度的深层解读
研究团队对时间调度有效性的原因进行了深入分析，发现了两条相互印证的线索。
第一条线索关于"熵值"。在训练过程中，模型对每个字符的选择不确定性（熵值）应该保持在一个合理水平——太低说明模型陷入了过于固定的表达模式，丧失了探索能力；太高说明模型没有形成稳定的判断。研究发现，标准GRPO在训练过程中熵值下降明显，说明模型在同时应对所有位置的字符时，不得不牺牲灵活性来换取一致性。而基于轨迹百分位的时间调度，由于每个阶段只关注特定位置的字符，避免了不同行为特征之间的互相干扰，全序列熵值比标准GRPO高出约5.27%。特别值得一提的是，对比基于熵的信用分配方法（Entropy Adv.），加入时间调度后熵值提升幅度高达33.9%——这是因为纯粹基于熵的方法会让模型过度集中优化高熵字符，反而加速了整体熵值的崩塌。
第二条线索关于"KL散度"。KL散度可以理解为当前模型和初始模型之间的"变化幅度"，反映了训练对模型行为的影响程度。研究团队比较了训练进行到30%和80%时，两个时间点的模型与初始模型之间的KL散度，并按照轨迹位置进行了分解。结果显示，在时间调度下，训练初期的KL散度主要集中在轨迹后半段，说明模型首先在答案收敛部分发生了较大变化；随着训练推进，KL散度逐渐向前延伸，早期字符的变化幅度逐步增大。这种"从后往前"的有序演变，与时间调度的设计意图完全吻合，说明模型确实在按照预期的节奏分阶段习得不同的推理行为，而非像标准GRPO那样对所有位置均匀地做出更新。
九消融实验：哪些细节真正重要？
研究团队还做了一系列消融实验，用来回答几个具体问题。
调度函数的形状重要吗？实验结果显示，线性、Sigmoid和Gamma三种形式的性能差异很小，三者在AIME25上的得分分别是67.1、66.7和66.4，而没有调度的基线是65.3。这说明时间调度的核心价值在于"动态演变"本身，而非具体的曲线形状。
时间调度应该持续多久？实验测试了不同的"高点截止位置"（即调度生效的训练比例上限），结果显示在0.8时效果最好，高于0.8后性能反而略有下降。这意味着调度应该覆盖训练过程的前80%，让最后约20%的训练步骤回归全量优化，形成一个自然的收尾。
用什么标准来定义优化顺序？研究团队对比了几种不同的代理指标：轨迹百分位（从后往前）、熵值（从高到低）、后缀（只看结尾）、前缀（从前往后）以及随机选择。结果显示，轨迹百分位和熵值都表现良好，而从前往后的前缀调度效果很差——这符合直觉，因为推理早期的字符语境不充分、行为最不稳定，用它们来启动训练会引入过多噪声。随机选择的效果则是最差的，甚至会导致梯度出现不稳定的尖峰，说明无序的字符组织方式会严重破坏优化质量。
十案例分析：一道几何旋转题揭示的差距
论文中给出了一个具体的案例对比，直观地说明了时间调度在质量上的提升。题目是这样的：将抛物线 y = x? - 4 绕原点逆时针旋转60°，求旋转后的抛物线与原抛物线在第四象限的交点的纵坐标。
标准GRPO训练的模型给出了正确的最终答案62，但在推理过程中犯了一个严重的方向性错误——把逆时针旋转的条件处理成了顺时针旋转，因此推导出的中间方程是错误的。后来又悄悄把旋转方向"改"回去，才凑出了正确答案。这是一种典型的"结果蒙对了、过程是错的"情况，说明模型通过某种捷径规避了对推理过程的真正学习。
而经过时间调度训练的模型，从头到尾都正确地使用了逆时针旋转矩阵，推导出正确的旋转坐标变换，代入原方程后得到正确的四次方程，最终通过合理的因式分解和四边形条件筛选，稳步得出正确答案。整个推理链条清晰、逻辑自洽，没有任何前后矛盾的地方。这个例子很好地说明了时间调度不只是提升了最终答案的正确率，更在推理过程的可靠性上产生了实质性的改善。
归根结底，这项研究揭示了一个被长期忽视但十分重要的训练维度：大模型的强化学习训练不只需要关心"该优化哪些字符"，同样需要关心"在训练的哪个阶段优化哪些字符"。通过把信用分配的标准随时间动态演变，研究团队让模型能够像一个真正按阶段学习的学生一样，先把关键的答案收敛行为稳定下来，再去雕琢复杂的推理脚手架，最终形成更连贯、更可靠的推理能力。
这项发现对普通用户的意义，可能在于未来使用的AI助手在回答复杂问题时，不只是"答案更准了"，而是"推理过程更靠谱了"——你能看到它一步步想清楚，而不是凑出一个看似正确却逻辑混乱的答案。对于那些需要验证AI推理过程的应用场景（比如数学辅导、科学研究辅助、法律分析），这种改进会更加切实地体现出价值。
如果你对这项研究的细节感兴趣，可以通过arXiv编号2605.25381查阅完整论文，标题为"Not only where, But when: Temporal Scheduling for RLVR"。
Q&A
Q1：强化学习训练大模型时，"信用分配"解决的是什么问题？
A：大模型生成回答时，一段回答包含数千个字符，但训练时只有一个"对或错"的全局奖励信号。信用分配就是要搞清楚这个奖励应该怎么分给每个字符，避免所有字符不管贡献大小都被一视同仁地对待，从而让训练更有针对性。
Q2：轨迹百分位调度（TP-Schedule）具体怎么操作？
A：TP-Schedule根据字符在回答中的位置来决定优化顺序。训练初期只优化回答后半段（答案收敛部分）的字符；随着训练推进，优化范围逐步向前延伸，纳入中期和早期字符，直到覆盖整段回答。这样做的好处是先稳定最关键的答案生成行为，再去训练更复杂的推理过程。
Q3：时间调度为什么能保留更多的模型熵值？
A：标准GRPO同时优化所有位置的字符，不同行为特征（推理脚手架、逻辑跳转、答案收敛）之间相互干扰，模型不得不牺牲灵活性来维持整体一致性，导致熵值快速下降。时间调度每次只关注特定位置的字符，减少了不同行为之间的冲突，让模型在优化过程中保留了更多的探索空间。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

东南大学124年科研家底集中展出，国内首台初代机器人长这样

加密货币，全线拉升

张一鸣6288亿身家，中国第一！财富还在疯涨，字节没上市，钱从哪来?

加密货币，全线拉升

模数共振驱动产业智能：深度智联推出行业大模型、AI智能原生平台及多场景智能体

奥特曼自曝OpenAI内部有人月耗1000亿token

全站最新

东南大学124年科研家底集中展出，国内首台初代机器人长这样

加密货币，全线拉升

张一鸣6288亿身家，中国第一！财富还在疯涨，字节没上市，钱从哪来?

加密货币，全线拉升

热门推荐

东南大学124年科研家底集中展出，国内首台初代机器人长这样

加密货币，全线拉升

张一鸣6288亿身家，中国第一！财富还在疯涨，字节没上市，钱从哪来?

加密货币，全线拉升

模数共振驱动产业智能：深度智联推出行业大模型、AI智能原生平台及多场景智能体

奥特曼自曝OpenAI内部有人月耗1000亿token

黄仁勋给韩国带来的“惊喜”，原来是这

塔里木油田今年绿电发电量突破11亿度，折合超33万吨标煤

联想ThinkPad T16 2025笔记本开售：Ultra 7 255H，售13999元

韶音需要和华为们死磕，才能活下去

人形机器人多场景落地具身智能产业链加速构建

体育主播暂时不用担心失业了：研究称AI模型分析球赛“几乎靠猜”

消息称百度MEG组织架构调整，数字人创新业务部升级独立部门

AI交易，利空突袭

10.3万观众，规模创历史新高！2026上海老博会圆满落幕