大模型SFT后效果≠RL潜力！港科大、阿里提出自适应冷启动新范式

IP属地中国·北京 编辑：钟景轩大力财经 时间：2026-04-08 04:09:46

本文第一作者是来自香港科技大学的博士生李欣然，并由胡张广达、厦门大学沈思淇副教授、阿里集团陈庆国、徐昭、骆卫华、张凯夫和香港科技大学张军教授合作完成。
自 2025 年以来，强化学习（RL）逐渐成为了大语言模型（LLM）后训练（Post-training）阶段的默认范式。大量研究与实践表明：不依赖海量人工标注，仅靠 RL 就能激发出模型令人惊叹的复杂推理和长思维链（Long-CoT）能力，甚至赋予了模型达成超人类表现的潜力。
然而，尽管强化学习范式提供了极高的理论上限，许多研究者和开发者在复现 RL 训练时却遭遇了现实的问题：如果直接把一个普通的基座模型扔给强化学习算法，由于缺乏方向性的引导，RL 算法往往会像个无头苍蝇一样乱撞，在有限的步数内根本探索不出正确的推理路径。
为了解决这个问题，目前的标准做法是：在 RL 之前，先用少量的优质数据进行监督微调（SFT），给模型做一个「冷启动（Cold-start）」热身，以此提高 RL 阶段的效率。
但这又引出了一个极具争议的新问题：冷启动 SFT 到底要训练到什么程度？SFT 的分数越高，后续的 RL 效果就一定越好吗？
近期，来自香港科技大学、阿里巴巴以及厦门大学的研究团队，联合发表了一项已被ICLR 2026接收的重磅研究。他们首次揭示了 SFT 冷启动阶段的一个「致命陷阱」——冷启后表现最好的 Checkpoint，往往并不对应最大的强化学习潜力
研究团队指出，想要模型最终在后训练整体效果达到最佳，SFT 冷启阶段就不应过度追求测试集准确率，而必须兼顾准确率与多样性（Diversity）。基于此，团队提出了一种全新的自适应早停损失函数（AESL），为大模型的 RL 训练打造了最完美的起跑线。
目前，该论文的代码已全面开源。
论文标题：GETTING YOUR LLMS READY FOR REINFORCEMENT LEARNING WITH LIGHTWEIGHT SFT论文链接：https://openreview.net/pdf?id=yezWGJmODg代码主页：https://github.com/LXXXXR/AESL
一个反直觉的真相：
「好学生」反而跑不远？
在传统认知里，SFT 的目标是让模型完美模仿训练数据。损失（Loss）越低、准确率越高，说明学得越好。但研究团队发现了一个极度反直觉的现象：把 SFT 阶段评估性能最好的 Checkpoint 拿去跑 RL，最终成绩往往不是最好的，甚至会倒退！
为什么会「南辕北辙」？
研究人员指出，这主要是因为「作为 RL 冷启动的 SFT」与「单纯的 SFT」在核心目标上存在根本分歧。
在以往只依靠 SFT 的后训练范式中，目的是尽可能多地从数据集中学习，且数据集往往充足且丰富，因此传统的交叉熵（CE）损失完美契合这一目标。但在作为 RL 准备的冷启动阶段，情况发生了变化：
数据量有限：过度优化会导致模型过拟合（Overfit），变成单纯「背诵」小数据集。探索与利用的失衡：RL 算法的成功高度依赖于「探索（Exploration）」与「利用（Exploitation）」的平衡。如果模型在进入 RL 阶段之前就丢失了输出的多样性，RL 阶段就会因为探索空间不足，导致最终效果大打折扣。
我们可以打个比方：基座模型就像是一个充满想象力但缺乏解题套路的孩子。SFT 冷启动的目的，是为了教他一些基本的解题格式（比如长思维链的思考模式）。但是，如果 SFT 训练过度，传统的交叉熵损失函数会强迫模型「死记硬背」演示数据中的每一个细节。模型虽然学会了套路，却丢失了原本丰富的知识分布和生成多样性。当这个「做题机器」进入 RL 阶段时，它已失去探索新路径的能力，RL 的上限就被死死锁住了。
图1：研究团队发现，随着 SFT 步数的增加，模型在验证集上的性能（黄线）还在上升，但经过 RL 训练后的最终潜力（蓝线）却早早开始下滑。
破局关键：
寻找「多样性」的黄金拐点
既然准确率不能作为 SFT 冷启动停止的标准，那我们该看什么？
研究团队将目光投向了「输出多样性」，追踪了模型在冷启动训练过程中的熵（Entropy）和 self-BLEU 分数。
奇妙的现象出现了：在 SFT 的早期，模型在学习新推理格式的同时，还保留着基座的原始知识，此时模型的多样性会达到一个峰值。而随着训练继续，模型开始过拟合，多样性迅速暴跌。
这个多样性的「黄金拐点」，恰恰就对应着模型 RL 潜力的最高点！
冷启动过程中的多样性指标变化。多样性达到顶峰的时刻，正是开启 RL 训练的最佳时机。
基于这一洞察，最简单的改进方法就是「基于多样性早停（Diversity-based Early Stopping）」。但这还不够完美，因为「一刀切」的全局早停忽略了一个事实：模型对不同 Token 和不同上下文的掌握速度是完全不同的。
AESL：深入大模型
「毛细血管」的自适应冷启动
为了实现更灵活、更极致的冷启动，研究团队改进了传统的交叉熵损失，提出了一种全新的轻量级训练目标——自适应早停损失（Adaptive Early-Stop Loss，简称 AESL）。
AESL 的核心数学表达如下：
其中的自适应权重定义为：
AESL 的核心哲学是「因材施教」：它不再盲目要求模型在所有地方都完美拟合演示数据，而是在 Token 和子序列（Subsequence）两个微观层面上，动态调节学习的力度。
Token 级别的调控
生成每个词时，如果模型当前预测概率已经很高，AESL 会自动降低该 Token 的损失权重。就像告诉模型：「这道题你已经会了，不用反复抄写，保留你原本的直觉吧。」这有效防止了对特定词汇的过拟合。
Subsequence 级别的调控
AESL 会实时计算当前生成前缀的平均置信度。如果前半句话已经非常符合目标分布，AESL 会在后续生成中放宽限制。就像走迷宫：前面走对了方向，后面就可以大胆探索；前面不确定，后面就老实跟着指示走。
通过这种精细的动态平衡，AESL 成功地让模型在「学会长思维链推理模式」和「保留基座原始探索能力」之间，找到了完美的平衡点。
以退为进：更优的 RL 后性能
研究团队在极具挑战性的数学推理任务上进行了大规模实验。选用了Qwen2.5-7B-Instruct、Qwen2.5-Math-7B 及 Llama-3.1-8B-Instruct作为基座，在 AIME 24/25、AMC 23、MATH-500 等榜单上进行了测试。
结果令人振奋：无论是在哪种基座模型上，使用 AESL 作为冷启动策略，其后续经过 RL 训练的最终性能，全面碾压了直接 RL、标准 CE 损失 SFT 以及现有的其他前沿方法。AESL 真正做到了「赢在起跑线」。
在 Qwen2.5 系列模型上，AESL + RL 的组合在各项数学竞赛级榜单中均取得了最高平均分。
此外，研究团队还测试了不同数据量以及不同难度数据切分下的表现。结果证明，无论数据多寡、无论数据难易，AESL 都能稳定发挥，始终提供优于传统方法的 RL 潜力。
不同冷启动数据量下，AESL都能带来更好的冷启动性能
不同冷启动数据难度下，AESL都能带来更好的冷启动性能
结语：重塑我们对「后训练」的认知
在通往 AGI 的征程上，强化学习（RL）无疑是极具潜力的一条道路，因为它具有其他范式所没有的「超越人类本身能力」的潜力。
但比起传统的监督学习，RL 的过程更加复杂，特别是需要注意探索（Exploration）和利用（Exploitation）的平衡。而探索的能力，本质上来源于模型的基础能力和它产生多种「Educated Guess（有根据的猜测）」的能力，因此保持输出多样性至关重要
ICLR 2026 的这项研究给我们敲响了警钟：多样性的丢失，甚至可能早于 RL 阶段的开始。因此，我们需要在后训练的每一个环节都对多样性保持敬畏。
AESL 的提出，不仅仅是一个损失函数的改进，更是一次对 LLM 后训练范式的认知刷新。它打破了「SFT 拟合越好越好」的迷思，证明了在冷启动阶段，「保持多样性」比「满分模仿」在后续的 RL 训练中更具长期价值。
未来，我们相信在从 SFT 到 RL 范式的转变过程中，会有更多的研究去探索这两种范式带来的根本不同。而 AESL，无疑为这场探索提供了一个绝佳的起点。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

马斯克宣布Grok V9-Medium 1.5T模型完成训练，预计2至3周内发布

SpaceX、OpenAI与Anthropic拟上市人工智能热潮或将迎来极限考验

4亿月活的小红书押注中长视频，全年数千万预算激励创作者

深圳腾讯新总部园区曝光！80%工位看海！

首款特朗普手机跑分出炉，打不过2023年的国产中端机

苹果iOS/iPadOS 26.6开发者预览版Beta 1发布

全站最新

马斯克宣布Grok V9-Medium 1.5T模型完成训练，预计2至3周内发布

SpaceX、OpenAI与Anthropic拟上市人工智能热潮或将迎来极限考验

4亿月活的小红书押注中长视频，全年数千万预算激励创作者

深圳腾讯新总部园区曝光！80%工位看海！

热门推荐

阿里天天正能量为他颁发“小微公益行动者”专项奖

马斯克宣布Grok V9-Medium 1.5T模型完成训练，预计2至3周内发布

SpaceX、OpenAI与Anthropic拟上市人工智能热潮或将迎来极限考验

4亿月活的小红书押注中长视频，全年数千万预算激励创作者

深圳腾讯新总部园区曝光！80%工位看海！

一季度营收飙涨145%！小马智行：Robotaxi驶入规模化发展快车道

首款特朗普手机跑分出炉，打不过2023年的国产中端机

特稿｜“韬定律”引全球关注　中国企业勇探半导体发展新路径

我国成功发射通信技术试验卫星二十四号

苹果iOS/iPadOS 26.6开发者预览版Beta 1发布

我国成功发射通信技术试验卫星二十四号

我国成功发射通信技术试验卫星二十四号

公路桥隧监测方案2026：AI大模型落地，轻量化成为刚需

AI求真大模型助力抖音谣言治理，谣言被处置时平均浏览量下降62%

放弃大模型、狂签15亿订单！李开复的零一万物要做AI圈“金钱豹”