当前位置: 首页 » 资讯 » 科技头条 » 正文

大模型SFT后效果≠RL潜力!港科大、阿里提出自适应冷启动新范式

IP属地 中国·北京 编辑:钟景轩 大力财经 时间:2026-04-08 04:09:46

本文第一作者是来自香港科技大学的博士生李欣然,并由胡张广达、厦门大学沈思淇副教授、阿里集团陈庆国、徐昭、骆卫华、张凯夫和香港科技大学张军教授合作完成。

自 2025 年以来,强化学习(RL)逐渐成为了大语言模型(LLM)后训练(Post-training)阶段的默认范式。大量研究与实践表明:不依赖海量人工标注,仅靠 RL 就能激发出模型令人惊叹的复杂推理和长思维链(Long-CoT)能力,甚至赋予了模型达成超人类表现的潜力。

然而,尽管强化学习范式提供了极高的理论上限,许多研究者和开发者在复现 RL 训练时却遭遇了现实的问题:如果直接把一个普通的基座模型扔给强化学习算法,由于缺乏方向性的引导,RL 算法往往会像个无头苍蝇一样乱撞,在有限的步数内根本探索不出正确的推理路径。

为了解决这个问题,目前的标准做法是:在 RL 之前,先用少量的优质数据进行监督微调(SFT),给模型做一个「冷启动(Cold-start)」热身,以此提高 RL 阶段的效率。

但这又引出了一个极具争议的新问题:冷启动 SFT 到底要训练到什么程度?SFT 的分数越高,后续的 RL 效果就一定越好吗?

近期,来自香港科技大学、阿里巴巴以及厦门大学的研究团队,联合发表了一项已被ICLR 2026接收的重磅研究。他们首次揭示了 SFT 冷启动阶段的一个「致命陷阱」——冷启后表现最好的 Checkpoint,往往并不对应最大的强化学习潜力

研究团队指出,想要模型最终在后训练整体效果达到最佳,SFT 冷启阶段就不应过度追求测试集准确率,而必须兼顾准确率与多样性(Diversity)。基于此,团队提出了一种全新的自适应早停损失函数(AESL),为大模型的 RL 训练打造了最完美的起跑线。

目前,该论文的代码已全面开源。

论文标题:GETTING YOUR LLMS READY FOR REINFORCEMENT LEARNING WITH LIGHTWEIGHT SFT论文链接:https://openreview.net/pdf?id=yezWGJmODg代码主页:https://github.com/LXXXXR/AESL

一个反直觉的真相:

「好学生」反而跑不远?

在传统认知里,SFT 的目标是让模型完美模仿训练数据。损失(Loss)越低、准确率越高,说明学得越好。但研究团队发现了一个极度反直觉的现象:把 SFT 阶段评估性能最好的 Checkpoint 拿去跑 RL,最终成绩往往不是最好的,甚至会倒退!

为什么会「南辕北辙」?

研究人员指出,这主要是因为「作为 RL 冷启动的 SFT」与「单纯的 SFT」在核心目标上存在根本分歧。

在以往只依靠 SFT 的后训练范式中,目的是尽可能多地从数据集中学习,且数据集往往充足且丰富,因此传统的交叉熵(CE)损失完美契合这一目标。但在作为 RL 准备的冷启动阶段,情况发生了变化:

数据量有限:过度优化会导致模型过拟合(Overfit),变成单纯「背诵」小数据集。探索与利用的失衡:RL 算法的成功高度依赖于「探索(Exploration)」与「利用(Exploitation)」的平衡。如果模型在进入 RL 阶段之前就丢失了输出的多样性,RL 阶段就会因为探索空间不足,导致最终效果大打折扣。

我们可以打个比方:基座模型就像是一个充满想象力但缺乏解题套路的孩子。SFT 冷启动的目的,是为了教他一些基本的解题格式(比如长思维链的思考模式)。但是,如果 SFT 训练过度,传统的交叉熵损失函数会强迫模型「死记硬背」演示数据中的每一个细节。模型虽然学会了套路,却丢失了原本丰富的知识分布和生成多样性。当这个「做题机器」进入 RL 阶段时,它已失去探索新路径的能力,RL 的上限就被死死锁住了。

图1:研究团队发现,随着 SFT 步数的增加,模型在验证集上的性能(黄线)还在上升,但经过 RL 训练后的最终潜力(蓝线)却早早开始下滑。

破局关键:

寻找「多样性」的黄金拐点

既然准确率不能作为 SFT 冷启动停止的标准,那我们该看什么?

研究团队将目光投向了「输出多样性」,追踪了模型在冷启动训练过程中的熵(Entropy)和 self-BLEU 分数。

奇妙的现象出现了:在 SFT 的早期,模型在学习新推理格式的同时,还保留着基座的原始知识,此时模型的多样性会达到一个峰值。而随着训练继续,模型开始过拟合,多样性迅速暴跌。

这个多样性的「黄金拐点」,恰恰就对应着模型 RL 潜力的最高点!

冷启动过程中的多样性指标变化。多样性达到顶峰的时刻,正是开启 RL 训练的最佳时机。

基于这一洞察,最简单的改进方法就是「基于多样性早停(Diversity-based Early Stopping)」。但这还不够完美,因为「一刀切」的全局早停忽略了一个事实:模型对不同 Token 和不同上下文的掌握速度是完全不同的。

AESL:深入大模型

「毛细血管」的自适应冷启动

为了实现更灵活、更极致的冷启动,研究团队改进了传统的交叉熵损失,提出了一种全新的轻量级训练目标——自适应早停损失(Adaptive Early-Stop Loss,简称 AESL)。

AESL 的核心数学表达如下:

其中的自适应权重定义为:

AESL 的核心哲学是「因材施教」:它不再盲目要求模型在所有地方都完美拟合演示数据,而是在 Token 和子序列(Subsequence)两个微观层面上,动态调节学习的力度。

Token 级别的调控

生成每个词时,如果模型当前预测概率已经很高,AESL 会自动降低该 Token 的损失权重。就像告诉模型:「这道题你已经会了,不用反复抄写,保留你原本的直觉吧。」这有效防止了对特定词汇的过拟合。

Subsequence 级别的调控

AESL 会实时计算当前生成前缀的平均置信度。如果前半句话已经非常符合目标分布,AESL 会在后续生成中放宽限制。就像走迷宫:前面走对了方向,后面就可以大胆探索;前面不确定,后面就老实跟着指示走。

通过这种精细的动态平衡,AESL 成功地让模型在「学会长思维链推理模式」和「保留基座原始探索能力」之间,找到了完美的平衡点。

以退为进:更优的 RL 后性能

研究团队在极具挑战性的数学推理任务上进行了大规模实验。选用了Qwen2.5-7B-Instruct、Qwen2.5-Math-7B 及 Llama-3.1-8B-Instruct作为基座,在 AIME 24/25、AMC 23、MATH-500 等榜单上进行了测试。

结果令人振奋:无论是在哪种基座模型上,使用 AESL 作为冷启动策略,其后续经过 RL 训练的最终性能,全面碾压了直接 RL、标准 CE 损失 SFT 以及现有的其他前沿方法。AESL 真正做到了「赢在起跑线」。

在 Qwen2.5 系列模型上,AESL + RL 的组合在各项数学竞赛级榜单中均取得了最高平均分。

此外,研究团队还测试了不同数据量以及不同难度数据切分下的表现。结果证明,无论数据多寡、无论数据难易,AESL 都能稳定发挥,始终提供优于传统方法的 RL 潜力。

不同冷启动数据量下,AESL都能带来更好的冷启动性能

不同冷启动数据难度下,AESL都能带来更好的冷启动性能

结语:重塑我们对「后训练」的认知

在通往 AGI 的征程上,强化学习(RL)无疑是极具潜力的一条道路,因为它具有其他范式所没有的「超越人类本身能力」的潜力。

但比起传统的监督学习,RL 的过程更加复杂,特别是需要注意探索(Exploration)和利用(Exploitation)的平衡。而探索的能力,本质上来源于模型的基础能力和它产生多种「Educated Guess(有根据的猜测)」的能力,因此保持输出多样性至关重要

ICLR 2026 的这项研究给我们敲响了警钟:多样性的丢失,甚至可能早于 RL 阶段的开始。因此,我们需要在后训练的每一个环节都对多样性保持敬畏。

AESL 的提出,不仅仅是一个损失函数的改进,更是一次对 LLM 后训练范式的认知刷新。它打破了「SFT 拟合越好越好」的迷思,证明了在冷启动阶段,「保持多样性」比「满分模仿」在后续的 RL 训练中更具长期价值。

未来,我们相信在从 SFT 到 RL 范式的转变过程中,会有更多的研究去探索这两种范式带来的根本不同。而 AESL,无疑为这场探索提供了一个绝佳的起点。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。