当前位置: 首页 » 资讯 » 科技头条 » 正文

南洋理工大学发现AI训练的"悬崖效应"

IP属地 中国·北京 科技行者 时间:2026-05-20 18:29:25


这项由新加坡南洋理工大学研究团队完成的研究,以预印本形式于2026年5月发表,论文编号为arXiv:2605.08737,有兴趣深入了解的读者可通过该编号查询完整论文。

研究团队在训练大型语言模型(也就是现在被广泛使用的AI文字系统)时,发现了一个让工程师们头疼的奇怪现象:有一个叫做"外推系数"的调节旋钮,当你把它调到某个数值之上时,模型不是变得更好,而是突然失去了按照规定格式输出文字的能力。就好像你在调收音机频道,一格一格往上调都没事,但过了某个临界点,原本清晰的信号瞬间变成了刺耳的噪音。

更令人惊喜的是,这个临界点不是靠反复试验找到的,而是可以通过一个数学公式精确预测出来。研究团队不仅找到了这个公式,还在亚马逊商品评价数据上进行了三次严格的预注册测试(也就是先写下预测,再跑实验验证,而不是跑完实验再反推),每次结果都和预测高度吻合。更实际的成果是,只要把旋钮控制在临界点以下,一个参数量只有1.7B(17亿)的小模型,在实际部署效果上可以追平一个8B(80亿)参数的大模型,参数量仅为后者的五分之一。

一、故事从"老师带学生"说起

训练AI模型的方式有很多种,这项研究关注的是一种叫做"在线策略蒸馏"的方法,英文缩写叫OPD。用一个更直观的比喻来解释:假设你想培养一个新厨师(小模型/学生),有一位经验丰富的大厨(大模型/老师)作为参照。传统的培训方式是把大厨的菜谱直接给新厨师背,而OPD的方式是让新厨师自己先做一道菜,然后大厨在旁边对比自己的做法,告诉新厨师哪里不一样,新厨师再根据这个反馈调整。因为新厨师是在自己实际操作的基础上学习,所以学得更扎实,这就是"在线"(on-policy)这个词的含义。

在OPD的基础上,有人发明了一种"加速器":给大厨的建议乘以一个大于1的系数,叫做"外推系数λ"。如果λ等于1,就是正常的模仿大厨;如果λ等于1.2,就相当于让新厨师"比大厨更极致地走大厨的风格",目标是让新厨师在自己擅长的领域甚至超过大厨。这种思路确实有效,适度的λ能让小模型的表现超越老师。

但南洋理工大学的研究团队发现,这个加速器有一个隐藏的危险:当λ超过某个临界值,新厨师不是变得更好,而是开始忘记如何按照规定的菜品格式上菜。具体到AI领域,就是模型开始输出不符合格式要求的文本,比如本该输出一个包含8个评分的JSON列表(一种标准化的数据格式,类似于规整的表格),却开始输出7个、或者重复了某个条目。

二、为什么格式会突然崩溃?找到"悬崖"背后的机制

要理解为什么会有这个临界点,需要先理解一个叫做"重要性采样裁剪"的机制。这个名字听起来很复杂,但背后的逻辑其实很朴素。

在训练过程中,老师模型和学生模型对同一个词的"喜好程度"是不同的。老师模型对某些结构性的词(比如JSON格式里的括号、逗号)几乎是百分之百确定的——大括号后面就应该是引号,这没什么好犹豫的。用行话说,这类词的"模态概率"(modal probability)非常高,接近0.9993(也就是老师有99.93%的把握选这个词)。

现在,当学生模型输出的选择和老师差距太大时,训练信号就会变得很极端,不稳定。为了防止这种情况,工程师们引入了"裁剪"(clip)机制:规定老师和学生对同一个词的喜好比值最多不能超过某个上限c(比如c=5)。就像给汽车装了限速器,即使油门踩到底,速度也不会超过某个上限,防止训练失控。

这里就出现了一个关键的不对称性。当λ增大,训练目标会把"正确格式词"的目标概率推得越来越高;而一旦目标概率超过了1减去(1减去p)除以c这个边界(研究团队称之为"裁剪安全边界"),训练信号就彻底变了性质。在这个边界之内,训练会稳定地把学生往正确方向引导;一旦越过边界,训练信号就开始朝着错误的方向推,而且由于裁剪的存在,这个错误的推力还不能被及时纠正。模型就像一个滑向悬崖边缘的人,过了某个点之后,再想刹车就来不及了。

研究团队用严格的数学证明了这个机制,并推导出了一个闭合形式的公式(公式4),通过三个可以实际测量的量来精确计算这个临界点λ*:老师模型对结构性词的确信程度p、训练开始前学生模型(也就是经过初步微调的基础模型)的确信程度b,以及裁剪系数c。在亚马逊时尚类商品评价数据集上,用实测的p约等于0.9993、b约等于0.81、c等于5代入公式,算出λ*约等于1.22,而实验观测到的崩溃区间正好是1.15到1.25之间,公式预测和实验结果只差一个网格步长。

三、实验设计:把预测变成可证伪的赌注

这项研究最有说服力的地方,是研究团队把理论预测变成了"赌注"——在做实验之前就把预测结果写下来并锁定,然后再验证。这种做法在学术界叫做"预注册"(pre-registration),是防止研究者事后凑数据的重要手段。

实验的场景是这样的:给定一个亚马逊商品(比如一件时尚外套),连同8条用户评价,要求模型输出一个标准格式的JSON列表,给每条评价打一个0到10的有用性分数,并且必须把8条评价的ID都原样列出来。这个任务格式非常严格,就像填一张有固定栏目的表格,格式错了就算零分。这是一个检验"格式稳健性"的绝佳场景,因为格式对错非常容易判断,不需要主观打分。

研究团队使用了四种不同大小的Qwen3基础模型(0.6B、1.7B、4B、8B,数字越大模型越大越强),先用标准有监督微调(SFT)让模型学会这个任务格式,然后用OPD方法进一步训练,老师模型分别是4B和8B的微调版本。评价指标包括格式正确率(parse rate,即输出是否符合严格的JSON格式要求)、排名质量(NDCG@1等指标),以及一个综合分数USEFUL(等于格式正确率乘以NDCG@1,格式错误直接得零分)。

三次预注册测试分别针对不同的验证维度。第一次是细粒度的λ扫描测试:在λ等于1.18、1.20、1.22、1.24这四个值上各跑5个不同随机种子,预测崩溃点会在λ*等于1.22附近,结果格式正确率开始下降的区间被精确定位在1.204到1.228之间,包含了理论预测值1.22。第二次是训练预算延伸测试:根据理论预测,同样的λ值在训练更长时间后会更早崩溃,训练步骤从42步延伸到200步后,预测崩溃点会移到1.00到1.10区间,实验测得崩溃中点约为1.061,完全在预测窗口内。第三次是小裁剪系数测试:把c从5改成1.5,理论公式预测崩溃点会移到约1.070,实验观测到的崩溃中点为1.069,误差仅为0.0005,比实验网格精度还要精确。

四、实验结果:小模型如何打败大模型

在搞清楚崩溃点之后,研究团队把λ控制在临界点以下(具体是λ等于1.15,比预测的1.22留出一个网格的安全余量),看看OPD训练到底能带来多大的实际提升。

起点是有点让人意外的:在同样的有监督微调配方下,1.7B模型的格式正确率竟然比0.6B模型还低(5次随机种子平均只有26.4%),这说明单纯增大模型规模并不能保证格式稳健性,不同大小的模型会以不同方式"翻车"——1.7B的模型容易输出无限循环的前缀,4B的模型倾向于少输出最后一条,8B的模型才比较正常。

经过OPD训练之后,局面发生了戏剧性的变化。1.7B模型的格式正确率从26.4%跃升至92.1%,综合分数USEFUL从0.23上升到0.86,标准差也从0.093大幅缩小到0.016(大约是原来的六分之一)。而5次种子的8B SFT基线模型USEFUL平均是0.833,标准差是0.082。也就是说,1.7B-OPD和8B-SFT在综合得分上基本持平,但前者的参数量只有后者的五分之一,而且稳定性更好(种子间波动更小)。

为了排除"可能只是训练步骤多了"或者"可能只是因为在线数据更好"等替代解释,研究团队预注册了六个对照实验。延续原来的有监督微调但步骤相同,USEFUL只是从0.273到0.273,没有提升;只用前向KL(一种不同的蒸馏方式,没有外推)训练,USEFUL只有0.027;把λ从1.0换成1.15,USEFUL从0.819提升到0.882,说明外推确实有额外贡献;用解码约束替换OPD,USEFUL达到0.679,仍然低于0.882;换成4B-SFT而不用1.7B-OPD,USEFUL是0.661,还是不如。六个对照实验没有任何一个能解释全部提升,综合说明提升确实来自OPD本身的训练机制。

同一套已训练好的1.7B-OPD模型在婴儿用品和软件类商品上进行零样本测试(完全没有见过这两个类别的训练数据),USEFUL分别为0.707和0.749,而同样的1.7B-SFT在这两个类别上分别只有0.075和0.156,说明OPD训练的格式能力具有相当强的迁移性。

五、格式稳了,排名质量变了吗?

这是一个很自然的疑问:模型开始乖乖按格式输出了,会不会是因为它把注意力都用在填格式上,实际给评价打分的质量反而下降了呢?

答案是明确的否定。在整个λ从0.5扫到3.0的过程中,对于那些格式正确的输出,NDCG@1(衡量排名质量的指标,越高代表评分越准确)始终保持在0.899到0.949之间,统计检验的p值是0.61(远大于0.05,意味着λ对排名质量几乎没有影响)。换句话说,λ这个旋钮只影响格式的维持能力,不影响模型理解评价内容的能力。

这个发现很有意思:格式能力和内容理解能力在训练过程中是相对独立的。模型"学会打分"和"学会按格式输出"是两件不同的事,外推系数的崩溃效应专门针对格式那部分,就好像一个人在学弹钢琴,手指技巧和音乐感受力是可以分开的,某种训练方式可能只影响其中一个。

六、这个"悬崖"只存在于亚马逊数据吗?

研究团队进行了大量的范围测试,系统性地探索了这个预测公式在什么条件下成立,什么条件下不成立。

对于相同类型的结构化输出任务,比如把同样的严格JSON输出格式应用到MS MARCO和TREC-DL这两个标准信息检索数据集(这些是公认的权威评测数据,使用的是真人标注的相关性分数),实测的p值等于0.99941,落在亚马逊时尚数据集的置信区间内,理论公式预测的崩溃窗口和亚马逊数据几乎一样。实验结果也显示了相似的格式崩溃趋势,但因为测试样本只有54个查询、只有4个随机种子,统计功效不足以精确定位崩溃中点,所以列为"转移测试"而非独立标定。

对于另一种结构化输出基准测试JSONSchemaBench(这是一个完全公开的、包含约9500种不同JSON格式的测试集),单个JSON实例的测试没有出现格式崩溃,因为该数据集每个提示词用的格式都不一样,没有一个主导的等价类来触发崩溃机制。然而,当研究团队把任务改成"输出K=4个相同格式实例的列表"时,外层的K个条目边界形成了一个主导等价类,崩溃点约为1.29,落在理论预测区间1.19到1.42之内。不过崩溃的幅度比亚马逊数据浅很多,因为内层的JSON格式每个提示词都不同,摊薄了崩溃效果。

对于GSM8K数学推理任务(让模型一步步解数学题),模型输出的内容太自由了,没有像JSON括号那样接近100%确定的结构性词,τ等于0.9的过滤条件根本留不下足够多的结构性位置,所以预测公式的前提条件不满足,实验中λ从1.0扫到1.59,奖励指标几乎没有变化(标准差约0.006),这是符合预期的"预测公式不适用"的边界情况。

对于函数调用任务(BFCL基准),情况也类似:SFT阶段训练了5轮之后,4B模型的格式正确率已经高达94.2%,1.7B也有87.5%,几乎没有提升空间,所以OPD不管λ调到多高都观察不到明显的格式崩溃。这是另一种边界情况:格式太容易学,SFT阶段就已经饱和了,OPD没有发力空间。

对于换用Llama-3.2架构(替代Qwen3架构),在42步训练预算下整个λ从1.0到1.4都是单调递增的,没有看到崩溃。延伸到200步之后,格式正确率仍然只有约22%,原因是Llama-3.2-1B在格式任务上的SFT起点就很低,根本没有形成一个高格式正确率的基础让它"崩",所以也是边界情况,而非对理论的反驳。

ASPO是另一个已发表的、针对同类IS不对称问题的工程修复方法,研究团队在同样的亚马逊时尚数据集上做了正面对比。ASPO在λ等于1.0时格式正确率(93.2%)略高于普通OPD(88.7%),说明它的工程修复有效;但在λ等于1.5时,ASPO同样出现了崩溃(格式正确率跌到9.6%),而且比普通OPD崩溃得更早(普通OPD的崩溃发生在λ等于1.25到1.40之间)。这说明理论预测的那个边界不是某种特定实现的BUG,而是IS裁剪机制本身的固有性质,ASPO只是把崩溃点提前了一格,并没有消除它。

七、一个实用建议:怎么用好这个"悬崖预测公式"

研究团队给出了一个直接可用的工程建议:在实际部署OPD训练时,先用测试集的若干提示词跑一遍老师模型,统计结构性词的平均置信度p,再用同样的提示词跑一遍初始微调模型,估算b,加上训练配置里已知的裁剪系数c,代入公式计算出λ*,然后把实际使用的λ设置在λ*以下一个网格步长的位置。同时别忘了,随着训练步骤增加,崩溃点会向左移动(根据理论公式4.2,移动量大约和训练步骤数的倒数成正比),所以如果要训练很多轮,应该根据实际预算对应调整λ的上限。

这个过程把原本"全靠经验试几个值看哪个好"的调参过程,变成了一个有数学依据的可计算决策,省去了大量的盲目搜索成本。当然,这套公式有其适用范围:必须是有严格格式约束的结构化输出任务(格式正确与否必须是二值判断),结构性词的置信度需要接近0.999,而且任务中需要有一个主导的"绑定等价类"(也就是有一类特定格式位置的出现频率和确定性都远高于其他位置)。对于开放生成、低置信度结构或格式已被SFT阶段完全饱和的任务,这套公式暂时不适用。

归根结底,这项研究告诉我们的是:在训练AI语言模型时,"越猛越好"并不总是成立的。有一个精确可预测的边界,把"恰到好处的强化"和"过犹不及的崩溃"分开。南洋理工大学的研究团队不仅找到了这条边界,还给了我们一把量尺来提前测量它——这在以往完全靠反复试错的调参工作中,是一个相当扎实的进步。下一步值得探索的问题是:这套公式在更复杂的多模态输出、更长文档生成、或者其他约束形式下,适用范围能扩展到多远?这些问题的答案,或许需要等待后续研究团队的跟进。

感兴趣的读者可以通过arXiv编号2605.08737查阅完整论文,其中附录部分包含了详细的数学证明、所有预注册的完整规范以及超过30张结果表格。

Q&A

Q1:OPD训练中的外推系数λ超过临界值为什么会导致格式崩溃?

A:当λ超过临界值λ*时,训练目标把结构性词的目标概率推得太高,超过了重要性采样裁剪机制允许的安全边界。一旦越过这个边界,裁剪操作不再纠正错误方向的训练信号,反而让模型持续向格式错误的方向漂移,直到输出彻底失去格式约束,比如少输出一个条目或者重复某个ID。

Q2:这个悬崖预测公式λ*在哪些任务上有效,哪些任务上不适用?

A:公式在有严格格式约束的结构化输出任务上有效,比如固定格式的JSON列表生成,且需要满足三个条件:结构性词的置信度接近0.999、任务中有一个主导的格式绑定位置、SFT阶段训练后格式正确率没有饱和。GSM8K数学推理、函数调用(BFCL)等任务不满足这些条件,公式就不适用。

Q3:1.7B小模型用OPD为什么能追平8B大模型的效果?

A:关键在于格式稳健性的提升。8B-SFT在格式正确率上本来就比较高,而1.7B-SFT因为规模小容易输出错误格式,导致综合得分低。OPD训练把1.7B模型的格式正确率从26%提升到92%,同时对已经格式正确输出的排名质量没有负面影响,于是综合得分(格式正确率乘以排名质量)就和8B-SFT接近了。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。