南洋理工大学发现AI训练的"悬崖效应"

IP属地中国·北京 科技行者 时间：2026-05-20 18:29:25

这项由新加坡南洋理工大学研究团队完成的研究，以预印本形式于2026年5月发表，论文编号为arXiv:2605.08737，有兴趣深入了解的读者可通过该编号查询完整论文。
研究团队在训练大型语言模型（也就是现在被广泛使用的AI文字系统）时，发现了一个让工程师们头疼的奇怪现象：有一个叫做"外推系数"的调节旋钮，当你把它调到某个数值之上时，模型不是变得更好，而是突然失去了按照规定格式输出文字的能力。就好像你在调收音机频道，一格一格往上调都没事，但过了某个临界点，原本清晰的信号瞬间变成了刺耳的噪音。
更令人惊喜的是，这个临界点不是靠反复试验找到的，而是可以通过一个数学公式精确预测出来。研究团队不仅找到了这个公式，还在亚马逊商品评价数据上进行了三次严格的预注册测试（也就是先写下预测，再跑实验验证，而不是跑完实验再反推），每次结果都和预测高度吻合。更实际的成果是，只要把旋钮控制在临界点以下，一个参数量只有1.7B（17亿）的小模型，在实际部署效果上可以追平一个8B（80亿）参数的大模型，参数量仅为后者的五分之一。
一、故事从"老师带学生"说起
训练AI模型的方式有很多种，这项研究关注的是一种叫做"在线策略蒸馏"的方法，英文缩写叫OPD。用一个更直观的比喻来解释：假设你想培养一个新厨师（小模型/学生），有一位经验丰富的大厨（大模型/老师）作为参照。传统的培训方式是把大厨的菜谱直接给新厨师背，而OPD的方式是让新厨师自己先做一道菜，然后大厨在旁边对比自己的做法，告诉新厨师哪里不一样，新厨师再根据这个反馈调整。因为新厨师是在自己实际操作的基础上学习，所以学得更扎实，这就是"在线"（on-policy）这个词的含义。
在OPD的基础上，有人发明了一种"加速器"：给大厨的建议乘以一个大于1的系数，叫做"外推系数λ"。如果λ等于1，就是正常的模仿大厨；如果λ等于1.2，就相当于让新厨师"比大厨更极致地走大厨的风格"，目标是让新厨师在自己擅长的领域甚至超过大厨。这种思路确实有效，适度的λ能让小模型的表现超越老师。
但南洋理工大学的研究团队发现，这个加速器有一个隐藏的危险：当λ超过某个临界值，新厨师不是变得更好，而是开始忘记如何按照规定的菜品格式上菜。具体到AI领域，就是模型开始输出不符合格式要求的文本，比如本该输出一个包含8个评分的JSON列表（一种标准化的数据格式，类似于规整的表格），却开始输出7个、或者重复了某个条目。
二、为什么格式会突然崩溃？找到"悬崖"背后的机制
要理解为什么会有这个临界点，需要先理解一个叫做"重要性采样裁剪"的机制。这个名字听起来很复杂，但背后的逻辑其实很朴素。
在训练过程中，老师模型和学生模型对同一个词的"喜好程度"是不同的。老师模型对某些结构性的词（比如JSON格式里的括号、逗号）几乎是百分之百确定的——大括号后面就应该是引号，这没什么好犹豫的。用行话说，这类词的"模态概率"（modal probability）非常高，接近0.9993（也就是老师有99.93%的把握选这个词）。
现在，当学生模型输出的选择和老师差距太大时，训练信号就会变得很极端，不稳定。为了防止这种情况，工程师们引入了"裁剪"（clip）机制：规定老师和学生对同一个词的喜好比值最多不能超过某个上限c（比如c=5）。就像给汽车装了限速器，即使油门踩到底，速度也不会超过某个上限，防止训练失控。
这里就出现了一个关键的不对称性。当λ增大，训练目标会把"正确格式词"的目标概率推得越来越高；而一旦目标概率超过了1减去（1减去p）除以c这个边界（研究团队称之为"裁剪安全边界"），训练信号就彻底变了性质。在这个边界之内，训练会稳定地把学生往正确方向引导；一旦越过边界，训练信号就开始朝着错误的方向推，而且由于裁剪的存在，这个错误的推力还不能被及时纠正。模型就像一个滑向悬崖边缘的人，过了某个点之后，再想刹车就来不及了。
研究团队用严格的数学证明了这个机制，并推导出了一个闭合形式的公式（公式4），通过三个可以实际测量的量来精确计算这个临界点λ*：老师模型对结构性词的确信程度p、训练开始前学生模型（也就是经过初步微调的基础模型）的确信程度b，以及裁剪系数c。在亚马逊时尚类商品评价数据集上，用实测的p约等于0.9993、b约等于0.81、c等于5代入公式，算出λ*约等于1.22，而实验观测到的崩溃区间正好是1.15到1.25之间，公式预测和实验结果只差一个网格步长。
三、实验设计：把预测变成可证伪的赌注
这项研究最有说服力的地方，是研究团队把理论预测变成了"赌注"——在做实验之前就把预测结果写下来并锁定，然后再验证。这种做法在学术界叫做"预注册"（pre-registration），是防止研究者事后凑数据的重要手段。
实验的场景是这样的：给定一个亚马逊商品（比如一件时尚外套），连同8条用户评价，要求模型输出一个标准格式的JSON列表，给每条评价打一个0到10的有用性分数，并且必须把8条评价的ID都原样列出来。这个任务格式非常严格，就像填一张有固定栏目的表格，格式错了就算零分。这是一个检验"格式稳健性"的绝佳场景，因为格式对错非常容易判断，不需要主观打分。
研究团队使用了四种不同大小的Qwen3基础模型（0.6B、1.7B、4B、8B，数字越大模型越大越强），先用标准有监督微调（SFT）让模型学会这个任务格式，然后用OPD方法进一步训练，老师模型分别是4B和8B的微调版本。评价指标包括格式正确率（parse rate，即输出是否符合严格的JSON格式要求）、排名质量（NDCG@1等指标），以及一个综合分数USEFUL（等于格式正确率乘以NDCG@1，格式错误直接得零分）。
三次预注册测试分别针对不同的验证维度。第一次是细粒度的λ扫描测试：在λ等于1.18、1.20、1.22、1.24这四个值上各跑5个不同随机种子，预测崩溃点会在λ*等于1.22附近，结果格式正确率开始下降的区间被精确定位在1.204到1.228之间，包含了理论预测值1.22。第二次是训练预算延伸测试：根据理论预测，同样的λ值在训练更长时间后会更早崩溃，训练步骤从42步延伸到200步后，预测崩溃点会移到1.00到1.10区间，实验测得崩溃中点约为1.061，完全在预测窗口内。第三次是小裁剪系数测试：把c从5改成1.5，理论公式预测崩溃点会移到约1.070，实验观测到的崩溃中点为1.069，误差仅为0.0005，比实验网格精度还要精确。
四、实验结果：小模型如何打败大模型
在搞清楚崩溃点之后，研究团队把λ控制在临界点以下（具体是λ等于1.15，比预测的1.22留出一个网格的安全余量），看看OPD训练到底能带来多大的实际提升。
起点是有点让人意外的：在同样的有监督微调配方下，1.7B模型的格式正确率竟然比0.6B模型还低（5次随机种子平均只有26.4%），这说明单纯增大模型规模并不能保证格式稳健性，不同大小的模型会以不同方式"翻车"——1.7B的模型容易输出无限循环的前缀，4B的模型倾向于少输出最后一条，8B的模型才比较正常。
经过OPD训练之后，局面发生了戏剧性的变化。1.7B模型的格式正确率从26.4%跃升至92.1%，综合分数USEFUL从0.23上升到0.86，标准差也从0.093大幅缩小到0.016（大约是原来的六分之一）。而5次种子的8B SFT基线模型USEFUL平均是0.833，标准差是0.082。也就是说，1.7B-OPD和8B-SFT在综合得分上基本持平，但前者的参数量只有后者的五分之一，而且稳定性更好（种子间波动更小）。
为了排除"可能只是训练步骤多了"或者"可能只是因为在线数据更好"等替代解释，研究团队预注册了六个对照实验。延续原来的有监督微调但步骤相同，USEFUL只是从0.273到0.273，没有提升；只用前向KL（一种不同的蒸馏方式，没有外推）训练，USEFUL只有0.027；把λ从1.0换成1.15，USEFUL从0.819提升到0.882，说明外推确实有额外贡献；用解码约束替换OPD，USEFUL达到0.679，仍然低于0.882；换成4B-SFT而不用1.7B-OPD，USEFUL是0.661，还是不如。六个对照实验没有任何一个能解释全部提升，综合说明提升确实来自OPD本身的训练机制。
同一套已训练好的1.7B-OPD模型在婴儿用品和软件类商品上进行零样本测试（完全没有见过这两个类别的训练数据），USEFUL分别为0.707和0.749，而同样的1.7B-SFT在这两个类别上分别只有0.075和0.156，说明OPD训练的格式能力具有相当强的迁移性。
五、格式稳了，排名质量变了吗？
这是一个很自然的疑问：模型开始乖乖按格式输出了，会不会是因为它把注意力都用在填格式上，实际给评价打分的质量反而下降了呢？
答案是明确的否定。在整个λ从0.5扫到3.0的过程中，对于那些格式正确的输出，NDCG@1（衡量排名质量的指标，越高代表评分越准确）始终保持在0.899到0.949之间，统计检验的p值是0.61（远大于0.05，意味着λ对排名质量几乎没有影响）。换句话说，λ这个旋钮只影响格式的维持能力，不影响模型理解评价内容的能力。
这个发现很有意思：格式能力和内容理解能力在训练过程中是相对独立的。模型"学会打分"和"学会按格式输出"是两件不同的事，外推系数的崩溃效应专门针对格式那部分，就好像一个人在学弹钢琴，手指技巧和音乐感受力是可以分开的，某种训练方式可能只影响其中一个。
六、这个"悬崖"只存在于亚马逊数据吗？
研究团队进行了大量的范围测试，系统性地探索了这个预测公式在什么条件下成立，什么条件下不成立。
对于相同类型的结构化输出任务，比如把同样的严格JSON输出格式应用到MS MARCO和TREC-DL这两个标准信息检索数据集（这些是公认的权威评测数据，使用的是真人标注的相关性分数），实测的p值等于0.99941，落在亚马逊时尚数据集的置信区间内，理论公式预测的崩溃窗口和亚马逊数据几乎一样。实验结果也显示了相似的格式崩溃趋势，但因为测试样本只有54个查询、只有4个随机种子，统计功效不足以精确定位崩溃中点，所以列为"转移测试"而非独立标定。
对于另一种结构化输出基准测试JSONSchemaBench（这是一个完全公开的、包含约9500种不同JSON格式的测试集），单个JSON实例的测试没有出现格式崩溃，因为该数据集每个提示词用的格式都不一样，没有一个主导的等价类来触发崩溃机制。然而，当研究团队把任务改成"输出K=4个相同格式实例的列表"时，外层的K个条目边界形成了一个主导等价类，崩溃点约为1.29，落在理论预测区间1.19到1.42之内。不过崩溃的幅度比亚马逊数据浅很多，因为内层的JSON格式每个提示词都不同，摊薄了崩溃效果。
对于GSM8K数学推理任务（让模型一步步解数学题），模型输出的内容太自由了，没有像JSON括号那样接近100%确定的结构性词，τ等于0.9的过滤条件根本留不下足够多的结构性位置，所以预测公式的前提条件不满足，实验中λ从1.0扫到1.59，奖励指标几乎没有变化（标准差约0.006），这是符合预期的"预测公式不适用"的边界情况。
对于函数调用任务（BFCL基准），情况也类似：SFT阶段训练了5轮之后，4B模型的格式正确率已经高达94.2%，1.7B也有87.5%，几乎没有提升空间，所以OPD不管λ调到多高都观察不到明显的格式崩溃。这是另一种边界情况：格式太容易学，SFT阶段就已经饱和了，OPD没有发力空间。
对于换用Llama-3.2架构（替代Qwen3架构），在42步训练预算下整个λ从1.0到1.4都是单调递增的，没有看到崩溃。延伸到200步之后，格式正确率仍然只有约22%，原因是Llama-3.2-1B在格式任务上的SFT起点就很低，根本没有形成一个高格式正确率的基础让它"崩"，所以也是边界情况，而非对理论的反驳。
ASPO是另一个已发表的、针对同类IS不对称问题的工程修复方法，研究团队在同样的亚马逊时尚数据集上做了正面对比。ASPO在λ等于1.0时格式正确率（93.2%）略高于普通OPD（88.7%），说明它的工程修复有效；但在λ等于1.5时，ASPO同样出现了崩溃（格式正确率跌到9.6%），而且比普通OPD崩溃得更早（普通OPD的崩溃发生在λ等于1.25到1.40之间）。这说明理论预测的那个边界不是某种特定实现的BUG，而是IS裁剪机制本身的固有性质，ASPO只是把崩溃点提前了一格，并没有消除它。
七、一个实用建议：怎么用好这个"悬崖预测公式"
研究团队给出了一个直接可用的工程建议：在实际部署OPD训练时，先用测试集的若干提示词跑一遍老师模型，统计结构性词的平均置信度p，再用同样的提示词跑一遍初始微调模型，估算b，加上训练配置里已知的裁剪系数c，代入公式计算出λ*，然后把实际使用的λ设置在λ*以下一个网格步长的位置。同时别忘了，随着训练步骤增加，崩溃点会向左移动（根据理论公式4.2，移动量大约和训练步骤数的倒数成正比），所以如果要训练很多轮，应该根据实际预算对应调整λ的上限。
这个过程把原本"全靠经验试几个值看哪个好"的调参过程，变成了一个有数学依据的可计算决策，省去了大量的盲目搜索成本。当然，这套公式有其适用范围：必须是有严格格式约束的结构化输出任务（格式正确与否必须是二值判断），结构性词的置信度需要接近0.999，而且任务中需要有一个主导的"绑定等价类"（也就是有一类特定格式位置的出现频率和确定性都远高于其他位置）。对于开放生成、低置信度结构或格式已被SFT阶段完全饱和的任务，这套公式暂时不适用。
归根结底，这项研究告诉我们的是：在训练AI语言模型时，"越猛越好"并不总是成立的。有一个精确可预测的边界，把"恰到好处的强化"和"过犹不及的崩溃"分开。南洋理工大学的研究团队不仅找到了这条边界，还给了我们一把量尺来提前测量它——这在以往完全靠反复试错的调参工作中，是一个相当扎实的进步。下一步值得探索的问题是：这套公式在更复杂的多模态输出、更长文档生成、或者其他约束形式下，适用范围能扩展到多远？这些问题的答案，或许需要等待后续研究团队的跟进。
感兴趣的读者可以通过arXiv编号2605.08737查阅完整论文，其中附录部分包含了详细的数学证明、所有预注册的完整规范以及超过30张结果表格。
Q&A
Q1：OPD训练中的外推系数λ超过临界值为什么会导致格式崩溃？
A：当λ超过临界值λ*时，训练目标把结构性词的目标概率推得太高，超过了重要性采样裁剪机制允许的安全边界。一旦越过这个边界，裁剪操作不再纠正错误方向的训练信号，反而让模型持续向格式错误的方向漂移，直到输出彻底失去格式约束，比如少输出一个条目或者重复某个ID。
Q2：这个悬崖预测公式λ*在哪些任务上有效，哪些任务上不适用？
A：公式在有严格格式约束的结构化输出任务上有效，比如固定格式的JSON列表生成，且需要满足三个条件：结构性词的置信度接近0.999、任务中有一个主导的格式绑定位置、SFT阶段训练后格式正确率没有饱和。GSM8K数学推理、函数调用（BFCL）等任务不满足这些条件，公式就不适用。
Q3：1.7B小模型用OPD为什么能追平8B大模型的效果？
A：关键在于格式稳健性的提升。8B-SFT在格式正确率上本来就比较高，而1.7B-SFT因为规模小容易输出错误格式，导致综合得分低。OPD训练把1.7B模型的格式正确率从26%提升到92%，同时对已经格式正确输出的排名质量没有负面影响，于是综合得分（格式正确率乘以排名质量）就和8B-SFT接近了。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

我国海水淡化日产水量超300万吨，国家级公共测试平台天津投用

阿里发布内部通知：全面禁用Claude、卸载Anthropic旗下产品

华为与西部机场集团共创民航“数智解”

VS Code 的冷面孔与微软的暖钱包：别被硅谷的噪音骗了

【阜成门外】当硅谷企业也烧不起Token，中国大模型成新选项

砍掉DRAM缓存换上QLC闪存：三星990 Value SSD杀入入门级市场

全站最新

奥迪Q9霍希版路试谍照流出，2026年首发欲与迈巴赫GLS一较高下

33天铸就传奇！新中国首辆高级轿车将在中国一汽博物馆重磅展出

我国海水淡化日产水量超300万吨，国家级公共测试平台天津投用

阿里发布内部通知：全面禁用Claude、卸载Anthropic旗下产品

热门推荐

虐待学员戒网瘾机构成立仅1年

长城汽车代理要返点90%？博主和品牌被同一个中间商耍了？

《燕云十六声》与《逃离塔科夫》跨界联动，7月10日“渡尘墟”玩法全新上线

我国海水淡化日产水量超300万吨，国家级公共测试平台天津投用

阿里发布内部通知：全面禁用Claude、卸载Anthropic旗下产品

华为与西部机场集团共创民航“数智解”

VS Code 的冷面孔与微软的暖钱包：别被硅谷的噪音骗了

【阜成门外】当硅谷企业也烧不起Token，中国大模型成新选项

韩国存储扩产、Meta出租算力--野村谈“存储两大利空”

都美竹品牌因发布虚假广告被罚

2026京东方投资者日：三大创新业务亮相开启产业与资本价值双升新篇

传统豪车“内涵”营销引热议，国产新能源崛起下豪车何去何从？

砍掉DRAM缓存换上QLC闪存：三星990 Value SSD杀入入门级市场

互联网企业集中释放超20万岗位！

VS Code 的冷面孔与微软的暖钱包：别被硅谷的噪音骗了