卡内基梅隆大学等机构联合提出：让AI在"温故"中"知新"

IP属地中国·北京 科技行者 时间：2026-05-25 22:22:19

这项研究由卡内基梅隆大学、多伦多大学暨Vector研究院、伊利诺伊大学香槟分校、普林斯顿大学、康奈尔大学、东京大学、理化学研究所AIP、马克斯·普朗克智能系统研究所、欧洲安全AI研究院等多家顶尖机构联合完成，于2026年5月16日以预印本形式公开发布，论文编号为arXiv:2605.16865。
**学AI的苦恼：记住新的，忘了旧的**
每个认真学习过的人大概都有类似的经历——期末备考时把新知识塞满脑子，结果发现上学期学的公式已经模糊一片。这个现象在人类学习中司空见惯，没想到在人工智能领域同样棘手，甚至更加严重。
大型语言模型（也就是我们常说的AI聊天助手背后的技术）在经过海量数据的"通识教育"之后，往往掌握了出色的推理能力、代码编写能力和各种常识。然而，当企业想让它再学一批专属的行业知识——比如医院的诊疗规范、律所的合同条款、或者某公司内部产品手册——麻烦就来了。这种针对性的补充学习，在技术上叫做"有监督微调"，就像给已经毕业参加工作的员工做岗前培训。培训结束后，员工记住了新知识，却把原本会的东西忘得差不多了。研究人员把这种现象称为"灾难性遗忘"——名字听起来很戏剧化，但现实中确实令人头疼，有时候模型学完新东西之后，数学、写代码、甚至基本的逻辑推理能力都会大幅下滑，严重情况下留存率不到原来的百分之一。
正是针对这个问题，来自上述多家机构的研究团队提出了一套名为MIXSD（Mixed Contextual Self-Distillation，混合语境自蒸馏）的新方法。它的核心思路非常有意思：让AI用自己的话来学习新知识，而不是强迫它死记硬背别人写好的标准答案。
**一、问题根源：强迫AI背"别人的答案"**
要理解MIXSD为什么有效，先得搞清楚传统做法错在哪里。
传统的微调方式，就好比给一位中文作家发了一本英文教材，要求他逐字逐句地抄写下来、背诵下来。即使教材内容本身是正确的，这种"一字不差地模仿外国语调"的做法，会迫使作家的写作习惯发生根本性改变——久而久之，他原本流畅优美的中文文风就会被磨损掉。
AI模型也面临同样的处境。当我们准备一批"新知识"喂给模型时，这些知识通常是人类专家写的，或者由另一个AI系统生成的。问题在于，这些文字的措辞习惯、表达结构、用词偏好，和被训练的模型自身的"语言风格"往往大相径庭。模型在学习这些"外来答案"时，需要强行调整自己大量的参数（可以理解为神经网络中无数个微小的"调节旋钮"），这个过程就像反复拧动一块精密仪器上的各种旋钮来适应新任务，很容易把原本调校好的其他设置也给破坏掉。
研究团队用一个数学指标来衡量这种破坏程度，叫做"困惑度"（NLL，负对数似然值）。简单说，这个数值代表模型对某段文字感到多"陌生"——数值越高，说明这段文字对模型来说越像"外星语言"，模型需要做出的调整就越剧烈，对原有能力的破坏也就越大。研究发现，传统方式用来训练的文字，其困惑度指标平均高达5到7之间，而如果换用模型自己生成的文字来训练，这个数值可以降低到1至3左右，差距十分显著。
**二、MIXSD的解法：让AI自己教自己**
MIXSD的核心设计思路可以用一个场景来理解：假设你要教一位出色的历史学家学习一批最新的考古发现资料。传统做法是把考古报告原文给他背，他得硬啃那些他不熟悉的技术术语和格式规范。而MIXSD的做法是：先让这位历史学家把考古报告读一遍，然后用他自己惯常的语言风格，重新讲述他从中学到的内容。这样既保留了新知识，又和他原有的知识体系无缝衔接。
具体到技术层面，MIXSD在每次生成一个训练用的"答案文字"时，并不直接使用人类写好的标准答案，而是让模型自己动态地生成训练材料。在生成过程中，每产生一个词，模型有两个"信息来源"可以选择：一个是"专家视角"——模型在上下文中已经看到了正确答案的提示，因此能够生成体现新知识的文字；另一个是"朴素视角"——模型只看原始问题，完全凭自身已有的知识储备来生成文字。
在每一步生成中，系统通过一个叫做λ（读作"拉姆达"）的参数来控制比例：以1减去λ的概率选用"专家视角"生成的词，以λ的概率选用"朴素视角"生成的词。最终形成的训练材料，是这两种视角下文字的逐词混合体——既包含了需要被记住的新知识，又充满了模型自己熟悉的语言风格和表达习惯。这种"自己教自己"的方式，天然地让训练材料贴近模型的母语，大幅降低了学习时的"陌生感"。
λ值的大小决定了两种能力之间的权衡程度。λ为0时，训练材料完全来自专家视角，对新知识的记忆效果最强，但对原有能力的冲击也最大；λ越大，朴素视角的成分越多，对旧能力的保护越好，但记住新知识的效果会有所下降。实验表明，λ设置在0.3到0.5之间，通常能取得最好的综合效果。
**三、怎么测试这个方法——两个专门设计的考场**
为了严格评估MIXSD的效果，研究团队专门构建了两个测试数据集，它们在现有研究中颇具创新性，因为能够排除模型"预训练时偷学答案"的干扰。
第一个叫KGFACT（知识图谱事实记忆库）。研究团队凭空设计了一个虚构的世界，里面有各种完全由团队自己发明的人物、地点和组织机构——比如"Drymorel Foundation"会培养什么职业的人，或者"Thaldric Route Shaper"是什么角色。这些名字和关系在现实世界和互联网上根本不存在，因此模型在预训练时绝对没有学过。通过这种方式，团队可以精确地测量模型"学会了多少真正的新知识"，而不是"从预训练记忆中调取了多少旧知识"。KGFACT分为小型版（5个类别，每类10个实体）和大型版（7个类别，每类25个实体）。
第二个叫KGFUNC（算术函数习得库）。这个数据集测试的不是记忆事实，而是学习新的计算规则。每道题目会给出一个神秘函数的若干输入输出示例，比如E(41)=8、E(45)=40，要求模型推断出这个函数的规律，并正确计算E(87960)的值。答案通常是对数字每一位做某种运算的组合。训练时提供的答案包含了详细的逐步推理过程，测试时则需要模型对全新的输入举一反三。
除了这两个专属数据集，研究团队还在SimpleQA（一个包含4326道真实世界事实问答题的数据库）上进行了测试，同时还测试了模型在MQuAKE数据集上的"知识编辑"能力——即不只是学新知识，而是修改已有的错误知识。
而对于"遗忘程度"的衡量，研究团队用了五个权威的通用能力测试：数学推理领域的AIME2024竞赛题、MATH500数学题库和GSM8K小学奥数；代码编写能力用HumanEval衡量；综合知识理解用MMLU（覆盖57个学科领域的庞大题库）衡量。这五项测试的平均分，就是衡量模型"原有能力保留多少"的核心指标。
**四、实验数据说明了什么——触目惊心的对比**
实验在三个规模不同的模型上进行，分别是Qwen3-1.7B（17亿参数）、Qwen3-4B-Instruct（40亿参数）和Qwen3-8B（80亿参数）。
传统微调（SFT）的表现可以用"杀敌一千，自损八百"来形容，而且有时候自损比例远超八百。以最小的1.7B模型在KGFACT-SMALL上的测试为例：标准微调之后，模型在训练知识点上的记忆准确率高达99%，可谓优等生；然而，五项通用能力测试的平均分却从基础分56.5分骤降至14.3分，只剩下约四分之一。更可怕的是，在KGFUNC数据集上，标准微调后的模型面对那些"没在训练集里出现过的简单运算规律"时，准确率从31.4%跌至0.4%——几乎完全丧失了举一反三的能力。
相比之下，MIXSD在相同条件下的表现大幅改善。同样是1.7B模型，MIXSD（λ=0.5）在KGFACT-SMALL上能把训练准确率维持在97%，而五项通用能力的平均分保留在40.3分，是标准微调的近三倍。在4B模型上，MIXSD（λ=0.5）甚至能把通用能力平均分从基础的82.6分仅仅降低到77.5分，而标准微调则把它拉低到了43.2分。换句话说，MIXSD让模型在学会新知识的同时，保留了基础能力的90%以上，而标准微调只保留了约52%。
在KGFUNC数据集上，MIXSD的优势同样突出。Qwen3-4B-Instruct使用MIXSD（λ=0.3）训练后，不仅KGFUNC-TEST准确率达到89.1%（高于SFT的72.6%），举一反三的KGFUNC-UNSEEN准确率更是达到67.8%，而SFT只有1.4%。五项通用能力平均分为79.2，而SFT只有16.6。
研究团队还与另一种叫做OPSD（在线策略自蒸馏）的方法进行了对比。这种方法同样属于"让模型自己生成训练材料"的思路，但它在生成时不使用混合策略，而是每次为每道题生成8个完整的候选答案，然后用复杂的KL散度损失函数来指导训练。OPSD在部分情况下确实比标准微调更好，但表现很不稳定——比如在1.7B模型上，OPSD的通用能力平均分居然只有5.1分，比标准微调的14.3分还要低。而且由于每次要生成8个完整答案，OPSD的计算开销是标准微调的数倍，实用性大打折扣。MIXSD只需要生成1个混合答案，开销与标准微调相当，却在大多数情况下取得了更好的效果。
**五、为什么会遗忘——参数空间里的"高速公路"与"乡间小道"**
研究团队不仅展示了MIXSD更有效，还深入探究了"遗忘"究竟是怎么发生的，这部分分析相当有洞察力。
直觉上，很多人会认为：模型参数改变得越多，遗忘就越严重。就好比一台机器，拧动的旋钮越多，越容易出问题。但研究团队发现这个直觉是错误的。他们用一个叫做"Fisher信息矩阵"的数学工具来衡量模型参数的"敏感度"——某个参数越敏感，改动它对模型整体行为的影响就越大。
把模型的参数空间想象成一个城市路网。有些道路是城市的主干道，承载着大量交通流量（对应高Fisher敏感度的参数），稍有堵塞就会引发全城瘫痪；有些是偏远的乡间小路，即使完全封闭也影响不大（对应低Fisher敏感度的参数）。研究发现，"遗忘严不严重"取决于的不是整体上改动了多少条道路，而是有没有动到那些关键的主干道。
用一个数字来体现这个发现：研究测量了"参数变动量"与"遗忘程度"的相关系数，对于1.7B、4B、8B三个模型，这个相关系数分别只有+0.34、+0.02和+0.10，几乎没有预测力。但换用"Fisher加权方向对齐度"（即参数变动是否集中在敏感的主干道方向上）来衡量，三个模型的相关系数分别升至+0.56、+0.82和+0.57，高出了数倍，预测力强得多。
这个发现意味着：不是"改变多少"重要，而是"改变什么方向"重要。标准微调由于要强行学习"外来语言"风格的答案，往往恰恰撞上了那些最敏感的参数方向，造成大规模的"主干道堵塞"。MIXSD因为训练材料贴近模型自身的语言习惯，对参数的调整自然地回避了最敏感的方向，从而在同等学习效果下造成更小的"主干道冲击"。
**六、错误的样子也不一样——SFT的溃败有多深**
除了测试分数的差距，研究团队还细致地分析了两种方法在失败时"错法"是否有区别，这个分析颇为有趣。
他们把错误答案分成四种类型。第一种叫"格式错误"，就是模型连答题的基本格式都搞不清楚了，比如数学题要求给出数值答案，它却给出一篇散文。第二种叫"知识泄漏"，这是标准微调特有的怪现象：模型在回答一道完全无关的数学题或常识题时，答案里突然冒出了它刚学的那批虚构知识库里的人名或地名，比如回答一道算术题时插入了"答案是Ormavel Valley"这样的胡言乱语——这说明新学的"外来知识"把模型的思维搞乱了，开始到处乱窜。第三种叫"崩溃式回答"，就是模型完全放弃思考，直接套用训练时见过的简短模板回复，比如面对任何问题都回答"答案是X"加上一个随便填入的数字。第四种是"正常犯错"，就是模型有正常的思考过程，但最终推理结论不对。
测试结果令人印象深刻。在标准微调之后，1.7B模型在MMLU测试上的所有错误答案中，"知识泄漏"占了50.7%，"崩溃式回答"占了48.0%，而"正常犯错"只有0.4%。也就是说，标准微调之后的模型几乎彻底失去了正常思考的能力，错误要么来自混入了无关的新知识，要么来自完全放弃思考。
MIXSD之后的模型则截然不同：知识泄漏和崩溃式回答合计占错误的比例不超过4%，而正常犯错的比例高达71%以上，与基础模型的错误分布高度吻合。换句话说，MIXSD训练后的模型仍然保持着正常的思考模式，只是偶尔想错了，而不是整个思维系统都被搅乱了。
**七、这个方法是否只在特定情况下有效**
研究团队对MIXSD的适用范围做了多方面的验证，以排除结论只在特定模型或特定任务上成立的可能性。
在模型通用性方面，他们在Meta公司开发的Llama-3.2-1B-Instruct模型上重复了实验。结果与Qwen系列完全一致：标准微调让通用能力平均分从6.8分跌至1.4分（保留20.6%），而MIXSD（λ=0.5）在相同训练精度下保留了5.3分（保留77.9%）。这表明MIXSD的有效性并非Qwen系列模型的特有现象，而是一种更普遍的规律。
在任务类型方面，他们还测试了"知识编辑"场景——即不是学习全新的知识，而是修改模型已有的错误认知。使用的是MQuAKE数据集，要求模型通过多跳推理来完成知识更新。结果显示，标准微调虽然能100%记住更新后的答案，但通用能力平均分下降到7.8到39.4分（视模型大小而定）。MIXSD（λ=0.3）在记忆准确率达到93到99%的同时，通用能力平均分保留在17.6到76.0分之间，4B和8B模型均保留了90%以上的通用能力。
值得一提的是，研究团队还把MIXSD与MEMIT（一种专门为知识编辑设计的精准定位修改方法）进行了比较。MEMIT的优点是对原有能力几乎没有破坏，缺点是编辑准确率只有53到70%，远不及MIXSD的93至99%。这种差距的原因在于，当不同的知识条目涉及相同的实体时，MEMIT的矩阵级别更新会相互干扰，造成精度损失。MIXSD没有这个问题。
**八、说到底，这项研究告诉了我们什么**
归根结底，这项工作揭示了一个听起来朴素但颇具启发性的道理：教一个人学习的最好方式，是用他自己熟悉的语言和思维方式来教，而不是强迫他逐字背诵一个陌生语言写成的教材。AI模型同样如此。
MIXSD的贡献在于，它找到了一种简单可行的方式来实现这个道理——不需要额外的老师模型，不需要复杂的优化目标，只需要在生成训练材料时，巧妙地混入模型自己的"语言习惯"。这个过程成本很低：只需在数据准备阶段额外做一次模型推理，之后的训练流程与标准微调完全相同。
对于企业和研究者来说，这意味着在不大幅增加成本的前提下，可以让语言模型在学习行业专属知识时更加稳健，不再为了掌握新技能而牺牲原有能力。对于那些需要把通用大模型部署到医疗、法律、教育等垂直领域的应用来说，这项技术有着直接的实用价值。
当然，这项研究也坦承了自己的局限。λ值的最优选择可能因任务不同而有所差异，虽然0.3在多数情况下表现良好，但并不保证对所有场景都是最优解。此外，实验所用的最大模型只有80亿参数，对于当前主流的数百亿乃至千亿参数模型，这套方法是否同样有效，仍需进一步验证。同时，生成混合训练材料会带来一次性的计算成本，虽然远小于OPSD那种多轮采样的方案，但相较于直接使用现成答案的标准微调，依然有额外开销。
对这项研究感兴趣的读者，可以通过arXiv编号2605.16865查阅完整论文，其中包含了所有实验细节、超参数设置、误差分析和消融实验，内容相当充实。
**Q&A**
Q1：MIXSD中的λ参数具体如何选择，是否有通用建议？
A：根据论文的实验结果，λ设置在0.3到0.5之间通常能取得较好的综合效果。λ=0.3时偏向记忆新知识，λ=0.5时在保留旧能力方面更有优势，而λ=0.7则可能明显影响对新知识的记忆准确率。论文建议以λ=0.3作为默认起点，再根据具体任务对记忆和保留的侧重程度进行调整。
Q2：MIXSD与标准SFT微调相比，训练成本会增加多少？
A：MIXSD主要的额外成本来自数据准备阶段：需要对每道训练题目做一次模型推理来生成混合训练材料（而非直接使用人工标注答案）。这是一次性的预处理开销，实际训练过程与标准微调完全相同。相比另一种基线方法OPSD每道题需要采样8次候选答案，MIXSD的额外成本要小得多，论文中将其描述为"可接受的一次性预处理代价"。
Q3：灾难性遗忘问题在大语言模型微调中有多普遍，之前有没有其他解决方案？
A：灾难性遗忘是语言模型微调中普遍存在的问题，并非个别现象。此前已有多种应对方案：弹性权重巩固（EWC）等正则化方法通过约束关键参数的改变幅度来保护原有能力；ROME和MEMIT等知识编辑方法尝试精准定位并只修改与特定知识相关的参数；检索增强生成（RAG）则完全绕开修改模型参数，在推理时临时引入外部知识。这些方法各有优缺点，MIXSD的独特之处在于从训练数据本身的分布出发，直接降低学习过程对模型参数的破坏性冲击。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

美股半导体、存储芯片股，集体下跌

互联网退居幕后？2026中国互联网大会揭开AI时代算力底牌

Anthropic、OpenAI与SpaceX的上市规模超过过去25年科技退出总和

BW2026首日AMD火力全开：游戏本与AI创作本齐发，引领智能娱乐新风潮

AMD与联想强强联手，BW2026首发锐龙AI Max新品，开启AI笔记本新体验

工信部第409批车辆公告出炉：小米澎程系列领衔，多款新车集中亮相

全站最新

比亚迪携五款新能源车型登陆阿塞拜疆助力当地开启绿色出行新篇章

捷达M6申报图亮相：轴距2820mm空间宽敞，2026年下半年将入市

美股半导体、存储芯片股，集体下跌

互联网退居幕后？2026中国互联网大会揭开AI时代算力底牌

热门推荐

联想YOGA Pro 15锐龙AI本亮相：50TOPS算力+64GB内存轻薄机身满足多元创作需求

小红书首届全员黑客松来袭，50万大奖+直通孵化项目等你挑战

美股半导体、存储芯片股，集体下跌

互联网退居幕后？2026中国互联网大会揭开AI时代算力底牌

Anthropic、OpenAI与SpaceX的上市规模超过过去25年科技退出总和

长征十号乙海上网系回收成功，外媒关注：中国航天迈出追赶SpaceX新步伐

智元精灵G2获中美欧多地认证开启具身智能机器人全球商用新篇章

从预热到官宣！小米澎程N90与N70的“空间魔法”全揭秘

小米澎程N90 Max官图亮相，前脸车侧车尾全视角一览无余

Meta收购Virtue AI核心团队，为超级智能计划筑牢安全防线

十亿级参数纯华语AI音乐大模型问世，打通字节七大平台开启创作新篇

字节跳动公益基金会捐2000万支援灾区平台带动超200万人捐款助力

AI竞争白热化！扎克伯格“现身”X宣传，马斯克互动调侃成焦点

雷军分享小米澎程N90座舱：七座布局多样场景满足六至七口人需求

小米澎程首款SUV SkyNomad N90命名公布，座舱空间多元场景自由切换