当前位置: 首页 » 资讯 » 科技头条 » 正文

卡内基梅隆大学等机构联合提出:让AI在"温故"中"知新"

IP属地 中国·北京 科技行者 时间:2026-05-25 22:22:19


这项研究由卡内基梅隆大学、多伦多大学暨Vector研究院、伊利诺伊大学香槟分校、普林斯顿大学、康奈尔大学、东京大学、理化学研究所AIP、马克斯·普朗克智能系统研究所、欧洲安全AI研究院等多家顶尖机构联合完成,于2026年5月16日以预印本形式公开发布,论文编号为arXiv:2605.16865。

**学AI的苦恼:记住新的,忘了旧的**

每个认真学习过的人大概都有类似的经历——期末备考时把新知识塞满脑子,结果发现上学期学的公式已经模糊一片。这个现象在人类学习中司空见惯,没想到在人工智能领域同样棘手,甚至更加严重。

大型语言模型(也就是我们常说的AI聊天助手背后的技术)在经过海量数据的"通识教育"之后,往往掌握了出色的推理能力、代码编写能力和各种常识。然而,当企业想让它再学一批专属的行业知识——比如医院的诊疗规范、律所的合同条款、或者某公司内部产品手册——麻烦就来了。这种针对性的补充学习,在技术上叫做"有监督微调",就像给已经毕业参加工作的员工做岗前培训。培训结束后,员工记住了新知识,却把原本会的东西忘得差不多了。研究人员把这种现象称为"灾难性遗忘"——名字听起来很戏剧化,但现实中确实令人头疼,有时候模型学完新东西之后,数学、写代码、甚至基本的逻辑推理能力都会大幅下滑,严重情况下留存率不到原来的百分之一。

正是针对这个问题,来自上述多家机构的研究团队提出了一套名为MIXSD(Mixed Contextual Self-Distillation,混合语境自蒸馏)的新方法。它的核心思路非常有意思:让AI用自己的话来学习新知识,而不是强迫它死记硬背别人写好的标准答案。

**一、问题根源:强迫AI背"别人的答案"**

要理解MIXSD为什么有效,先得搞清楚传统做法错在哪里。

传统的微调方式,就好比给一位中文作家发了一本英文教材,要求他逐字逐句地抄写下来、背诵下来。即使教材内容本身是正确的,这种"一字不差地模仿外国语调"的做法,会迫使作家的写作习惯发生根本性改变——久而久之,他原本流畅优美的中文文风就会被磨损掉。

AI模型也面临同样的处境。当我们准备一批"新知识"喂给模型时,这些知识通常是人类专家写的,或者由另一个AI系统生成的。问题在于,这些文字的措辞习惯、表达结构、用词偏好,和被训练的模型自身的"语言风格"往往大相径庭。模型在学习这些"外来答案"时,需要强行调整自己大量的参数(可以理解为神经网络中无数个微小的"调节旋钮"),这个过程就像反复拧动一块精密仪器上的各种旋钮来适应新任务,很容易把原本调校好的其他设置也给破坏掉。

研究团队用一个数学指标来衡量这种破坏程度,叫做"困惑度"(NLL,负对数似然值)。简单说,这个数值代表模型对某段文字感到多"陌生"——数值越高,说明这段文字对模型来说越像"外星语言",模型需要做出的调整就越剧烈,对原有能力的破坏也就越大。研究发现,传统方式用来训练的文字,其困惑度指标平均高达5到7之间,而如果换用模型自己生成的文字来训练,这个数值可以降低到1至3左右,差距十分显著。

**二、MIXSD的解法:让AI自己教自己**

MIXSD的核心设计思路可以用一个场景来理解:假设你要教一位出色的历史学家学习一批最新的考古发现资料。传统做法是把考古报告原文给他背,他得硬啃那些他不熟悉的技术术语和格式规范。而MIXSD的做法是:先让这位历史学家把考古报告读一遍,然后用他自己惯常的语言风格,重新讲述他从中学到的内容。这样既保留了新知识,又和他原有的知识体系无缝衔接。

具体到技术层面,MIXSD在每次生成一个训练用的"答案文字"时,并不直接使用人类写好的标准答案,而是让模型自己动态地生成训练材料。在生成过程中,每产生一个词,模型有两个"信息来源"可以选择:一个是"专家视角"——模型在上下文中已经看到了正确答案的提示,因此能够生成体现新知识的文字;另一个是"朴素视角"——模型只看原始问题,完全凭自身已有的知识储备来生成文字。

在每一步生成中,系统通过一个叫做λ(读作"拉姆达")的参数来控制比例:以1减去λ的概率选用"专家视角"生成的词,以λ的概率选用"朴素视角"生成的词。最终形成的训练材料,是这两种视角下文字的逐词混合体——既包含了需要被记住的新知识,又充满了模型自己熟悉的语言风格和表达习惯。这种"自己教自己"的方式,天然地让训练材料贴近模型的母语,大幅降低了学习时的"陌生感"。

λ值的大小决定了两种能力之间的权衡程度。λ为0时,训练材料完全来自专家视角,对新知识的记忆效果最强,但对原有能力的冲击也最大;λ越大,朴素视角的成分越多,对旧能力的保护越好,但记住新知识的效果会有所下降。实验表明,λ设置在0.3到0.5之间,通常能取得最好的综合效果。

**三、怎么测试这个方法——两个专门设计的考场**

为了严格评估MIXSD的效果,研究团队专门构建了两个测试数据集,它们在现有研究中颇具创新性,因为能够排除模型"预训练时偷学答案"的干扰。

第一个叫KGFACT(知识图谱事实记忆库)。研究团队凭空设计了一个虚构的世界,里面有各种完全由团队自己发明的人物、地点和组织机构——比如"Drymorel Foundation"会培养什么职业的人,或者"Thaldric Route Shaper"是什么角色。这些名字和关系在现实世界和互联网上根本不存在,因此模型在预训练时绝对没有学过。通过这种方式,团队可以精确地测量模型"学会了多少真正的新知识",而不是"从预训练记忆中调取了多少旧知识"。KGFACT分为小型版(5个类别,每类10个实体)和大型版(7个类别,每类25个实体)。

第二个叫KGFUNC(算术函数习得库)。这个数据集测试的不是记忆事实,而是学习新的计算规则。每道题目会给出一个神秘函数的若干输入输出示例,比如E(41)=8、E(45)=40,要求模型推断出这个函数的规律,并正确计算E(87960)的值。答案通常是对数字每一位做某种运算的组合。训练时提供的答案包含了详细的逐步推理过程,测试时则需要模型对全新的输入举一反三。

除了这两个专属数据集,研究团队还在SimpleQA(一个包含4326道真实世界事实问答题的数据库)上进行了测试,同时还测试了模型在MQuAKE数据集上的"知识编辑"能力——即不只是学新知识,而是修改已有的错误知识。

而对于"遗忘程度"的衡量,研究团队用了五个权威的通用能力测试:数学推理领域的AIME2024竞赛题、MATH500数学题库和GSM8K小学奥数;代码编写能力用HumanEval衡量;综合知识理解用MMLU(覆盖57个学科领域的庞大题库)衡量。这五项测试的平均分,就是衡量模型"原有能力保留多少"的核心指标。

**四、实验数据说明了什么——触目惊心的对比**

实验在三个规模不同的模型上进行,分别是Qwen3-1.7B(17亿参数)、Qwen3-4B-Instruct(40亿参数)和Qwen3-8B(80亿参数)。

传统微调(SFT)的表现可以用"杀敌一千,自损八百"来形容,而且有时候自损比例远超八百。以最小的1.7B模型在KGFACT-SMALL上的测试为例:标准微调之后,模型在训练知识点上的记忆准确率高达99%,可谓优等生;然而,五项通用能力测试的平均分却从基础分56.5分骤降至14.3分,只剩下约四分之一。更可怕的是,在KGFUNC数据集上,标准微调后的模型面对那些"没在训练集里出现过的简单运算规律"时,准确率从31.4%跌至0.4%——几乎完全丧失了举一反三的能力。

相比之下,MIXSD在相同条件下的表现大幅改善。同样是1.7B模型,MIXSD(λ=0.5)在KGFACT-SMALL上能把训练准确率维持在97%,而五项通用能力的平均分保留在40.3分,是标准微调的近三倍。在4B模型上,MIXSD(λ=0.5)甚至能把通用能力平均分从基础的82.6分仅仅降低到77.5分,而标准微调则把它拉低到了43.2分。换句话说,MIXSD让模型在学会新知识的同时,保留了基础能力的90%以上,而标准微调只保留了约52%。

在KGFUNC数据集上,MIXSD的优势同样突出。Qwen3-4B-Instruct使用MIXSD(λ=0.3)训练后,不仅KGFUNC-TEST准确率达到89.1%(高于SFT的72.6%),举一反三的KGFUNC-UNSEEN准确率更是达到67.8%,而SFT只有1.4%。五项通用能力平均分为79.2,而SFT只有16.6。

研究团队还与另一种叫做OPSD(在线策略自蒸馏)的方法进行了对比。这种方法同样属于"让模型自己生成训练材料"的思路,但它在生成时不使用混合策略,而是每次为每道题生成8个完整的候选答案,然后用复杂的KL散度损失函数来指导训练。OPSD在部分情况下确实比标准微调更好,但表现很不稳定——比如在1.7B模型上,OPSD的通用能力平均分居然只有5.1分,比标准微调的14.3分还要低。而且由于每次要生成8个完整答案,OPSD的计算开销是标准微调的数倍,实用性大打折扣。MIXSD只需要生成1个混合答案,开销与标准微调相当,却在大多数情况下取得了更好的效果。

**五、为什么会遗忘——参数空间里的"高速公路"与"乡间小道"**

研究团队不仅展示了MIXSD更有效,还深入探究了"遗忘"究竟是怎么发生的,这部分分析相当有洞察力。

直觉上,很多人会认为:模型参数改变得越多,遗忘就越严重。就好比一台机器,拧动的旋钮越多,越容易出问题。但研究团队发现这个直觉是错误的。他们用一个叫做"Fisher信息矩阵"的数学工具来衡量模型参数的"敏感度"——某个参数越敏感,改动它对模型整体行为的影响就越大。

把模型的参数空间想象成一个城市路网。有些道路是城市的主干道,承载着大量交通流量(对应高Fisher敏感度的参数),稍有堵塞就会引发全城瘫痪;有些是偏远的乡间小路,即使完全封闭也影响不大(对应低Fisher敏感度的参数)。研究发现,"遗忘严不严重"取决于的不是整体上改动了多少条道路,而是有没有动到那些关键的主干道。

用一个数字来体现这个发现:研究测量了"参数变动量"与"遗忘程度"的相关系数,对于1.7B、4B、8B三个模型,这个相关系数分别只有+0.34、+0.02和+0.10,几乎没有预测力。但换用"Fisher加权方向对齐度"(即参数变动是否集中在敏感的主干道方向上)来衡量,三个模型的相关系数分别升至+0.56、+0.82和+0.57,高出了数倍,预测力强得多。

这个发现意味着:不是"改变多少"重要,而是"改变什么方向"重要。标准微调由于要强行学习"外来语言"风格的答案,往往恰恰撞上了那些最敏感的参数方向,造成大规模的"主干道堵塞"。MIXSD因为训练材料贴近模型自身的语言习惯,对参数的调整自然地回避了最敏感的方向,从而在同等学习效果下造成更小的"主干道冲击"。

**六、错误的样子也不一样——SFT的溃败有多深**

除了测试分数的差距,研究团队还细致地分析了两种方法在失败时"错法"是否有区别,这个分析颇为有趣。

他们把错误答案分成四种类型。第一种叫"格式错误",就是模型连答题的基本格式都搞不清楚了,比如数学题要求给出数值答案,它却给出一篇散文。第二种叫"知识泄漏",这是标准微调特有的怪现象:模型在回答一道完全无关的数学题或常识题时,答案里突然冒出了它刚学的那批虚构知识库里的人名或地名,比如回答一道算术题时插入了"答案是Ormavel Valley"这样的胡言乱语——这说明新学的"外来知识"把模型的思维搞乱了,开始到处乱窜。第三种叫"崩溃式回答",就是模型完全放弃思考,直接套用训练时见过的简短模板回复,比如面对任何问题都回答"答案是X"加上一个随便填入的数字。第四种是"正常犯错",就是模型有正常的思考过程,但最终推理结论不对。

测试结果令人印象深刻。在标准微调之后,1.7B模型在MMLU测试上的所有错误答案中,"知识泄漏"占了50.7%,"崩溃式回答"占了48.0%,而"正常犯错"只有0.4%。也就是说,标准微调之后的模型几乎彻底失去了正常思考的能力,错误要么来自混入了无关的新知识,要么来自完全放弃思考。

MIXSD之后的模型则截然不同:知识泄漏和崩溃式回答合计占错误的比例不超过4%,而正常犯错的比例高达71%以上,与基础模型的错误分布高度吻合。换句话说,MIXSD训练后的模型仍然保持着正常的思考模式,只是偶尔想错了,而不是整个思维系统都被搅乱了。

**七、这个方法是否只在特定情况下有效**

研究团队对MIXSD的适用范围做了多方面的验证,以排除结论只在特定模型或特定任务上成立的可能性。

在模型通用性方面,他们在Meta公司开发的Llama-3.2-1B-Instruct模型上重复了实验。结果与Qwen系列完全一致:标准微调让通用能力平均分从6.8分跌至1.4分(保留20.6%),而MIXSD(λ=0.5)在相同训练精度下保留了5.3分(保留77.9%)。这表明MIXSD的有效性并非Qwen系列模型的特有现象,而是一种更普遍的规律。

在任务类型方面,他们还测试了"知识编辑"场景——即不是学习全新的知识,而是修改模型已有的错误认知。使用的是MQuAKE数据集,要求模型通过多跳推理来完成知识更新。结果显示,标准微调虽然能100%记住更新后的答案,但通用能力平均分下降到7.8到39.4分(视模型大小而定)。MIXSD(λ=0.3)在记忆准确率达到93到99%的同时,通用能力平均分保留在17.6到76.0分之间,4B和8B模型均保留了90%以上的通用能力。

值得一提的是,研究团队还把MIXSD与MEMIT(一种专门为知识编辑设计的精准定位修改方法)进行了比较。MEMIT的优点是对原有能力几乎没有破坏,缺点是编辑准确率只有53到70%,远不及MIXSD的93至99%。这种差距的原因在于,当不同的知识条目涉及相同的实体时,MEMIT的矩阵级别更新会相互干扰,造成精度损失。MIXSD没有这个问题。

**八、说到底,这项研究告诉了我们什么**

归根结底,这项工作揭示了一个听起来朴素但颇具启发性的道理:教一个人学习的最好方式,是用他自己熟悉的语言和思维方式来教,而不是强迫他逐字背诵一个陌生语言写成的教材。AI模型同样如此。

MIXSD的贡献在于,它找到了一种简单可行的方式来实现这个道理——不需要额外的老师模型,不需要复杂的优化目标,只需要在生成训练材料时,巧妙地混入模型自己的"语言习惯"。这个过程成本很低:只需在数据准备阶段额外做一次模型推理,之后的训练流程与标准微调完全相同。

对于企业和研究者来说,这意味着在不大幅增加成本的前提下,可以让语言模型在学习行业专属知识时更加稳健,不再为了掌握新技能而牺牲原有能力。对于那些需要把通用大模型部署到医疗、法律、教育等垂直领域的应用来说,这项技术有着直接的实用价值。

当然,这项研究也坦承了自己的局限。λ值的最优选择可能因任务不同而有所差异,虽然0.3在多数情况下表现良好,但并不保证对所有场景都是最优解。此外,实验所用的最大模型只有80亿参数,对于当前主流的数百亿乃至千亿参数模型,这套方法是否同样有效,仍需进一步验证。同时,生成混合训练材料会带来一次性的计算成本,虽然远小于OPSD那种多轮采样的方案,但相较于直接使用现成答案的标准微调,依然有额外开销。

对这项研究感兴趣的读者,可以通过arXiv编号2605.16865查阅完整论文,其中包含了所有实验细节、超参数设置、误差分析和消融实验,内容相当充实。

**Q&A**

Q1:MIXSD中的λ参数具体如何选择,是否有通用建议?

A:根据论文的实验结果,λ设置在0.3到0.5之间通常能取得较好的综合效果。λ=0.3时偏向记忆新知识,λ=0.5时在保留旧能力方面更有优势,而λ=0.7则可能明显影响对新知识的记忆准确率。论文建议以λ=0.3作为默认起点,再根据具体任务对记忆和保留的侧重程度进行调整。

Q2:MIXSD与标准SFT微调相比,训练成本会增加多少?

A:MIXSD主要的额外成本来自数据准备阶段:需要对每道训练题目做一次模型推理来生成混合训练材料(而非直接使用人工标注答案)。这是一次性的预处理开销,实际训练过程与标准微调完全相同。相比另一种基线方法OPSD每道题需要采样8次候选答案,MIXSD的额外成本要小得多,论文中将其描述为"可接受的一次性预处理代价"。

Q3:灾难性遗忘问题在大语言模型微调中有多普遍,之前有没有其他解决方案?

A:灾难性遗忘是语言模型微调中普遍存在的问题,并非个别现象。此前已有多种应对方案:弹性权重巩固(EWC)等正则化方法通过约束关键参数的改变幅度来保护原有能力;ROME和MEMIT等知识编辑方法尝试精准定位并只修改与特定知识相关的参数;检索增强生成(RAG)则完全绕开修改模型参数,在推理时临时引入外部知识。这些方法各有优缺点,MIXSD的独特之处在于从训练数据本身的分布出发,直接降低学习过程对模型参数的破坏性冲击。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。