当前位置: 首页 » 资讯 » 科技头条 » 正文

厦门大学团队找到了让AI"选择性失忆"的优雅方法,代价几乎为零

IP属地 中国·北京 科技行者 时间:2026-06-02 18:33:10


这项由厦门大学信息学院与人工智能研究院联合领导、厦门大学胶片学院及国防科技大学协同参与的研究,发表于2026年第43届国际机器学习大会(ICML 2026),论文编号为arXiv:2605.18879。

大型语言模型(也就是ChatGPT、LLaMA这类AI)的训练方式,就像是让一个孩子把整个图书馆的书都读一遍。读得越多,懂得越多,本来是好事。但问题来了:书里不只有百科全书和诗歌,还有各种隐私信息、有害内容、过时的错误知识。等孩子长大,你想让他"忘掉"其中某些不该记住的东西,才发现这件事比你想象的要难得多。

研究团队面对的正是这个难题。现有的"让AI忘事"方案要么代价极大——把AI推倒重来重新训练,就像因为孩子记了几条错误信息就让他重读十二年书;要么副作用严重——用一种粗暴的方式强行让AI忘掉某些内容,结果连带着把旁边的正常知识也一起损毁了,就像为了消除脑子里一段不好的记忆,把整块脑区都烧掉。

这支来自厦门大学的团队提出了一个完全不同的思路,他们把这套方法叫做ZeroUnlearn。他们的核心想法是:与其让AI"忘掉"敏感知识,不如把那些敏感知识"重新覆写",让AI在遇到危险问题时,输出的不再是有害答案,而是一种中性的、无意义的终止信号。更精妙的是,这个覆写过程可以做得极度精准,只动"需要动的那一小块",完全不影响AI其余的知识储备。

一、为什么"让AI忘事"这么难

先来理解一下AI是怎么存储知识的。现代大型语言模型内部有数十亿个参数,每个参数都是一个数字,知识就分散编码在这些数字的分布关系里。你没法打开AI的大脑,找到"法国首都是巴黎"这条记忆住在哪个格子里,然后把它单独删掉。知识是弥散的、交织的,像一张复杂的蜘蛛网,每一根丝都可能和多条知识有关。

目前常见的方案大概有两类。第一类是"梯度上升"(研究里简称GA),原理是:训练AI的时候,我们通过反复让它做对题、调整参数来让它学会知识;那忘掉知识,就反过来,把调整方向倒过来,让AI在这道题上变得越来越"错"。道理上行得通,但实际操作就像你用橡皮猛力擦掉试卷上一个字,结果把纸都擦破了,周围好几个字也跟着毁了。实验数据证明,GA让AI的"困惑度"(衡量语言模型正常程度的指标,越低越好)直接爆炸到超过1000,而原始AI只有七八左右——这基本意味着AI说话已经完全乱了套。

第二类是"微调"(FT),原理是:既然要忘掉旧答案,那就强行训练AI给出新答案。听起来温柔一些,但同样有灾难性副作用。在实验里,用这种方式处理后,AI对于"邻近知识"(和被删除知识相关但不应该被删除的知识)的保留率直接跌到了接近零——也就是说,为了删掉一条信息,AI把整片相关知识都一并丢失了。

研究团队由此看到了机会:现有方法的核心问题,是它们太粗糙,影响范围太大。能不能找到一把精确到毫米级的手术刀,而不是一把大锤?

二、从"知识编辑"里得到的灵感

这支团队的灵感来自另一个AI研究领域——"知识编辑"。知识编辑做的事是:当AI记错了或者记了过时的信息,怎么快速修正?比如AI以为某个城市的市长还是五年前那个人,那能不能只修改这条记录,而不重新训练整个模型?

研究者们意识到,知识编辑和知识遗忘其实是同一枚硬币的两面。编辑是"把A改成B",遗忘可以是"把A改成什么都不是"。顺着这个思路,ZeroUnlearn的核心思想就成形了:与其删掉危险知识,不如把它重新映射到一个安全的"终点"。

这个终点被设定为一个特殊标记,在语言模型里叫做"",也就是"句子结束"的信号。当AI遇到危险的输入,ZeroUnlearn想让它输出的不是有害答案,而是这个"句子结束"标记——相当于AI礼貌地闭嘴了。

但仅仅做到"输出EOS"还不够。如果AI内部对危险信息的表征(也就是它大脑里处理这个信息时形成的中间状态)还是原来那个样子,只是最后被强行拦截了,那危险知识其实还在那里,只是被压住了。ZeroUnlearn的更大野心是:不只改变输出,还要从根源上改变AI对危险信息的内部理解方式——要让它在内心深处就已经"不认识"这条危险信息了。

三、数学上的零空间:一个永不重叠的维度

现在进入ZeroUnlearn最核心的技术部分。研究团队借用了线性代数里的一个概念,叫做"零空间"(null space)。用一个非常直观的比喻来理解:假设你站在一个三维空间里,"危险知识"占据了某个特定的方向,比如正北方。零空间就是除了正北方之外所有其他方向组成的世界——只要你的行动发生在零空间里,就永远不会和正北方那条线相交,自然也就永远不会"唤醒"危险知识。

ZeroUnlearn的做法,是为AI的权重矩阵(你可以把它理解为AI大脑里存储知识的"配方本")设计一个特殊的变换操作。这个操作把对危险知识的处理方式压进了零空间——数学上保证了变换后的输出和原来危险知识的方向完全垂直,相似度为零。

具体来说,研究团队先对危险知识矩阵做了一个叫做"奇异值分解"(SVD)的操作,这本质上是把一个复杂的矩阵分解成几个有规律的部分,好比把一首复杂的交响乐拆解成小提琴声部、大提琴声部、长笛声部分别来看。通过这个分解,他们找到了危险知识所占据的"方向",然后构造了一个投影矩阵P,这个矩阵的效果就是:任何东西乘上它,都会被"投影"到和危险知识完全垂直的空间里去。

整个框架有三个同时工作的目标。第一个是"零目标":确保修改后的AI对危险知识的内部表征,和原来的危险知识在数学上夹角为九十度,两者毫无相似性。第二个是"遗忘目标":确保当AI遇到危险输入时,它确实输出那个中性的"句子结束"标记,而不是有害内容。第三个是"实用目标":在进行这一切操作的同时,AI对普通知识的处理能力必须保持不变——好比你修理了钢琴的某根琴弦,但整首曲子的其他音符还是能正常弹出来。

最令人惊喜的是,这三个目标被整合成一个数学优化问题后,研究团队找到了一个"闭合形式解"——也就是说,这个问题不需要反复试探、迭代求解,而是有一个像一元二次方程求根公式那样的直接答案。代入数字,一步算出,就得到了最优的权重修改方案。这使得ZeroUnlearn在处理少量样本时极为高效。

四、当需要忘掉的东西很多时怎么办

ZeroUnlearn的闭合形式解非常优雅,但它天然适合"少量遗忘"的场景。当需要同时删除成百上千条知识时,情况变得复杂了。

研究团队因此提出了ZeroUnlearn的升级版,叫做ZeroUnlearn-GD。这个版本改用了一种叫做"梯度下降"的迭代优化方式。如果说原版ZeroUnlearn是直接用公式算出答案,ZeroUnlearn-GD则是像用GPS导航一样,每走一步都判断一下当前方向是否正确,然后调整,再走,再调整,最终一步一步逼近目标。

这个升级版在数学上同样有严格的理论保障。研究团队证明了这个优化目标是一个凸函数——这在数学上意味着它只有一个最低点,没有"掉进局部陷阱"的风险,梯度下降一定能找到全局最优解。

两个版本各有适用场景:当只需要删除少量敏感信息时,用ZeroUnlearn的闭合解,速度极快;当需要批量处理大量样本时,用ZeroUnlearn-GD的梯度方案,虽然需要更多计算,但结果同样可靠。

五、AI的"知识体检":找到最需要动手术的地方

在真正进行遗忘操作之前,研究团队还解决了一个重要的前置问题:该改哪一层?

现代大型语言模型像一栋多层楼,每一层都在处理信息,而知识并不均匀地存在于所有楼层。研究团队采用了一种叫做"因果追踪"的诊断方法。原理是这样的:先给AI一个正常的提问,记录它的回答准确度;然后故意把输入里的关键词破坏掉(相当于把提问写错了),观察AI的准确度下降了多少;最后,逐层"修复"AI内部的激活状态,看修复哪一层能让准确度恢复得最多——恢复最多的那一层,就是这条知识最主要的"栖息地"。

通过对三个不同大小的模型(Llama-3.2-3B、Llama-3.1-8B、Qwen-3-4B)进行这种"体检",研究团队发现了一个有趣的规律:知识主要集中在模型中间偏前的某些连续层里,而不是均匀分布在所有层中。就像一栋楼里,档案室不是随机分布在每一层,而是集中在某几个特定楼层。找到这些楼层,手术就只在这里进行,其他楼层完全不受干扰。

值得一提的是,研究团队发现对于Llama系列模型,虽然知识的峰值效应在更底层,但直接修改底层会严重损害模型的整体能力。因此他们选择了"最后一个词"对应的峰值层(位于模型中段),这体现了工程实践和理论最优之间需要灵活权衡的一面。

六、实验说话:数字背后的故事

研究团队在三个模型上做了全面测试,用了三个知识数据集:MCF(一个专门测试事实知识的大型数据集)、ZsRE(一个关系抽取问答数据集)、MQUAKE(一个多跳推理数据集,被改造成单跳形式使用)。

考核指标分四项。"遗忘效果"看的是被删除的知识是否还能被AI答出来,数字越低越好;"泛化效果"看的是换一种问法,AI还是否会给出被删除的答案,同样越低越好;"特异性"看的是AI对周边正常知识的保留程度,越高越好;"困惑度"则衡量AI的整体语言生成质量,越低越好。

在"少量遗忘"场景下,研究团队用10个随机种子、每次随机抽取50个样本进行测试。在Llama-3.1模型上,ZeroUnlearn在MCF数据集上的遗忘效果达到了0%——也就是被删除的知识完全无法被答出。相比之下,ROME这类方法的遗忘效果几乎和没改过的原始模型一样糟糕(24.40%对比原始的24.60%),MEMIT稍好一些但也只降到了9.60%,AlphaEdit降到了0.20%。

但仅仅"忘得好"还不够,还要"不误伤"。GA虽然也能把遗忘效果降得很低,但代价是困惑度爆炸超过1000,特异性跌到接近于零——相当于把AI的大脑烧成了白板。FT同样如此,特异性在MCF数据集上直接归零。ZeroUnlearn的困惑度维持在13左右(原始模型是12.88),特异性维持在14到17之间,算是在彻底遗忘的同时,对正常能力损伤最小的方法。

在"大量遗忘"场景下,用1000个样本测试ZeroUnlearn-GD,结果同样出色。在Llama-3.2模型的MCF数据集上,遗忘效果同样达到0%,而AlphaEdit这个目前最好的竞争对手只能做到1.40%,MEMIT则是13.80%。ZeroUnlearn-GD的困惑度维持在13.05,特异性为12.41,在所有能达到完全遗忘的方法里,对模型能力的保护是最好的。

研究团队还对六个下游任务进行了测试,包括情感分析(SST)、多任务语言理解(MMLU)、语义匹配(MRPC)、语法判断(COLA)、文本蕴含(RTE)和自然语言推理(NLI)。结果显示,ZeroUnlearn处理后的模型在所有六项任务上,表现与未改动的原始模型在统计上没有显著差异,而GA和FT则在其中多项任务上出现了接近于随机猜测的崩溃表现。

七、用眼睛看见"遗忘"的发生

研究团队还提供了一种非常直观的验证方式:PCA可视化。PCA(主成分分析)可以把AI内部高维的信息处理状态,压缩到人眼能看懂的二维图。

图上有两种点:蓝色(青色)的点代表原始模型处理这些知识时的内部状态,红色的点代表修改后的模型处理同样知识时的内部状态。如果两种颜色的点混在一起,说明修改几乎没有效果,AI内部还是以同样的方式理解这些知识。如果两种颜色的点分开成两个不同的聚类,则说明AI对这些知识的内部表征已经发生了根本性的改变。

在图上,ZeroUnlearn的结果非常明显:红色点和蓝色点形成了两个清晰分开的聚类,相隔很远。而AlphaEdit和MEMIT的结果则是两种颜色的点大量重叠,意味着这些方法虽然在某种程度上改变了输出,但并没有从根本上改变AI对这些知识的内部编码。这个可视化结果从直觉层面印证了ZeroUnlearn"从内而外"彻底覆写知识的效果。

八、效率账单:花了多少时间和内存

实际部署一项技术,效率同样重要。研究团队测量了ZeroUnlearn在不同规模下的运行时间和内存占用,以Llama-3.2模型为基准。

SVD分解(构建零空间投影矩阵的步骤)本身非常轻量:即使遗忘样本从10个增加到1000个,SVD时间也始终低于0.3秒,内存仅从约13.8GB增加到14.1GB。端到端的完整流程时间随样本数量接近线性增长:10个样本约0.04小时,1000个样本约3.35到3.82小时。总内存稳定在约15到17.4GB之间。

对于一个不需要重新训练整个模型、只需要修改少数层参数的方案来说,这个效率是完全可以接受的。研究团队也指出,真正的时间瓶颈不在于那个闭合解的计算,而在于从模型里提取每个知识的"键值对"(也就是那些k和m向量)以及逐层更新权重的过程。

归根结底,这项研究做的事情,可以用一句话来概括:他们找到了一种方法,让AI可以精准地"从心里忘掉"某些知识,而不只是假装忘了,同时又确保AI的其他一切能力安然无恙。这背后的关键洞见是:遗忘不必是破坏,可以是重新映射;而重新映射可以发生在一个对原有知识"数学上完全正交"的空间里,从而在物理层面保证两者互不干扰。

对普通用户而言,这项研究的意义在于:未来当你希望某个AI产品删除你的隐私数据、修正它已知的错误信息、或者禁止它产生某类有害内容时,背后实现这一切的技术路径有望变得更快、更准、更安全,而不会以牺牲AI整体能力为代价。有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2605.18879查阅完整原文。

Q&A

Q1:ZeroUnlearn和普通的"让AI忘掉某些信息"的方法有什么本质区别?

A:普通方法(如梯度上升GA)是强行让AI在特定知识上变得越来越"错",但这会连带破坏周围的正常知识,就像用橡皮用力擦字把纸都擦破了。ZeroUnlearn则是把危险知识"重新映射"到一个数学上和原始危险知识完全垂直(正交)的空间里,从根本上改变AI对这些信息的内部理解方式,同时对其他知识的影响极小,甚至接近于零。

Q2:ZeroUnlearn能不能用来删除AI里某个真实人物的个人隐私信息?

A:理论上可以。ZeroUnlearn处理的是结构化的"知识三元组",即主语-关系-宾语这样的形式,只要能把隐私信息表达成这种格式(比如某人的住址、生日、联系方式),就可以用ZeroUnlearn将其从模型中精准清除。不过现实中个人隐私可能以更复杂的形式存在,需要更多工程适配工作才能实际部署。

Q3:ZeroUnlearn处理完的AI,真的完全不会再输出被删除的信息了吗?

A:在实验中,ZeroUnlearn在Llama-3.1模型上对MCF数据集实现了0%的遗忘效果,即完全无法输出被删除信息。但"泛化效果"指标显示,换一种问法时还有约4.6%的残留,说明极端情况下仍有极小概率泄露。研究团队通过中性目标状态的引入显著改善了这一问题,但彻底的100%全场景遗忘在技术上仍是开放挑战。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新