![]()
这项由浙江大学与阿里巴巴集团联合开展的研究,以预印本形式发布于2026年5月28日,论文编号为arXiv:2605.30260v1,收录于计算机科学·计算与语言(cs.CL)方向。感兴趣的读者可以通过该编号在arXiv平台查阅完整论文。
每个人都有过背课文的经历。有时候你觉得自己已经背得差不多了,心里觉得"应该没问题",但真正开口的时候,偏偏在某个词上卡壳,然后整段话就像多米诺骨牌一样全垮了。大模型也面临着完全相同的困境——而这篇研究,就是在认真研究它到底是怎么"背"东西的,以及为什么会在某个关键位置上翻车。
说到大模型(也就是我们熟悉的ChatGPT、文心一言这类AI),它们的知识是在训练过程中"固化"到自身参数里的,就像一本厚厚的百科全书被压缩进了模型的神经网络中。但问题是,现实世界的知识是不断变化的:新发现的药物、最新的法规条文、不断更新的产品信息……这些内容不可能每次都重新训练整个模型,那样代价太高了。于是,研究者们开发了一种叫做"LoRA"的技术——可以把它理解为给大模型插一个"知识扩展卡",只训练这张小卡片,而不动原来的大模型,就能让它学会新知识。这种方式便宜、快速、灵活,因此被广泛使用。
然而,一个关键问题始终没有被认真回答:这张"知识扩展卡"到底能装多少东西?它是按什么规律工作的?当它说"记住了"的时候,真的记住了吗?
浙大与阿里的研究团队决定用科学的方式认真丈量这件事。他们把LoRA当作一个精密的测量探针,系统地研究它的记忆边界和内在机制,最终给出了三项原创性成果:一条描述记忆能力边界的"参数记忆定律",一个揭示记忆成功与失败分界线的"确定性相变"理论,以及一种能让记忆效率大幅提升的新训练方法"MemFT"。
一、给AI装"知识扩展卡":LoRA到底是什么
要理解这项研究,首先得搞清楚LoRA是怎么工作的。大模型的参数就像一栋高楼里密密麻麻的管道——改动任何一根都可能牵连全局,代价极高。LoRA的思路是:不改原来的管道,而是在旁边并联一条细细的支路,让新知识通过这条支路流动。这条"支路"由两个小矩阵(用字母A和B表示)组成,它们相乘后形成一个低秩的修正量,叠加到原来的输出上。整个过程只训练这两个小矩阵,原来的大模型完全不动。
这里有一个关键参数叫做"秩"(rank,用字母r表示)。秩越大,这条支路就越"宽",能够存储的信息就越多,但需要训练的参数也越多。这就像背包的容量——背包越大,能装的东西越多,但背包本身也越沉。研究团队正是通过调节这个"背包大小"来系统探索记忆边界的。
研究任务的设置也非常精巧:给模型一个"问题"作为触发键,要求它精确复现对应的"答案"内容。答案只能从模型自身参数中提取,不能靠外部检索。这就像把一本书的内容压缩写进大脑,之后合上书本,只凭记忆一字不差地背出来——这正是研究要求的"精确参数记忆"。
二、记忆的物理定律:参数越多记得越多,但有代价
研究团队用两种测试场景做了大量实验。第一种叫"长文本记忆压力测试":把一段长文本中的部分词汇随机替换成乱码,替换比例从0%到100%不等,这样就能制造出从"完全有意义的自然文本"到"完全随机的乱码序列"的各种难度梯度,然后要求模型精确记忆这些内容。第二种叫"电话簿测试":让模型记忆大量"姓名→电话号码"这样的键值对,考查高密度短序列记忆能力。他们在两款8B规模的模型(Qwen3和Llama3.1)上,对不同的LoRA秩r和不同的序列长度l做了大规模扫描实验。
当他们把实验数据画在坐标图上时,发现了一件非常整齐的事情:在双对数坐标系中(也就是把两个坐标轴都取对数),所有的数据点都近乎完美地排列在一条直线上。这意味着,"损失减少量"(即模型记忆效果的提升幅度)与LoRA秩和序列长度之间存在一种干净的幂律关系。
他们把这个规律命名为"参数记忆定律",用公式表达就是:ΔL = C · r^α · l^(–β) + b。用大白话翻译这个公式:模型的记忆增益(ΔL)随着LoRA的秩(r)增大而增大,随着需要记忆的文本长度(l)增大而减小,而且这两种关系都不是简单的线性关系,而是幂律关系。其中,α叫做"容量指数",描述秩的提升对记忆能力的放大效果;β叫做"长度惩罚指数",描述文本越长记忆难度增加有多快;C是一个与模型和数据特性有关的常数。
更令人印象深刻的是,这条规律的拟合效果非常好。研究团队用R?(决定系数,满分1.0说明完美拟合)和MAPE(平均绝对百分比误差,越低越好)来衡量,结果在所有测试场景下R?均超过0.98,MAPE也保持在很低的水平。无论是纯自然语言文本、完全随机的乱码,还是结构化的电话簿数据,同一条公式都能准确描述记忆行为。这就好比发现了一条"记忆的物理定律"——就像物理学中的质能方程E=mc?一样,用简洁的公式统一描述了表面上千差万别的现象。
这条定律告诉我们一些重要的事情:首先,记忆能力的提升是有边界的,不是无限叠加秩就能无限记忆的;其次,文本越长,记忆所需的参数量就呈幂律上升,代价越来越高;此外,这条规律对不同模型、不同数据类型都成立,说明它反映了某种深层的普遍机制,而不是特定模型的偶然现象。
三、平均分的谎言:损失低了,不代表真的记住了
发现了参数记忆定律之后,研究团队又注意到了一个让人困惑的现象:有时候,模型的平均损失(一个衡量"预测准确程度"的指标,损失越低说明预测越准)已经降到了接近零,理论上应该记得很好了,但实际让它背出来,却基本上一塌糊涂,准确率趋近于零。
这是怎么回事?以背课文为例,假设一篇课文有100个字,其中99个字你都能流利背出,但有一个字你每次都卡壳。如果用"平均得分"来衡量,99%的准确率听起来相当不错。但背课文是一个连贯的过程——你在那个字上卡壳,后面的内容就全乱了,实际效果是整段背诵失败。大模型的文本生成也是同样的道理:它是一个字一个字往后生成的,一旦某个位置预测错了,错误会影响到下一个字的预测,然后一错再错,整段输出就崩溃了。这个现象被研究团队命名为"损失-准确率错位"。
研究团队深入分析了每个位置的预测概率(即模型认为"这个位置应该是这个字"的概率有多大)。他们发现,文本中总有一小部分位置,不管把LoRA的秩调得多高,这些位置的预测概率就是提不上去,始终低于0.5。他们把这些位置叫做"顽固token"。
更关键的发现来了:这些顽固的位置,是整段文本背诵失败的根源。研究团队统计发现,第一个顽固位置出现的位置,与实际背诵时第一个出错位置之间的相关性高达斯皮尔曼ρ = 0.908——这是一个极高的相关系数,意味着只要找到第一个顽固位置,就几乎能精准预测背诵会在哪里失败。更有意思的是,这些顽固位置高度集中:在一组实验中,位置153这一个点就贡献了全部失败案例的28%,可见这种脆弱性是极度局部化的,而不是均匀分散的。
四、0.5这条线:记忆成功与失败的分水岭
发现了顽固token的存在之后,研究团队进一步问:有没有一个清晰的临界点,能够明确区分"记住了"和"没记住"?
答案正是那个预测概率0.5。
道理其实很简单。大模型在生成文本时,用的是"贪心解码"——在每个位置,选择概率最高的那个词作为输出。如果正确答案的预测概率超过0.5,那么它就一定是概率最高的那个词(因为所有其他词加在一起的概率之和不超过0.5,单独来看没有哪个词能超过0.5),所以贪心解码一定会选择正确答案。反过来,如果正确答案的概率低于0.5,那就意味着存在其他候选词有更高的可能性胜出,正确答案随时可能被错误答案取代。
从损失值的角度看,预测概率0.5对应的交叉熵损失值恰好是ln(2)≈0.693。于是,这条0.693的损失线,就成了记忆状态的分界线:高于这条线(即预测概率低于0.5),是"无序相",记忆处于混沌状态,随时可能失败;低于这条线(即预测概率高于0.5),是"有序相",记忆处于稳定状态,在贪心解码下可以保证精确输出。
这个发现有一个非常漂亮的实践意义:它解释了为什么参数记忆定律需要排除那些"已经饱和"的样本——具体来说,排除损失已经低于0.69的样本。因为这些样本已经处于有序相,再继续分析它们的记忆增益,会干扰对整体规律的观察。这个数值0.69,正是从理论推导中自然浮现出来的,而不是人为设定的。两个独立的分析路径(经验规律和理论推导)殊途同归,相互印证,使得这个结论格外可靠。
五、MemFT:把训练预算用在刀刃上
有了对记忆机制的深刻理解,研究团队顺理成章地提出了一种更好的训练方法——MemFT(Memorization-oriented Fine-Tuning,面向记忆的微调)。
传统的SFT(监督微调)在训练时,对所有位置的词一视同仁,每个位置都分配同样的"学习力气"。但这其实很浪费:那些已经学得很好、预测概率远超0.5的词,根本不需要继续强化;而那些顽固词——预测概率始终低于0.5的位置——才是需要集中火力攻克的对象。把力气平摊给所有词,相当于把大部分资源浪费在了"已经会的"上面,而真正需要帮助的地方却没有得到足够的关注。
MemFT的核心思路是:只对预测损失仍然高于临界值0.693的词施加训练梯度,那些已经过关的词就直接跳过。这样,有限的训练预算就能精准地集中在最薄弱的环节上。
研究团队在此基础上设计了两个版本。第一个版本叫MemFT-OT(仅阈值版),实现非常干净:凡是损失超过临界值的词就计入损失,低于临界值的词直接忽略,没有任何额外的超参数。第二个版本叫MemFT-SW(自适应滑动版),在MemFT-OT的基础上增加了两种精细化机制。
第一种机制叫"样本内空间滑动"。当模型在某个位置出错时,该机制会找到第一个出错的位置作为"锚点",然后用指数衰减的方式加强对锚点附近区域的关注,让训练重点聚焦在错误刚刚发生的上下文中。这有点像语文老师改作文时,在你写错的地方重点标注,而不是把全篇每个字都平均地细看一遍。如果这个锚点长期没有进步、一直卡在同一个位置,训练窗口会自动扩大,增加覆盖范围,防止陷入僵局;一旦锚点前进了,窗口重置,重新聚焦新的弱点。
第二种机制叫"批次间时序课程"。这是一种渐进式的训练策略:训练初期只处理最简单、最短的样本,随着训练推进,逐渐引入更复杂、更长的样本。这就像读书时先学简单的词,再学复杂的句子,最后才读长篇文章——循序渐进,让模型先在简单任务上建立信心,再挑战更难的内容。
六、实验结果:MemFT的实际效果如何
研究团队在两个模型(Qwen3-8B和Llama3.1-8B)上,用SFT、MemFT-OT和MemFT-SW三种方法做了系统对比实验。
在长文本记忆压力测试中,一个有趣的规律出现了:当LoRA的秩比较小(资源有限)时,MemFT-SW的表现更好,因为它的精细化滑动机制能在有限资源下最大化地攻克顽固位置;当秩比较大(资源充裕)时,MemFT-OT反而表现更为突出,它以更直接的方式快速把所有顽固词拉过0.5这条线,在Llama模型的最高秩配置下甚至达到了100%的完美记忆准确率。
在电话簿测试(短序列精确键值对记忆)中,MemFT-SW在几乎所有秩的配置下都保持着稳定的领先,在相对较低的参数预算下就能率先达到100%的精确匹配准确率,而标准SFT在低参数预算下往往无法做到完美记忆。
两种MemFT变体在总体上都显著超越了标准SFT,印证了"把训练预算集中在最薄弱环节"这一思路的有效性。
研究团队还做了一个额外的实验,探究MemFT是否只是擅长死记硬背、却牺牲了理解和泛化能力。他们设计了一个"线性规律学习"基准:让模型学习一个数学函数f(x,y)=3x+5y+7,用500个训练样本训练后,在100个"见过的样本"(测试记忆)和100个"没见过的新样本"(测试泛化)上分别评估。结果发现,MemFT在记忆任务上大多与SFT相当,但在泛化任务上的准确率比SFT高出7%到15%。研究团队认为,这是因为MemFT减少了对"已经会的"内容的过度强化,从而避免了模型过于僵化地记死某些内容,反而让它在新情况下更灵活。
七、这些研究意味着什么:精确记忆的价值
研究团队列举了许多需要"精确参数记忆"的实际场景。这类场景的共同特征是:任何一个字符的错误都会导致严重后果。个人账号密码、法律条文的精确措辞(例如欧盟GDPR第5(1)(a)条的原文)、医疗编码(如ICD-10诊断代码E11.9)、模型水印字符串、云服务配置端点、LaTeX数学公式源码、软件激活密钥……这些场景下,"大概记住了"远远不够,必须一字不差。
这项研究的意义在于,它不仅揭示了LoRA参数记忆的边界和机制,更提供了一套可操作的工具:用参数记忆定律预测在给定秩和文本长度下能达到的记忆效果,用相变理论诊断模型在哪个位置存在脆弱点,用MemFT训练方法在相同参数预算下取得更高的记忆保真度。
研究团队也坦诚地指出了研究的局限性。目前的实验都集中在8B规模的模型上,参数记忆定律在更小或更大规模的模型上是否同样成立,还有待验证。0.5的相变阈值是针对贪心解码推导出来的,如果使用随机采样等其他解码方式,这个临界值可能需要重新计算。此外,对泛化能力的分析目前还比较初步,没有全面评估MemFT对开放式推理等更广泛能力的影响。
归根结底,这项研究做的事情是:把"AI到底能记住多少东西、是怎么记的、为什么记不住"这样一个长期模糊的问题,用严格的实验和干净的理论给出了系统性的回答。它就像给AI的记忆能力做了一次全面的体检,不仅测出了"容量上限",还找到了那个让整段记忆崩溃的关键脆弱点,并给出了针对性的强化方案。
对于普通用户来说,这项研究的影响可能不会立刻显现在你每天使用的AI产品上,但它为未来更可靠的AI知识更新奠定了基础。你在日常生活中越来越依赖AI帮你处理精确信息——无论是查询正确的药物剂量、生成准确的合同条款,还是记住你的偏好设置——背后需要的,正是这种能够精确、稳定、可验证地存储和提取信息的参数记忆能力。这项研究迈出了理解和改善这种能力的重要一步。
如果你对这个话题感兴趣,可以在arXiv平台搜索编号2605.30260找到完整论文,其中包含大量详细的实验数据和推导过程。
Q&A
Q1:参数记忆定律是什么,它有什么实际用处?
A:参数记忆定律是研究团队发现的一条幂律公式,描述了LoRA微调时"记忆增益"与LoRA秩(参数量)和文本长度之间的关系:秩越大、文本越短,记忆效果越好,而且这种关系在不同模型和不同类型数据上都高度一致,R?超过0.98。实际用处在于,它让我们可以在训练之前就预测:给定多少参数、面对多长的文本,大约能达到什么程度的记忆效果,从而更合理地规划资源。
Q2:为什么平均损失很低但模型还是背不出来?
A:因为大模型是一个字一个字顺序生成的,某些特定位置(顽固token)的预测概率始终低于0.5,意味着在那个位置正确答案输出的概率不占多数,很容易被错误答案取代。一旦某个位置出错,后续所有位置的预测都会受到影响,像多米诺骨牌一样连续出错。平均损失低只是因为大多数"容易"的位置都预测准确,但这些少数几个顽固位置却足以让整段输出完全崩溃。
Q3:MemFT与普通微调相比到底好在哪里?
A:普通SFT对所有位置的词分配同等训练力度,大量资源浪费在了那些"已经学会"的简单词上。MemFT的核心改进是:只对预测损失仍高于临界值0.693(对应预测概率低于0.5)的词集中施加训练,跳过已经学好的词。这样有限的训练预算就精准地投向最薄弱的环节。实验表明,MemFT在相同参数预算下能达到更高的记忆准确率,在低秩(参数少)的情况下优势尤为明显,而且并不损害模型的泛化能力,反而略有提升。





京公网安备 11011402013531号