当前位置: 首页 » 资讯 » 科技头条 » 正文

路特格斯大学研究团队找到了巨大激活值的诞生地

IP属地 中国·北京 科技行者 时间:2026-05-19 22:19:45


这项由路特格斯大学(Rutgers University)、韦克福里斯特大学(Wake Forest University)与Meta AI联合开展的研究,发表于2026年第43届国际机器学习大会(ICML 2026),会议地点为韩国首尔,论文收录于PMLR第306卷。有兴趣深入阅读原文的读者,可通过论文编号arXiv:2605.08504v1查询完整内容。

如果你曾经用过ChatGPT、文心一言或任何一款AI聊天工具,你其实已经在享受大语言模型带来的便利。然而,这些庞大而复杂的系统内部究竟发生了什么,长期以来都像一个黑盒子,即使是研究者也不完全清楚。这项研究,就是试图打开黑盒子的一次尝试——而且,它找到了一个出人意料的发现:在模型的深处,有一个特定的"关键层",在那里,某些神秘的"巨大激活值"突然被点燃,并从那一刻起,如影随形地贯穿整个模型的运算过程。

要理解这件事的意义,可以把大语言模型想象成一条流水线上的工厂。原材料(你输入的文字)从流水线一端进入,经过数十道工序(模型的每一层),最终在另一端输出产品(模型的回答)。研究团队发现,在这条流水线的某一道工序上,有一台机器会突然把某个零件的规格放大几百甚至几千倍。这个被放大的零件,此后会一路跟随产品流转,对后续每一道工序都产生深刻影响。这台"异常放大机器"所在的工序,就是研究者命名的"巨大激活涌现层",英文缩写为ME Layer(Massive Emergence Layer)。

更出人意料的是,这个现象并不是某一款模型的特有怪癖,而是在Qwen3、LLaMA、Mistral、DeepSeek等多个主流大语言模型家族中普遍存在,仿佛是所有现代大模型共同遵循的某种"隐秘规律"。研究团队不仅发现了这个规律,还进一步弄清楚了它是如何产生的、会带来什么后果,并提出了一种简单有效的干预方法,在多项任务上持续提升了模型表现。下面,就跟随研究团队的侦查足迹,一步步揭开这个"总开关"的真面目。

一、什么是"巨大激活值",为什么我们要关心它

在理解这项研究之前,需要先了解大语言模型内部是如何传递信息的。每一段文字输入模型后,会被拆分成一个个"词元"(token),每个词元在模型的每一层都对应一组数字,这组数字可以理解为该词元在这一层的"身份信息",研究者称之为"隐藏状态"。随着信息在层与层之间流动,这些数字会不断被更新和变换。

通常情况下,流水线上每个词元的数字规模大致相当,彼此相差无几。然而,研究者在观察模型内部时,发现了一个奇怪的现象:在某一层,某个特定词元(通常是输入文字的第一个词元)的数字突然暴增,幅度高达其他词元的几百乃至几千倍。打个比方,如果把每个词元的信息量比作一杯水,那么在这一层,这个特殊词元的杯子突然变成了一个游泳池。这就是所谓的"巨大激活值"。

这个现象最早在GPT-2时代就被学者注意到,此后陆续有研究表明它会影响模型压缩、推理能力和注意力分配。然而,一个根本性的问题始终没有被解答:这个"游泳池"究竟是怎么形成的?是从一开始就在慢慢积累,还是在某一个关键时刻突然爆发的?而这正是本研究的起点。

二、侦查现场:巨大激活值从哪一层冒出来的

研究团队对Qwen3-4B模型的每一层输出进行了详细测量,追踪每个词元的信息量随着层数的变化趋势。结果一目了然:在绝大多数层,第一个词元的信息量与其他词元大致相当,波澜不惊。但是,在第7层,第一个词元的信息量突然急剧攀升,就像一条平静的河流忽然遇到了断崖,形成了一道壮观的瀑布。此后,无论经过多少层,这个词元的信息量都维持在极高的水平,几乎纹丝不动。

这个发现的关键意义在于,它说明巨大激活值并不是日积月累、缓慢形成的,而是在某一个特定层"一次性点燃"的。研究者把这个层称为ME Layer,也就是巨大激活值的"诞生地"。而点燃之后,由于模型的每一层都有一条"残差连接"通道——可以理解为一条旁路,让信息不经过当前层的处理直接传递到下一层——这个巨大的激活值就通过这条旁路,被完整地"搬运"到了后续的每一层,一直延续到模型输出。

值得关注的是,这一规律在研究团队测试的所有主流模型中都得到了印证,包括Qwen3-8B、Qwen2.5-7B、LLaMA 3.1-8B、Mistral-7B和DeepSeek-llm-7b-chat等。不同模型的ME Layer位置略有差异,但同一家族的模型往往在相同的层产生这一现象,例如Qwen3-4B和Qwen3-8B的ME Layer都在第7层。这种跨模型的一致性,强烈暗示背后存在某种与模型架构深度绑定的共同机制,而不是某款模型训练过程中的偶然产物。

三、解剖"点火装置":RMSNorm与FFN的联手作用

发现了"诞生地"之后,研究团队自然要追问:在ME Layer内部,究竟是哪台"机器"引发了这场爆炸?通过对ME Layer内部各个组件的逐一解析,研究团队将目光锁定在了两个关键角色身上:RMSNorm和FFN。

RMSNorm是一种"归一化"操作,可以理解为一道质量检验工序,它的作用是对每个词元的信息进行标准化处理,确保数值不会太大或太小。但它的处理方式并不均匀——它会对信息的不同"维度"施加不同的放大系数,某些维度被大力放大,另一些则被压缩。研究团队发现,在ME Layer,这道质量检验工序对第一个词元的处理方式与其他词元截然不同。具体来说,第一个词元的信息量,在经过ME Layer的RMSNorm之后,会大幅集中在那些放大系数最大的维度上,整个信息结构被高度压缩和放大,与RMSNorm的放大系数分布高度吻合——而其他词元则没有这种现象。

如果说RMSNorm是助燃剂,那么FFN(前馈神经网络)才是真正的点火器。FFN是每一层中负责对信息进行深度变换的核心模块,可以理解为流水线上最重要的加工机器。研究团队发现,在ME Layer,第一个词元经过FFN三个子模块(up_proj、gate_proj、down_proj)处理后,其信息量集中在极少数方向上的程度远超其他层,这三个子模块的放大效应在ME Layer同时达到峰值,共同造就了最终的巨大激活值。换句话说,RMSNorm先把第一个词元的信息"预处理"成一种特殊形态,FFN再对这种形态进行强力放大,两者相互配合,一起"点燃"了巨大激活值。

为了验证这两个组件各自的贡献,研究团队还分别做了"拆除实验"。当他们把ME Layer的FFN移除后,巨大激活值虽然还会短暂出现,但很快就消散了,无法在后续层中持续存在;当他们把ME Layer的RMSNorm移除后,巨大激活值依然存在,但幅度显著缩小。这说明FFN是生成和维持巨大激活值的主力,而RMSNorm则是调控其规模的关键调节器,两者缺一不可。

四、"游泳池"的另一个秘密:方向固化与注意力僵化

发现了巨大激活值的诞生机制之后,研究团队进一步追问:这个"游泳池"在后续的层中,究竟在做什么?它携带的信息发生了什么变化?

通过对比不同输入下第一个词元在ME Layer之后各层的隐藏状态,研究团队发现了一个令人印象深刻的现象:无论输入什么内容——无论是数学题、常识问答还是开放式对话——这个词元的隐藏状态在ME Layer之后几乎保持不变。不仅是数值大小保持稳定,就连信息的"方向"——可以理解为这组数字所指向的意义空间——也高度一致,与输入内容几乎无关。研究者用余弦相似度(一种衡量两个方向之间接近程度的指标)来量化这种一致性,结果显示,不同输入之间的相似度在ME Layer之后几乎是完美的1,这意味着这个词元的隐藏状态完全丧失了对输入内容的敏感性。

这种现象意味着什么?在模型的自注意力机制(self-attention)中,每个词元会生成"查询"(Query)和"键"(Key)两种信号,模型通过计算所有词元的查询与键之间的匹配度,来决定每个词元应该"关注"哪些其他词元。由于这个特殊词元的隐藏状态方向几乎固定不变,它生成的键也几乎固定不变,任何其他词元的查询与它相乘,得到的匹配分数都会非常相近,且因为它的数值规模远超其他词元,这个分数往往会异常高。结果就是,模型在做注意力计算时,会把大量注意力权重"倾倒"在这个词元上,无论实际上这个词元是否与当前任务相关。这就是另一个已被研究者广泛注意到的现象——"注意力沉降"(attention sink),即模型的注意力异常集中在少数几个词元上,通常是序列的第一个词元。

研究团队的观察进一步揭示,注意力沉降现象正是在ME Layer之后的那一层开始出现的,且其注意力权重矩阵与ME Layer产生的巨大激活值具有相同的低秩特性(可以理解为信息高度压缩在少数方向上)。这一发现把巨大激活值与注意力沉降两个现象串联成了一条因果链:是巨大激活值导致了方向固化,方向固化又导致了注意力沉降,而不是此前部分研究者认为的注意力沉降源自softmax运算本身的数学特性。这是一个视角上的根本性转变,把问题的根源从注意力机制拉回到了更早的隐藏状态层面。

五、解法出炉:"权重引导维度遮蔽"如何给模型松绑

明确了问题的根源之后,研究团队自然想到了干预方案。核心思路是:既然方向固化的根本原因在于RMSNorm对某些维度的过度放大,那么能不能在信息进入注意力模块之前,把那些被过度放大的维度适当压制住,从而恢复信息方向的多样性?

这个方法被命名为WeMask,即"权重引导遮蔽"(Weight-guided Masking)。具体做法是,在ME Layer之后的每一层,在隐藏状态进入注意力模块之前,先查看该层RMSNorm的放大系数,找出放大系数最大的那一部分维度,然后把第一个词元(即巨大激活值所在的词元)在这些维度上的数值直接清零。清零的比例由一个叫做"遮蔽率"的参数控制,比如遮蔽率为0.1,意味着清零放大系数最大的10%的维度。

这个操作的精妙之处在于它的精准性。它并不是随机删除信息,也不是删除数值最大的维度,而是专门针对那些被RMSNorm过度放大、进而导致方向固化的维度进行干预。研究团队通过对比实验证明,随机遮蔽维度或遮蔽激活值最大的维度,都会严重损害模型性能,而只有按照RMSNorm权重来选择遮蔽维度,才能在修复方向固化问题的同时保留信息的有效结构。这就好比给一个被某几根超粗弦主导音色的吉他重新调音,既不能随意剪断琴弦,也不能只剪最粗的,而要根据乐器的构造选择最合适的调整方式。

在实际操作上,WeMask有两种使用方式。一种是"无需训练"的推理时干预,即直接在模型推理过程中插入这个遮蔽操作,不改变任何模型参数;另一种是与微调训练相结合,在训练过程中始终应用这个遮蔽操作,让模型在更健康的表示空间中学习。训练时,遮蔽操作被应用于ME Layer之后的所有层;推理时,针对知识泛化类任务同样应用于所有后续层,而针对数学推理和安全对齐等需要精细计算的任务,则只在ME Layer本身应用遮蔽,以避免对后续专业化计算的干扰。

六、实验成绩:从指令跟随到数学推理,效果普遍提升

为了验证WeMask的实际效果,研究团队在多个任务和模型上进行了系统性测试。以Qwen3-4B为核心实验对象,测试涵盖了MMLU(综合知识问答)、PIQA(物理常识推理)、ARC-C(科学推理)、MathQA(数学问答)、StrategyQA(策略性推理)、GSM8K(小学数学应用题)、AIME 2022-2024(高中竞赛数学)、Math500(高等数学)、SorryBench(安全拒绝评估)和XSTest(安全行为评估)等一系列基准测试。

在指令跟随任务上,仅使用标准微调的基线模型在这五个基准的平均分为64.43分。加入推理时无需训练的WeMask(遮蔽率0.1)后,平均分提升至64.91分;与微调训练结合(遮蔽率0.1)后,平均分达到64.92分,在MMLU上达到55.01分,超过了所有其他配置。值得关注的是,当遮蔽率被设置为1.0(即完全遮蔽所有选定维度)时,模型性能大幅崩溃,这与研究团队关于"适度干预"而非"彻底消除"的理论判断完全吻合。

在数学推理任务上,标准微调基线在GSM8K上得分20.26,而加入WeMask后,遮蔽率0.7的训练方式将这一分数提升至22.14;在极具挑战性的AIME竞赛题上,遮蔽率0.3的训练方式将分数从5.92提升至8.15。在安全对齐任务上,标准微调往往会让模型变得过于保守、频繁拒绝合理请求,但引入WeMask后,模型在XSTest上的表现从66.22提升至最高74.00,说明减少表示僵化确实有助于模型在安全性与帮助性之间取得更好的平衡。

研究团队还将WeMask应用于强化学习训练范式。在使用DPO(一种偏好优化方法)进行安全对齐训练后,加入WeMask推理干预的模型在XSTest上达到74.96分,优于单纯DPO训练的72.30分;在使用GRPO(一种数学推理强化学习方法)训练后,加入WeMask的无训练版本在AIME上将分数从7.40提升至9.27。这说明WeMask的效果并不局限于监督微调,在更复杂的训练范式下同样有效。

此外,研究团队还在LLaMA 3.1-8B-Instruct和Qwen3-8B上测试了WeMask,结果同样显示出与微调训练结合时的稳定性能提升,证明这一方法具有跨模型架构的通用性。与此同时,研究团队还将WeMask与直接修改注意力机制以消除注意力沉降的方法(如门控注意力模块)进行了对比。结果显示,WeMask在微调后的表现普遍优于这类方法,这进一步支持了"从隐藏状态层面入手比从注意力机制层面入手更有效"的判断。

七、注意力沉降的新解读:适度保留比彻底消除更明智

最后,研究团队对注意力沉降现象提出了一种新的理解框架。传统观点认为,注意力沉降是一种有害的模型病态行为,应当被彻底消除。但这项研究的实验结果却表明,完全消除注意力沉降会损害模型性能,而适度降低其主导程度则能带来提升。

研究团队的解释是,注意力沉降实际上是巨大激活值在注意力层面的投影,它携带的是一种稳定的"全局参考信号",对模型计算具有一定的功能价值,类似于一个共享的背景基准。问题不在于它的存在,而在于它的隐藏状态方向过于僵化,导致这个基准信号对所有输入都一视同仁,无法随着内容的变化而灵活调整。WeMask所做的,正是在保留这个全局参考信号的前提下,放松它的方向僵化程度,让它能够与具体输入内容产生更多交互,从而在保持结构稳定性的同时,恢复注意力机制对输入的自适应能力。

由此可见,正确的策略不是"消灭"注意力沉降,而是"调节"它。这个认识对于未来大语言模型的设计和优化,或许具有重要的参考价值——在追求更灵活的注意力机制的同时,也要保留模型内部某种必要的结构性稳定。

说到底,这项研究最吸引人的地方,在于它用一个统一的故事把几个看起来毫不相关的现象——巨大激活值、方向固化、注意力沉降——串联成了一条清晰的因果链条。而且,弄清楚这条链条之后,研究者设计出的干预方法既简单又有效,无需修改模型架构,无需额外的计算资源,只需在隐藏状态进入注意力模块之前,对特定维度轻轻遮一下,就能在多项任务上带来稳定的性能改善。这告诉我们,有时候,理解问题的根源本身,就已经蕴含了解决方案的一半。

当然,这项研究也留下了一些尚待探索的问题。研究者注意到,在模型的最后两层,第一个词元再次出现了巨大激活值,但这一现象背后的机制与中间层不同,目前还没有清晰的解释。此外,WeMask目前主要在训练后阶段(微调和强化学习)被验证有效,在大规模预训练阶段是否同样适用,还是一个开放的问题。如果你对这些未解之谜感兴趣,不妨通过arXiv:2605.08504v1找到完整论文,亲自深入探索。

Q&A

Q1:大语言模型中的"巨大激活值"是什么意思?

A:大语言模型在处理文字时,每个词元在每一层都会对应一组数字来表示其含义。通常情况下,各词元的数字规模大致相当。但"巨大激活值"指的是,在某一层,某个特定词元(通常是输入的第一个词元)的数字突然暴增,幅度可达其他词元的几百乃至几千倍。这种异常放大的现象就是巨大激活值,它会影响模型后续的信息处理方式。

Q2:WeMask方法是如何工作的,它会不会破坏模型原本的能力?

A:WeMask的核心做法是,在巨大激活值所在词元的隐藏状态进入注意力模块之前,找出该层RMSNorm放大系数最大的一批维度,然后把这个词元在这些维度上的数值清零。这个操作是精准定向的,并不随机删除信息,也不删除激活值最大的维度。实验表明,遮蔽率在0.1到0.3之间时,模型在多项任务上的表现普遍提升;只有当遮蔽率达到1.0(完全遮蔽)时,性能才会大幅下降,说明适度干预才是关键。

Q3:ME Layer(巨大激活涌现层)在不同模型里是否都存在?

A:是的,研究团队在Qwen3-4B、Qwen3-8B、Qwen2.5-7B、LLaMA 3.1-8B、Mistral-7B、DeepSeek-llm-7b-chat、Phi-3-mini等多个主流大语言模型中都观测到了ME Layer的存在。不同模型的ME Layer位置略有不同,例如Qwen3系列在第7层,Mistral和DeepSeek在第2层。同一模型家族的不同规模版本通常在相同的层出现这一现象,说明这是与模型架构深度绑定的普遍规律,而非个别模型的特殊现象。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。