![]()
这项由纽约大学(New York University)完成的研究于2026年5月发表,论文编号为arXiv:2605.21803v1,有兴趣深入探究的读者可通过该编号在arXiv平台上查阅完整论文。
如果你曾经好奇过,为什么同一块面团,交给不同的面包师,最终烤出来的面包口感竟然截然不同——即便他们用的是同一个烤箱、同一份食谱,花的时间也差不多——那么这篇论文想告诉你的,正是AI训练领域中一个几乎一模一样的谜题。
故事的主角是大型语言模型(也就是驱动ChatGPT这类AI的技术核心),而谜题的关键,藏在一个长期被忽视的训练细节里:**优化器**。
一、被遗忘的"揉面手法":优化器究竟是什么
在AI模型的训练过程中,有三个要素长期被视为决定模型好坏的铁三角:模型有多大(参数数量)、用了多少数据、花了多少计算资源。研究者们根据这三个要素总结出所谓的"缩放定律"(Scaling Laws)——简单说,就是模型越大、数据越多、算力越强,性能就越好,而且这个规律相当稳定,可以用来预测。
但这套铁三角里,有一个东西一直被当作"不变量"悄悄忽略掉了,那就是优化器。
优化器是什么?打个比方,如果把训练AI比作揉面包面团,那么数据就是面粉和水,模型结构就是面团最终的形状模具,而优化器就是面包师揉面的手法。同样的材料和模具,有人用普通揉法,有人用法式折叠法,有人用机器搅拌——最终面包的内部气孔结构、口感层次会大相径庭,即便表面看起来都"烤熟了",外观相差无几。
纽约大学的这支研究团队就在追问这样一个问题:不同的"揉面手法"(优化器),会不会让同一个AI架构产生根本不同的内部结构?而且,这种差异会不会在验证指标(也就是模型测试成绩)上完全看不出来,却在更深层的表示空间里留下清晰的痕迹?
答案是:会的,而且差异之大超出预期。
二、给AI做"内部CT扫描":谱分析是什么
要理解研究团队的发现,得先搞清楚他们用的"CT扫描仪"——谱分析(Spectral Analysis)。
语言模型内部有一种叫做前馈网络(Feed-Forward Network,FFN)的结构,可以把它理解为模型处理信息时的"工作台"。每个词汇经过这个工作台时,都会被映射到一个高维空间里(可以粗略地想象成一个超级复杂的坐标系),然后模型在这个空间里进行各种计算和理解。
谱分析,本质上就是看这个坐标系里,信息是如何分布的。具体来说,研究者们会计算这个高维空间的"特征值分布"(Eigenspectrum)——可以把它想象成一个房间里的声音频谱分析:有些频率的声音很响亮(信息很集中),有些频率几乎是寂静的(信息很稀疏)。
基于这个频谱,研究团队使用了两种不同的"有效维度"衡量方式。第一种叫做"软秩"(Soft Rank),它更像是统计房间里所有频率的平均热闹程度,对那些微弱的声音也很敏感,反映的是信息在空间中的整体分散程度。第二种叫做"硬秩"(Hard Rank),它更专注于那几个最响亮的主要频率,衡量的是信息是否集中在少数几个主导方向上,对空间的有效利用更加敏感。
这两种指标可以统一在一个叫做"雷尼熵"(Rényi Entropy)的数学框架里——你不需要理解这个名字,只需要知道它提供了一把可以调节灵敏度的旋钮:旋钮拧向一边,你就更关注细微的弱信号;旋钮拧向另一边,你就更关注强势的主导信号。软秩和硬秩分别对应这把旋钮的两个特定位置。
研究团队还特别关注一个叫做"硬软秩不对称性"(Hard-Soft Rank Asymmetry)的指标,简单说就是软秩和硬秩之间的差距。差距越大,说明工作台上虽然有很多"频道"在运作(软秩高),但真正承担主要工作的强势频道却很少(硬秩低)——这意味着大量的空间维度其实是在"划水",没有被有效利用起来。
三、同一架构,截然不同的内部世界:核心发现
研究团队在两种规模的GPT风格语言模型上(一种约1.6亿参数,一种约3.5亿参数)做了大量实验。他们固定模型架构,只改变优化器,然后系统地比较不同"揉面手法"下模型内部的谱结构。
参与比较的优化器主要有四种。第一种是AdamW,这是目前业界使用最广泛的标准优化器,相当于最普通的揉面手法。第二种是Muon,它在每次更新参数时会做一种叫做"正交化"的处理,可以理解为揉面时特别注重让每个方向的力量都均匀分布、互不干扰。第三种是NorMuon,在Muon的基础上还加了逐神经元的归一化处理,管控更加精细。第四种是Dion,它也使用正交化更新,但可以通过调节一个"秩分数"参数来控制每次更新时动用多大比例的维度,从而让研究者能够精确地分离"正交化本身"和"更新维度数量"这两个因素的影响。
实验结果令人震惊。在扩展FFN宽度(也就是给工作台增加更多维度)时,各优化器的硬秩增长速度(以幂律指数β来衡量)出现了天壤之别。
对AdamW来说,整体硬秩缩放指数只有0.29,而Muon达到了0.82,NorMuon达到了0.80,高性能的Dion(秩分数1/2)也有0.79。换句话说,每当工作台宽度翻倍,Muon能把大约82%的新增空间转化为真正有效的主导工作维度,而AdamW只能转化不到30%——剩下的70%虽然"看起来存在",实际上却在打酱油。
软秩方面的差距则小得多,各优化器的指数集中在0.66到1.01之间,说明在"拓展整体信息分布面积"这件事上,优化器的差异不那么明显。
这种软硬秩的不对称性,对不同优化器来说差异极大。AdamW的不对称性高达0.37,而Muon和Dion(1/2)只有约0.14。换句话说,AdamW给工作台增加新维度时,主要是扩大了"背景噪声"的覆盖面,而不是真正增加了能干活的主力频道。Muon则几乎同步地增长两类容量。
四、用不同频率的词来检验:HEAD、MID、TAIL三个世界
语言中词汇出现的频率遵循一个叫做"齐夫定律"的规律——少数词极其常见(比如"的""了""是"),而大量词非常罕见(比如各种专业术语、地名、人名)。研究团队意识到,把所有词混在一起计算可能会掩盖重要差异,于是他们按词频把词汇分成三组:HEAD(最常见的那批词,占总使用量的约三分之一,但只有30种词汇类型)、MID(中等频率,约1215种词汇类型)和TAIL(低频词,约4.9万种词汇类型,但每种词本身出现得很少)。
这个分法揭示了一幅更细腻的图景。
在TAIL(低频词)区域,AdamW的硬秩缩放指数只有0.44,而Muon和NorMuon达到了惊人的1.02和1.04——几乎是线性增长,意味着每增加一倍工作台宽度,有效主导维度就几乎翻倍。两者的差距达到了2.3倍。
在MID(中频词)区域,差距更加悬殊。AdamW的硬秩指数只有0.24,而Muon和NorMuon分别达到0.93和0.95。
在HEAD(高频词)区域,差距相对较小,各优化器的指数在0.26到0.59之间,而且拟合质量也更差,意味着这个区域的规律性本身就不那么稳定。研究团队因此认为,MID和TAIL区域才是最能反映优化器差异的"诊断性区域"。
从AdamW切换到Muon时,MID区域硬秩指数的提升幅度(+0.69)是HEAD区域(+0.33)的约2.1倍,而TAIL区域的提升(+0.58)也远超HEAD。这说明Muon类优化器带来的最大收益,恰恰集中在AI最难学好的那些罕见词上——这对于语言模型来说意义重大,因为正是对罕见知识的掌握区分了平庸的模型和优秀的模型。
五、同样的考试分数,不同的学习方式:匹配损失不等于匹配结构
研究团队随后面对一个非常关键的质疑:会不会只是因为AdamW训练得不够久,才导致谱容量偏低?只要训练时间足够长,AdamW是不是也能达到同样的效果?
为此,他们设计了一个精妙的对照实验:把AdamW的训练步数从6000步延长到12000步,使其验证困惑度(衡量语言模型预测能力的指标,越低越好)与秩分数1/16的Dion在6000步时的表现相当——也就是说,两个模型在"考试成绩"上持平。
然而,当他们打开模型内部做谱分析时,发现了一个令人不安的结果。
AdamW在12000步时,整体硬秩缩放指数从0.29直接崩溃到了0.03,对应的拟合优度R?只有0.01——这意味着宽度与有效维度之间的幂律关系几乎完全消失了,不再是一条规律的曲线,而是一团散点。与此同时,软秩指数只是从0.66温和地降到了0.58,硬软秩不对称性却从0.37飙升到了0.55。
相比之下,Dion(1/16)在6000步时维持了可靠的幂律关系,硬秩指数0.50,各频率区间的拟合优度均保持在0.75以上。
从动态轨迹来看(图3所呈现的内容),AdamW的TAIL区域硬秩缩放指数在大约4000步附近达到峰值,随后开始持续下滑。而软秩指数则相对稳定,这导致硬软秩不对称性随着训练时间的推移持续扩大。
更深层的原因在于:更宽的工作台(更多FFN维度)在延长训练后,其主导维度容量反而比窄工作台丢失得更快,打破了"宽度越大容量越高"这一缩放定律成立所必需的单调顺序。具体而言,在TAIL区域,8倍宽度的模型的硬秩在8000步时就跌落到了2倍宽度模型之下;而到12000步,4倍宽度的模型反而远远领先于8倍宽度模型。这彻底瓦解了幂律拟合的基础。
研究团队还专门排除了"学习率调参"这一解释。他们分别在AdamW的三个学习率(0.001、0.003、0.006)和Muon的三个学习率(0.01、0.02、0.04)下进行了实验,发现AdamW在任何学习率下的TAIL硬秩最高指数(0.44)始终低于Muon在任何学习率下的最低指数(0.80)——两者的区间完全不重叠,不存在任何重合。
结论非常清晰:即便考试成绩相同,两个模型的内部学习方式是根本不同的。优化器塑造的不仅是训练速度,更是知识在模型内部的组织结构。
六、秩分数是一个精准旋钮:Dion实验的启示
Dion优化器的特别之处在于,研究者可以通过调节"秩分数"参数(r),精确控制每次参数更新时动用多大比例的正交化维度。这相当于给揉面机装了一个精密调速旋钮,让研究者能够系统地测试"正交化本身"和"更新维度数量"各自的贡献。
实验结果显示,随着秩分数从1/2逐步降低到1/16,TAIL区域的硬秩缩放指数从0.88单调地降到了0.40——后者与AdamW几乎相当。与此同时,软秩指数的下降要缓慢得多,从0.95降到0.72,而且在整个区间内始终显著高于AdamW(0.62)。
这说明了一件重要的事:单纯保留正交化结构(无论秩分数多低,Dion始终使用正交化更新),并不足以维持高效的主导维度转化——更新所覆盖的维度数量同样至关重要。在极低秩分数下,正交化手法仍然能够维持较高的弥散性谱容量(软秩),但无法将新增的工作台宽度有效转化为强势的主导工作频道(硬秩)。
从不对称性角度来看,TAIL区域的硬软秩不对称性从r=1/2时的+0.07上升到r=1/16时的+0.31,而这种不对称性的上升在TAIL区域最为显著,在HEAD区域则是非单调的,进一步确认了秩瓶颈主要是一个"低频词主导维度容量上限"的问题,而非均匀影响所有词频。
七、缩放到更大模型:规律依然成立
上述发现是否只是小模型的特有现象?研究团队在3.5亿参数的更大模型上重复了核心实验(在四个FFN宽度点上进行扫描),结果显示规律完全一致。
Muon在350M模型上的TAIL硬秩指数达到了1.13(R?=0.94),NorMuon为0.88(R?=0.98),而AdamW仍然只有0.39(R?=0.82),Dion(1/16)为0.48。AdamW在所有尺寸下都维持了正的TAIL不对称性(160M为+0.18,350M为+0.19),而Muon在350M时甚至出现了轻微的负不对称性(-0.13),意味着主导维度容量的增长速度开始超过弥散性容量——这是一种更加高效的容量利用形态。
八、换个注意力结构:架构干预的效果比不上换优化器
研究团队进一步想知道:优化器带来的谱缩放差异,与直接改变模型架构相比,孰轻孰重?
他们选择了一种特定的架构干预:在保持总参数量不变的前提下,把注意力头的数量从12个减少到6个(每个头的维度相应增大,即提高了每个头的"注意力秩")。这种干预来自近期关于注意力头质量与数量权衡的研究,是一种有明确理论动机的架构调整。
比较结果非常清晰:在30个"频率区间×软硬秩"的组合中,有28个组合里,优化器带来的最大增益都超过了架构干预带来的增益。唯一的例外是HEAD区域的硬秩,在那里AdamW切换到6头架构的增益(+0.345)和Muon切换到6头架构的增益(+0.651)都超过了最佳优化器切换带来的增益(+0.330)。
更有趣的是,架构干预的效果本身也是优化器依赖的。以TAIL硬秩为例,将注意力头从12个减少到6个,在AdamW下带来+0.313的提升,在Muon下带来+0.367的提升,而在NorMuon和Dion变体下几乎没有效果(绝对值≤0.023)。同样的架构改动,对不同优化器的"回报"差异巨大。
更深层的现象是,架构干预改变了"哪个优化器最匹配这个架构"。在12头原始架构下,NorMuon在六个频率区间中的五个里拥有最高的缩放指数;但在6头架构下,Muon在全部六个区间里都夺得最高。架构变了,最佳优化器也跟着变了。
九、去掉位置编码:另一种架构干预同样是优化器依赖的
研究团队还在350M模型上测试了第二种架构干预:移除RoPE位置编码(RoPE是一种让模型感知词序的机制),使用无位置编码的NoPE设计。
结果再次证明,架构变化的效果是通过优化器几何来表达的,而非独立作用的。
移除RoPE对Muon和NorMuon产生了方向相反的效果。对Muon而言,移除位置编码使HEAD区域的硬秩指数从1.083升高到1.286(增加了+0.203),同时使MID和TAIL区域的指数分别下降了0.264和0.291——也就是说,NoPE让Muon把容量转移向了高频词,同时削弱了对低频词的覆盖。而对NorMuon来说,移除位置编码使所有三个频率区间的硬秩指数都下降了,HEAD区域下降幅度最大(从1.023降到0.656,下降了0.367)。
不对称性方面的变化也印证了这一点:在Muon下,NoPE使MID和TAIL区域的硬软秩不对称性从负值(-0.085和-0.129)翻转为正值(+0.096和+0.091);在NorMuon下,三个区间的不对称性都有所上升,HEAD区域上升幅度最大(从-0.045升至+0.315)。
从效果量的角度对比:在TAIL硬秩上,AdamW切换到Muon带来的增益(|Δβ|=0.74)是注意力头干预效果的约2.0倍,是RoPE移除效果的2.5至5.2倍。优化器切换始终是所有测试干预中效果最大的单一操作。
为了更深入理解NoPE干预的机制,研究团队还做了一项"位置依赖性"分析,计算了FFN非线性变换前后,序列位置对激活方差的解释比例(通过一个类似方差分析的指标"对称比"来衡量)。结果显示,在RoPE设置下,所有优化器的FFN都表现出HEAD词汇受到更强位置处理的偏向(即位置信息在HEAD词汇中被放大更多)。但切换到NoPE后,Muon和NorMuon都翻转了这个偏向,转而对TAIL词汇施加更强的位置处理放大——而AdamW没有发生这种翻转,在NoPE下仍然保持HEAD偏向。
此外,位置处理的深度分布也发生了改变:在RoPE下,Muon的峰值位置处理出现在较深的层(第8、23、23、23层);在NoPE下,峰值移动到了最早的层(第2、2、1、1层)。NorMuon也出现了类似但更分散的前移。这说明,当外部位置信号消失时,不同优化器会用不同的深度分布策略来重新组织对位置信息的内部处理。
十、训练稳定性的边界:哪些架构只有特定优化器才能驾驭
研究团队还做了一组有趣的补充实验,测试优化器是否会影响模型架构设计的可行范围本身——而不仅仅是在同一架构内的容量利用效率。
他们使用了"部分后归一化"(Partial PostLN)配置,也就是让模型的前k%的层使用后归一化,其余层使用前归一化。后归一化架构在大规模训练中以难以稳定训练著称,但理论上可能具有一些前归一化所不具备的优势。
实验结果清楚地划出了一条"可训练边界"。在学习率3×10??下,AdamW可以训练"前25%层使用后归一化"的配置(困惑度41.9),但在"前50%层使用后归一化"时就直接发散崩溃了。即便将学习率大幅降低到10??来避免崩溃,"前75%层使用后归一化"配置下AdamW的困惑度高达106.7,远远落后于同样配置下Muon的40.9和NorMuon的32.8。
Muon和NorMuon可以稳定训练"前75%层使用后归一化"的配置并达到实用的困惑度,但所有优化器对"全部使用后归一化"仍然无能为力。NorMuon由于额外的逐神经元归一化,在最激进的部分后归一化配置(75%)下表现优于Muon,说明更精细的参数尺度控制在梯度放大最严重时能提供额外稳定性。
Dion变体(秩分数1/2和1/16)均可训练50%后归一化配置,但在75%时失败——这与谱缩放实验中的规律有所不同(秩分数对谱容量有显著影响,但对可训练边界的影响较小)。这说明正交化更新结构对稳定极端归一化配置有帮助,但这种稳定性与秩分数关系不大;而谱容量的高效转化则与秩分数密切相关。两者是独立的效应,通过不同的机制发挥作用。
说到底,这篇研究想传达的核心信息是:AI模型的"真实能力"并非只由它有多大、用了多少数据来决定——训练它的方式,也就是优化器的选择,会从根本上塑造模型内部知识的组织结构。
同一个模型,用Muon训练和用AdamW训练,在考试成绩相差不大的情况下,内部却可能是截然不同的两个世界。一个能把更多工作台空间转化为真正有效的工作频道,特别是在处理罕见词汇时;另一个则把大量空间浪费在了低效的弥散性维度上,而且随着训练时间延长,这种浪费还会愈演愈烈。更关键的是,架构设计的效果也不是独立于优化器存在的——同样的架构改动,对不同优化器可能意味着完全不同的收益,甚至连"最适合这个架构的优化器"都会随架构的改变而改变。
这对AI研究者意味着,未来在设计和比较模型时,不能再把优化器当作一个"背景设置"忽略掉,而应该把它视为和架构、数据量同等重要的设计轴。对普通用户来说,这个发现提醒我们:当两个AI系统声称"在同一基准上表现相当"时,它们内部对知识的组织方式可能有着深刻的差异,而这些差异会在那些罕见的、边缘的情境下暴露出来——恰恰是在你最需要AI表现稳定的时候。
对未来感兴趣的读者不妨思考这样一个问题:如果优化器能如此深刻地改变模型内部结构,那么是否存在专门针对某类任务或知识分布量身定制的优化器?或者,能不能在训练过程中动态切换优化器,让模型在不同训练阶段采用不同的"揉面手法"?这些都是这项研究自然延伸出的有趣方向。感兴趣的读者可以通过arXiv编号2605.21803查阅完整论文,其中详尽的附录包含了大量额外实验数据和深度分析。
Q&A
Q1:优化器和模型架构哪个对AI性能影响更大?
A:纽约大学的这项研究发现,在大多数测试场景中,切换优化器(例如从AdamW换成Muon)对模型内部谱容量的影响大于改变注意力头数量等架构干预。具体来说,在TAIL低频词的硬秩缩放上,优化器切换的效果是注意力头干预的约2倍,是移除位置编码效果的2.5倍以上。但两者的作用是相互耦合的,架构改变会影响哪种优化器最为匹配,不能简单地说谁更重要。
Q2:AdamW训练时间加倍能弥补和Muon的差距吗?
A:不能。研究团队将AdamW的训练步数从6000步加倍到12000步,使其测试困惑度与低秩Dion优化器持平,但内部谱结构却进一步恶化。AdamW的整体硬秩缩放指数从0.29降到了几乎为零的0.03,更宽的模型的有效主导维度反而比窄模型丢失得更快,彻底瓦解了宽度与容量之间的幂律关系。因此,延长训练时间不仅不能弥补差距,反而会加剧AdamW的谱容量崩溃。
Q3:Muon优化器在稀有词学习上为什么比AdamW强这么多?
A:从谱分析结果来看,Muon类优化器在每次参数更新时使用正交化处理,使得更新方向更加均衡互不干扰,因此更能将新增的工作台维度转化为真正承担主要工作的主导频道。AdamW则倾向于把新增维度扩散到弥散性的低效方向上。稀有词(TAIL区域)的学习恰恰最依赖这种主导维度的高效扩展,因为稀有词出现次数少、学习信号弱,必须有更高效的表示结构来捕捉和存储相关知识。





京公网安备 11011402013531号