![]()
这项由香港中文大学、马克斯·普朗克智能系统研究所和西湖大学联合开展的研究,于2026年5月以技术报告形式发布,论文编号为arXiv:2605.12492。有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整论文。
训练一个大型语言模型,就像在一栋超高层建筑里精密调整每一根承重柱的角度和力度。当建筑越盖越高,任何细微的偏差都可能在顶层被放大成灾难性的倾斜。研究人员长期面临的挑战正是这样一个问题:如何让这栋"知识大厦"在建造过程中始终保持结构稳定?
这项研究的核心答案,是一个被命名为**Pion**的新型优化器。所谓优化器,是深度学习中负责"指导模型如何修正自身参数"的核心组件,可以把它理解为建筑工地上的总工程师,每一次施工调整都由它来决策。Pion的创新之处在于,它不像传统优化器那样直接往每根柱子上"加减材料",而是通过旋转角度来调整,整根柱子的材料总量始终不变,变的只是方向。
为什么这件事情如此重要?因为当模型参数的"材料总量"(即数学上所说的奇异值,也就是矩阵的频谱)在训练过程中反复漂移,模型的行为就会越来越难以预测,训练就像在走钢丝——一旦失衡,轻则收敛缓慢,重则直接崩溃。
**一、为什么现有的"建筑师"不够用**
在Pion出现之前,深度学习领域最常用的两位"总工程师"是AdamW和Muon。AdamW是老牌主力,几乎出现在所有主流训练方案里;Muon则是近年冉冉升起的新星,它通过一种叫做"正交化更新"的技术,让每次参数修正的步伐更加规整。
然而,这两位工程师各有短板。以建筑比喻来说,AdamW在调整每根柱子时既会改变它的倾斜角度,也会不加控制地改变它的截面大小,久而久之,整栋楼的结构特性会悄然漂移。而Muon虽然能保证每次调整的步伐形状很好,但它同样无法阻止柱子本身的"材料量"随着训练的推进慢慢变化。
这种"材料量的漂移"在数学上叫做权重矩阵的奇异值谱发生偏移,通俗地说就是模型里每一块参数的"能量分布"不再保持原来的样子。研究表明,当权重矩阵的谱范数(可以理解为"最大材料浓度")保持稳定时,模型的泛化能力——也就是学了这些知识后在没见过的题目上的发挥——往往更好。
研究团队还发现,建筑稳定性的另一个关键指标是"最大更新参数化"(μP),这是一套由业界建立的规范,规定了当模型宽度增大时,权重和每次更新的幅度应当如何缩放才能保持激活值稳定。Muon天然满足"更新幅度"那一半,但对"权重本身的幅度"却无能为力,需要额外打补丁。而Pion从设计之初就把"权重幅度"这部分纳入了核心机制,从另一个方向原生满足μP。
**二、Pion的核心想法:只转动,不增减**
Pion的灵感来自一个名叫POET的早期方法。POET的策略是把每个权重矩阵拆成三部分:一个固定不动的基础矩阵,加上左右两个可以旋转的"夹具"。训练过程中,只有左右两个夹具在转动,基础矩阵纹丝不动。这样,不管夹具怎么转,被它们夹住的矩阵的频谱永远不会改变——就像用两个转盘夹住一块钢板,钢板的材质和厚度始终如一,改变的只是它面朝的方向。
但POET的问题在于,这种"拆分再重组"的方式引入了额外的间接性,导致训练过程容易出现损失值突然跳升等不稳定现象,在不同模型架构之间迁移也比较麻烦。
Pion的做法更加直接。它的名字正是"POET诱导优化器,无需重参数化"的缩写。它不再把矩阵拆成三份,而是直接对权重矩阵本身施加旋转操作。每次更新,权重矩阵先被一个左侧旋转矩阵乘一下,再被一个右侧旋转矩阵乘一下,整个过程就像用两只手同时从矩阵的两侧温柔地扭转它,而它的"骨架结构"(奇异值频谱)完好无损。
这个想法的数学基础是李群优化(Lie group optimization)——一个专门研究"如何在旋转、反射这类变换群上做优化"的数学分支。权重矩阵所在的空间是一个叫做"等谱流形"的曲面,而Pion的每一步更新都严格沿着这个曲面滑行,从不越雷池半步。
**三、Pion是怎么计算更新方向的**
具体来说,Pion在每一步训练中需要完成一套有条理的操作。把权重矩阵记作W,把当前的梯度(也就是损失函数告诉我们"该往哪调"的信号)记作G。
首先,Pion把梯度G和权重W做两次矩阵乘法,分别得到"输入侧梯度"和"输出侧梯度"。接着,为了让这两个梯度真正符合旋转运动的数学要求,需要对它们做一个"反对称化"处理——简单来说,就是用这个梯度减去它自己的转置,让结果变成一个反对称矩阵。反对称矩阵在数学上叫做李代数元素,它是描述旋转运动的语言。
有了这两个旋转指令之后,Pion通过矩阵指数映射(可以理解为把"旋转速度"换算成"实际旋转量"的公式)生成两个正交矩阵,分别从左右两侧乘上当前的权重矩阵,完成一次更新。
这个过程可以用更直观的方式来理解:假设你手里拿着一张正方形纸片,左手和右手分别从纸的两条边抓住,然后同时向各自的方向稍微扭转一下。纸片的面积没变,形状没变,只是朝向改变了。Pion对权重矩阵做的,本质上就是这样一次精心控制的双向扭转。
**四、稳定训练的四个工程秘诀**
然而,仅有上述基本机制还不够。研究团队在实验中发现,最朴素的Pion更新会引发一些实际问题,就像一位原理上正确的建筑师,在现场施工时仍然需要一套规范化的操作流程。团队系统探索了四项关键的工程改进。
第一项是"一致性缩放"。研究团队发现,如果直接使用基本的更新规则,同一层网络里不同权重矩阵所受到的旋转强度会差异悬殊,就像让一个班的学生做同样的体操,有人只扭了一度,有人却转了一圈,场面一片混乱。更糟糕的是,同一个矩阵的"输入侧"和"输出侧"旋转幅度也常常严重失衡。为了解决这个问题,研究团队引入了两项措施:对每个矩阵的两侧旋转指令分别按照矩阵尺寸做归一化,同时再加一个按权重矩阵参数量比例计算的全局缩放系数(用均方根RMS来控制),让所有矩阵受到的更新强度大体上保持协调一致。实验结果显示,这一改进极大地拓宽了学习率的可用范围,在更大的学习率下仍然保持稳定,而没有这个改进的朴素版本在稍大的学习率下就会直接发散崩溃。
第二项是"动量设计"。动量是优化器里的"惯性"机制:把历史梯度的信息积累起来,给当前更新加一点"方向感",避免每一步都被噪声牵着走。对于在弯曲流形(等谱流形)上运动的Pion来说,动量的设计比在普通平坦空间里要微妙得多。研究团队比较了三种动量方案。第一种是"平行传输动量":把历史动量通过与更新操作配套的旋转矩阵变换到当前位置的切空间,保证历史信息被正确地"翻译"到当前的坐标系下,这个方案概念上最严谨,计算开销也适中,但没有额外的内存占用。第二种是"普通环境空间动量":直接在原始矩阵空间里积累动量,最省内存和计算,但会因为切空间不一致而带来偏差。第三种是"李代数动量":因为Pion的更新本质上是在李代数(一个统一的切空间)里计算的,所以可以直接在李代数里分别为输入侧和输出侧维护各自的动量变量,这种方式在几何上最严格,代价是需要额外存储两个与矩阵大小相关的动量缓冲区。实验结果表明,李代数动量的训练损失收敛最快,平行传输动量紧随其后,普通环境空间动量则略差,所有方案都好于没有动量的基线。当同时引入一阶和二阶动量时,"两侧均采用李代数动量"的组合表现最佳。
第三项是"交替更新"。原本的Pion在每一步都同时做左右两侧的旋转操作,这虽然效果最好,但计算代价较高。研究团队提出了一个简洁的变体:奇数步只做输入侧旋转,偶数步只做输出侧旋转,两侧交替进行。这样每步的计算量大约减少一半。实验显示,交替更新的最终损失仅比双侧同步更新高出约0.23%,差距微乎其微,在早期训练阶段甚至更快,只在接近收敛时才被双侧版本超过。对于追求性价比的场景,这是一个非常有吸引力的选择。
第四项是"矩阵指数的高效近似"。精确计算矩阵指数的计算开销很大,好在Pion有一个天然的优势:它每次都是从单位矩阵(即"零旋转"状态)出发计算旋转量,不像一些其他方法需要在历史旋转矩阵的基础上累积误差。这意味着截断级数展开的误差不会随着训练步数累积。研究团队对比了一阶到四阶泰勒展开以及凯莱变换几种近似方案,结论是二阶泰勒展开(即保留到平方项)在频谱保持精度和计算效率之间取得最佳平衡,一阶近似明显不足,三阶以上收益递减,凯莱变换相比二阶泰勒展开优势不显著。
**五、Pion能证明自己一定会收敛吗**
除了直觉和实验,研究团队还为Pion给出了严格的数学收敛性保证。这意味着什么?就像为一个建筑方案出具了结构安全计算书,证明按照这个方案施工,大楼不会在某个条件下突然垮塌。
在"函数值足够光滑且下有界"以及"随机梯度的噪声有界"这两个标准假设下,研究团队证明了:随着训练步数T趋向无穷,Pion找到的最好的"停止点"处,输入侧和输出侧的旋转梯度的平方和的最小值,会以O(1/√T)的速率收敛到零。用普通话说就是:训练越久,Pion越能找到等谱流形上的驻点(即梯度为零的点),而且找到的速率不会太慢,符合非凸随机优化的经典标准。
**六、与μP兼容:让超参数可以跨规模迁移**
"最大更新参数化"(μP)是一个极其实用的工程框架。它的核心承诺是:如果你在小模型上找到了最好的学习率,那么放大到大模型上,这个学习率依然最优,不需要重新调参。这对训练动辄需要花费数百万美元算力的大型语言模型来说,意味着巨大的成本节省。
μP对优化器的要求分为两条:权重矩阵本身的谱范数要按照√(输出维度/输入维度)的比例缩放;每次更新步长的谱范数也要满足同样的比例。Pion天然满足第一条,因为它不改变频谱。但第二条需要额外处理。
研究团队提出了两种让Pion满足第二条的方案。第一种是直接对两侧的李代数梯度矩阵的谱范数做归一化,让它们都等于1。第二种是借鉴Muon的做法,对梯度矩阵做正交化处理,把所有非零奇异值都推向1附近。两种方案都在实验中被验证可以有效实现超参数的跨规模迁移。具体实验中,研究团队分别在隐藏维度为128、256、512的LLaMA和Qwen架构模型上做了学习率扫描,结果显示在不同宽度下,最优学习率的峰值位置高度一致,印证了μP兼容性。
**七、实战检验:Pion在三个战场上的表现**
研究团队在三类真实任务上对Pion做了全面测评,以AdamW和Muon作为主要对手。
在大规模预训练上,研究团队用基于LLaMA架构的13亿参数模型,在540亿个词元(token)的C4数据集上做了充分训练。结果显示,Pion在ARC、BoolQ、HellaSwag、PIQA、SciQ、TriviaQA、Winogrande等八个公开基准测试上的平均得分最高,达到47.69,而Muon为46.34,AdamW为44.74。验证集损失上,Pion(2.7350)与Muon(2.7225)接近,均明显优于AdamW(2.7700)。
更能反映本质差异的是几个训练稳定性指标。研究团队跟踪了最大注意力权重值(一个容易爆炸的信号)、SwiGLU激活函数输出的范数、下投影层权重的范数和输出的范数。AdamW下,注意力权重值和激活幅度在训练过程中持续快速攀升,毫无收敛迹象。Muon在抑制注意力权重值增长上有明显改善,但激活值和权重范数仍然稳步上升。Pion则让四个指标都几乎保持水平,稳如磐石。与此同时,从频谱变化图可以看出,AdamW和Muon训练结束后的奇异值分布与初始化时相比已经面目全非,而Pion的频谱曲线与初始化几乎重合,印证了频谱保持机制的严格有效性。
在极端压力测试中,研究团队做了两组特别实验。第一组是彻底去掉模型里所有的归一化层(如LayerNorm)。归一化层是目前训练大模型几乎不可或缺的稳定器,去掉之后AdamW和Muon都在训练早期因梯度溢出而产生NaN值,直接宣告失败;而Pion在整个90亿词元的训练过程中一路平稳收敛,没有任何异常。这表明Pion的频谱保持机制能够在没有外部归一化辅助的情况下独立提供足够的稳定性支撑。第二组是把模型深度从8层暴力拉升到200层。超深网络训练是公认的挑战,极容易出现梯度消失和表征崩塌。在这个设定下,Pion的训练损失的局部波动标准差(0.0892)略低于Muon(0.0927)和AdamW(0.0931),是三者中最稳定的,同时在训练中期的损失下降速度也最快。更有意思的是,研究团队还测量了每一层的雅可比矩阵(可以理解为信号经过这一层时被"改变了多少"的度量)。AdamW和Muon都在网络中层出现了表达能力的急剧下滑,而Pion在所有层上的这个指标分布更加均匀,充分利用了200层的深度。
在有监督微调上,研究团队用Qwen2.5-1.5B和Llama-3.2-3B两个预训练基础模型,分别在数学推理(MetaMathQA)和代码生成(Magicoder)两个数据集上做了微调测试,并分别评估了"任务内表现"(ID,反映学到了多少)和"任务外表现"(OOD,反映忘记了多少原有知识)。Pion在代码生成任务上在两个基础模型上都取得了最高的ID和OOD分数,在数学推理上ID表现与其他优化器相当,但OOD保持得更好,显示出更强的抗灾难性遗忘能力。
在强化学习微调(RLVR)上,研究团队用带有可验证奖励的强化学习(具体算法为GRPO)对Qwen3-1.7B和DeepSeek-R1-Distill-Qwen-1.5B进行训练,在AIME24、AIME25、AMC23、Minerva Math、OlympiadBench五个数学推理竞赛级别的基准上测试。Pion在两个基础模型上都取得了最高的平均得分(分别为36.12和38.32),并且在训练过程中的验证准确率上升速度最快。研究团队指出,有文献发现强化学习阶段的权重更新天然倾向于保持预训练时的频谱结构,这与Pion的设计哲学高度吻合,使Pion成为RLVR的天然良伴。值得一提的是,在RLVR场景中,交替更新反而比双侧更新表现更好,研究团队推测这与强化学习依赖探索性的随机搜索有关——交替更新每步只做一侧旋转,引入了更多探索性变化,避免过早锁定次优奖励。
**八、计算代价:值得吗**
研究团队给出了详细的计算复杂度分析。对于一个dout×din的权重矩阵,Pion的额外开销主要来自三部分:构建左右两侧的李代数梯度(复杂度约为4×dout×din?加4×dout?×din个浮点运算)、RMS缩放系数的计算,以及矩阵指数的二阶近似(涉及dout和din各自的立方项)。在实际LLM预训练中,每个优化步骤处理的批次中词元数B通常很大,因为前向和反向传播的计算量与B成正比,而Pion额外的矩阵运算与B无关,所以相对开销随着B的增大而不断摊薄。
在8块H100 GPU的实际测量中,完整版Pion的每GPU峰值显存占用为59839 MB,比AdamW高16.0%,比Muon高26.6%,主要来自两侧的李代数动量和二阶矩缓冲区(每个权重矩阵对应两个与其行列数的平方相关的矩阵,而不是AdamW那样的与矩阵本身同形的缓冲区,对于宽矩阵尤其明显)。如果去掉二阶动量(仅保留一阶),显存降至45289 MB,反而低于AdamW。每步训练时间上,Pion为0.5679秒,比AdamW慢44.4%,但比Muon只慢3.2%,且去掉二阶动量后训练时间几乎不变,说明瓶颈在矩阵乘法而非元素级的动量更新。
**九、Pion还保留了一个"隐藏福利"**
频谱保持之外,Pion还有一个优雅的副产品:它天然维持了"最小超球面能量"配置。超球面能量是衡量归一化后的神经元在高维球面上分布是否均匀的指标,能量越低意味着分布越均匀,理论和实践都表明这与更好的泛化能力相关。经典的零均值高斯随机初始化恰好产生一个最小能量配置,而正交等价变换(即Pion所做的操作)可以被数学证明保持这一配置不变。换句话说,只要初始化合理,Pion能在整个训练过程中持续维持神经元在高维空间中的均匀分布状态,而AdamW和Muon都会破坏这一性质。
说到底,Pion做的事情可以用一句话概括:在训练过程中,它只转动参数矩阵,从不拉伸或压缩它,就像一位钟表匠精确地调整每个齿轮的朝向而不改变其尺寸。这种看似简单的约束,带来了令人惊喜的连锁效应——训练更稳定、频谱不漂移、激活值不爆炸、极端条件下也能存活,而且在预训练、微调和强化学习三个最主流的LLM训练场景中都展示出了竞争力。
当然,Pion并非没有代价。完整版的显存占用高于现有主流优化器,对于超大规模模型来说这是需要权衡的现实问题。研究团队也明确指出,将Pion的实验扩展到更大参数量级的模型上仍是未竟的工作。此外,目前μP兼容性的探索也只是初步,还有更多变体尚待研究。
不过,一个能够让模型在没有归一化层的情况下依然稳定训练的优化器,本身就已经给了我们一个新的视角:也许不是所有的"稳定性"都需要靠架构设计来提供,优化器本身也可以承担更多这方面的职责。对于正在思考下一代模型训练方案的研究者和工程师而言,Pion无疑提供了一条值得认真探索的路径。
感兴趣的读者可以在arXiv上通过编号2605.12492查阅完整论文,以及访问项目主页spherelab.ai/pion获取代码和更多细节。
Q&A
Q1:Pion优化器和AdamW、Muon相比有什么本质区别?
A:AdamW和Muon都是通过"加减"的方式修改权重矩阵的数值,而Pion只做"旋转"操作——它从左右两侧同时对权重矩阵施加正交变换,保持矩阵的奇异值(即"频谱")完全不变。这使得权重矩阵的整体"能量分布"在整个训练过程中始终保持与初始化时一致,从而带来更稳定的训练行为,尤其在极端情况下(比如去掉归一化层或训练超深网络)优势更为明显。
Q2:Pion的显存占用比AdamW高,实际使用时怎么处理这个问题?
A:完整版Pion因为在李代数空间维护额外的动量缓冲区,显存比AdamW高约16%。但研究团队发现,去掉二阶动量(即仅保留一阶动量)后,显存反而降至低于AdamW的水平,而性能损失很小。此外,交替更新策略(奇偶步交替只做一侧旋转)可以将每步计算量减少约一半,且最终性能仅下降0.23%左右。因此在资源紧张的场景下,可以通过这两项调整有效控制开销。
Q3:Pion在强化学习微调中为什么表现比监督微调更突出?
A:研究团队观察到,强化学习阶段的权重更新天然倾向于保持预训练时的频谱结构不被破坏,这与Pion的设计原则高度一致,使Pion成为该场景下的"天然适配者"。此外,交替更新在强化学习中反而优于双侧同步更新,研究团队推测原因在于交替更新每步只旋转一侧,引入了更多的探索性变化,有助于模型在稀疏奖励信号下避免过早收敛到次优策略。





京公网安备 11011402013531号