![]()
这项由密歇根州立大学、思科公司、明尼苏达大学以及IBM研究院联合开展的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.19282。研究的核心问题听起来有些绕口,但背后的故事却非常引人入胜:一个在语言模型训练上表现出色的优化器,为什么在机器人控制和推理强化学习场景中会"翻车",甚至完全崩溃?以及,研究团队如何通过重新设计一个数学工具来解决这个问题?
要理解这篇研究,可以用"频道滤波器"这个比喻贯穿始终。收音机里有一个调频旋钮,它的作用是把你想听的那个频道的信号放大,同时压制其他频道的噪声。如果这个滤波器坏掉了,把所有频道的信号都一视同仁地放大,你听到的就是一锅嘈杂的混音。研究团队发现,现有的一个流行优化器正是这样——它把真正有用的信号和无用的噪声都放大到同样的强度,在某些训练场景下制造了麻烦。他们随即设计了一个新的"高通滤波器"版本,让有用的信号通过,同时压制噪声,效果显著。
一、优化器是什么,它为什么重要
在深入了解研究内容之前,有必要先理解"优化器"在机器学习中扮演的角色。每次训练一个AI模型,本质上都是在不断调整模型内部几千万乃至几百亿个参数,让模型的输出越来越接近正确答案。优化器就是负责"怎么调"的那个策略——它告诉训练系统,每次应该往哪个方向调整、调整多少。
长期以来,一个叫AdamW的优化器占据主导地位,它对每个参数独立地进行自适应调整,就像一个工厂里有几千万个独立的小调节旋钮,每个旋钮根据自己所在位置的情况自行决定转多少。这种方式非常灵活,但也有局限。
近年来,一类新型的"矩阵感知"优化器崭露头角。其中,Muon(全称MomentUm Orthogonalized by Newton–Schulz)是最受关注的一个。它不再孤立地看待每一个参数,而是把一个权重矩阵作为整体来处理,利用矩阵的几何结构来决定更新方向。具体来说,Muon通过一种叫做"Newton–Schulz迭代"(NS迭代)的数学操作,把梯度矩阵的所有"方向强度"——也就是奇异值——都统一调整到相同的大小1,这个过程被称为"均匀谱白化"。可以把它类比为一个均衡器:无论某个频道的信号原来是强还是弱,它都把每个频道的音量旋到同样的位置。这种做法在大语言模型预训练阶段非常有效,能够让模型更充分地探索参数空间,在多项任务上超越AdamW。
然而,研究团队发现,这个"把所有频道音量都调一样"的策略,在两类重要的非预训练场景中会产生严重问题。这两类场景就是:机器人视觉-语言-动作模型(VLA)训练,以及带有可验证奖励的强化学习(RLVR)。
二、机器人训练时遇到了什么麻烦
VLA模型是近年来机器人领域的一个重要方向。它的目标是让机器人能够理解视觉图像和语言指令,然后输出具体的动作——比如"把那个红色的杯子放到托盘上"。这类模型内部通常由三个模块组成:视觉编码器、语言主干,以及动作头。前两者负责"看"和"听",动作头负责"做"。
研究团队发现,这三个模块在训练时产生的梯度,在内在复杂度上存在巨大差异。他们使用了一个叫做"有效秩"(erank)的指标来衡量这种复杂度——可以理解为,梯度信息分布在多少个有意义的方向上。视觉模块的梯度"有效秩"很高,信息分散在几百个方向上;语言模块居中;而动作头的梯度"有效秩"极低,往往只集中在寥寥几个方向上。这是有道理的:机器人的一个动作只是一个7维向量(手腕的平移、旋转和夹爪状态),自然比处理像素或词汇要简单得多。
回到频道滤波器的比喻:动作头的梯度就像一个只有3个真正重要频道、其余都是弱噪声的信号。Muon的均匀白化操作,会把这3个重要频道和其他几百个噪声频道都放大到同样的音量,结果有用信号被淹没在噪声里。研究团队用实验验证了这一点:在LIBERO Object这个机器人基准测试上,当动作头使用Muon训练时,成功率只有82.2%,反而不如使用AdamW的93.6%。
研究者也考虑了一个现有的改进方案——Low-rank Muon(低秩Muon,简称LRMuon)。它的思路是:先通过精确的奇异值分解(SVD)找出梯度中最重要的前k个方向,只保留这些方向进行更新,其余方向直接丢弃。这样确实能自适应地处理低秩梯度,把成功率提高到97%。但问题是,SVD计算非常昂贵,会导致总训练时间增加约15倍。这在实际应用中是不可接受的。
三、强化学习训练时又遇到了什么麻烦
RLVR是另一个热门方向,它的目标是通过让模型与"可以自动验证答案的题目"互动来提升推理能力——比如数学题、编程题,因为这些题有明确的对错之分,不需要人工判分。DeepSeek-R1等模型的推理能力提升,背后就用到了类似的技术路线。
研究团队注意到,RLVR的梯度信噪比(SNR)远低于普通的监督微调(SFT)。信噪比可以理解为:在所有的梯度更新信号里,真正有意义的部分占多少。SFT的信噪比很高,因为每个token都有明确的教师信号;RLVR则不同,它依赖轨迹级别的奖励(做完一整道题才知道对不对),信号稀疏,同时还有重要性采样、截断和归一化等操作进一步引入噪声。研究团队从理论推导上给出了严格的信噪比对比公式,证明RLVR的梯度信噪比显著低于SFT。
在这样的低信噪比环境下,Muon的均匀白化就变成了灾难。回到频道滤波器的比喻:RLVR的梯度就像一个真正有意义的信号只占一小部分、大部分都是噪声的广播。把所有频道都放到同样音量,等于让噪声彻底主导了更新方向。研究团队在实验中发现,当使用Muon训练Qwen3-1.7B模型在MATH数学题上的GRPO强化学习时,模型精度从训练开始就一路下滑,最终趋近于零,发生了完全的崩溃。而AdamW在同样设置下能稳定提升精度。
除此之外,研究团队还指出了Muon的另一个问题:它把注意力机制的权重矩阵作为一个整体来处理,而忽视了不同注意力头(attention head)之间已经在预训练中形成的异质性。预训练后,不同的注意力头扮演不同的角色,各自的权重范数(可以理解为"音量旋钮的初始位置")存在显著差异。这种差异本身是有意义的——它决定了不同头的注意力模式和对梯度的贡献。Muon对整个矩阵做均匀处理,会强行抹平这种差异,强制让所有头以相同的更新幅度改变,破坏了预训练积累下来的有益结构。
四、Pion的设计:一个精心调校的高通滤波器
面对以上两个限制,研究团队提出了Pion(sPectral hIgh-pass Optimization on momeNtum,即基于动量的谱域高通优化)。Pion的核心想法来自对NS迭代本质的深刻理解。
NS迭代的每一步,在数学上等价于对矩阵中的每一个奇异值(也就是每个"频道强度")独立施加一个标量多项式变换。Muon的NS迭代所使用的多项式,会把所有奇异值都趋向1——这就是均匀白化。而Pion的关键洞察是:设计NS迭代,本质上等价于设计这个标量多项式。如果能把这个多项式换成一个"高通滤波器"的形状——让大的奇异值保持在1附近,让小的奇异值趋向0——问题就解决了。
研究团队把这个新的NS迭代分成两个阶段,称为"促进+抑制"机制。第一阶段叫做促进(Promotion):使用一个精心设计的多项式,把所有奇异值都尽可能地往上抬,让原本较弱的方向也有机会通过后续的筛选门槛。第二阶段叫做抑制(Suppression):使用另一个多项式,把小的奇异值压向0,同时把大的奇异值锚定在1。两个阶段串联起来,就产生了一个尖锐的高通滤波效果:大奇异值(代表真正重要的信号方向)被完整保留,小奇异值(代表噪声)被压制为零。
这两个多项式的系数不是随意拍脑袋定的,而是通过数学约束严格推导出来的。以促进多项式为例,它需要满足三个条件:当奇异值已经是1时保持不动(固定点条件),当奇异值接近1时不要进一步放大扰动(一阶平稳条件),以及在奇异值等于1处曲率不向上弯(边界凹性条件)。这三个约束加上全区间单调性的要求,唯一确定了促进多项式的系数为(1.875, -1.25, 0.375)。抑制多项式则额外要求在原点处斜率为零(谱滤波条件),强迫小奇异值被高阶项压向0,系数由此唯一确定为(0, 2.5, -1.5)。
整个迭代总步数固定为5步(与Muon相同),其中促进步数kp可以在0到5之间选择,剩余步数用于抑制。这个kp是Pion唯一需要调节的超参数,控制滤波器的截止频率——kp越小、抑制步数越多,过滤效果越激进。研究团队发现,在VLA和RLVR两种场景下,抑制步数ks不小于3(即kp不超过2)时效果最好。由于总步数不变,Pion每步的计算成本与Muon完全一致。
五、针对注意力头异质性的额外设计
除了高通滤波机制,Pion还针对RLVR场景引入了一个"按头处理"的模式。具体来说,在处理注意力层的权重矩阵时,Pion先沿着注意力头的维度把矩阵切分成多个小块,每个头对应一个小块,然后对每个小块独立地运行高通NS迭代,最后再拼回原来的形状。这个操作的额外代价几乎可以忽略不计,只是多了一次形状变换。
研究团队通过实验验证了这个设计的必要性。他们测量了Qwen3-1.7B模型在RLVR训练前和训练后,不同注意力头的Q投影权重矩阵范数的跨头方差。训练前,这个方差在所有28个层都相当显著,说明不同头的"初始音量"差异很大。而如果使用整体模式的Pion(不分头处理),训练后各头的更新幅度几乎完全一样(方差接近于零),说明整体模式会强制平均掉各头之间的差异。按头模式则能根据每个头的实际情况给出差异化的更新,保留了预训练建立的异质性结构。
有一个细节值得关注:按头模式对Muon无效。即使把Muon改成按头处理,它在RLVR上依然崩溃,因为噪声放大的问题(Limitation 2)并没有因为分头而消失。这说明高通滤波是RLVR稳定训练的关键,按头分解只是一个辅助机制,用来保护预训练的头部结构。
六、在模拟机器人环境中的测试结果
研究团队在LIBERO和LIBERO-Plus两个机器人基准测试套件上,用两种不同架构的VLA模型验证了Pion的效果。
第一个模型VLA-Adapter,使用l1回归方式预测动作,模型骨干基于Prismatic-Qwen2.5-0.5B。在LIBERO Object任务上,使用AdamW训练的模型在1500步时成功率为32.2%,Muon为97.0%,而Pion达到了100%。在Spatial、Goal、Long三个任务上,Pion同样在训练15000步后取得了最高的成功率(分别为99.4%、97.2%、92.4%),均超过Muon(99.0%、95.8%、88.0%)和AdamW(97.0%、89.2%、69.6%)。
从训练曲线来看,Pion达到95%成功率只需要大约500步,而AdamW和Muon需要更多步数才能达到同样水平,说明Pion不仅最终效果更好,收敛速度也更快。
第二个模型VLANeXt,使用流匹配(flow-matching)方式生成动作,骨干网络为Qwen3-VL-2B-Instruct,结构与VLA-Adapter完全不同,用于验证Pion的效果是否只针对特定架构。测试在更有挑战性的LIBERO-Plus上进行,该测试集包含了背景变化、摄像头角度变化、语言描述变化、场景布局变化、光照变化、噪声干扰和机器人本体变化等七种扰动。Pion在所有扰动类别下都优于Muon和AdamW,总平均成功率分别为Pion 75.93%、Muon 72.34%、AdamW 64.57%。在语言描述变化这一扰动下,Pion比Muon高出约9个百分点;在噪声和机器人变化扰动下,也各高出约6个百分点。这表明Pion训练出的策略对分布变化有更好的鲁棒性。
研究团队还提供了一个具体的对比案例。在一个"抓取装有柑橘类饮料的容器并放入编织托架"的任务中,AdamW训练的模型抓错了瓶子,显然语言理解出了偏差;Muon训练的模型抓到了正确的瓶子,但在移动过程中碰撞了旁边的物体,体现了均匀白化导致的"动作抖动";只有Pion训练的模型干净利落地完成了全程,没有任何碰撞。
七、在真实机器人上的测试结果
模拟环境中的成功总要经受真实世界的考验。研究团队用一台Franka Research 3机械臂,在DROID硬件平台上验证了Pion。他们使用π0.5这一现有的VLA骨干模型,用200条遥操作示范轨迹进行微调,然后在三个抓取放置任务上评估:黄瓜→盘子、方块→盘子、方块→碗。每个任务进行30次随机初始位置的试验。
结果相当惊人:AdamW的平均成功率为31.1%,Muon为38.9%,而Pion达到了85.6%。具体到单个任务:黄瓜→盘子,Pion为93.3%,Muon为56.7%,AdamW为40.0%;方块→盘子,Pion为83.3%,两者均为33.3%;方块→碗,Pion为80.0%,Muon为26.7%,AdamW为20.0%。这些收益全部在只有20000个训练步的低预算设置下取得,比AdamW通常所需的训练量少得多,说明Pion在真实机器人任务上同样具有更高的步效率。
从视频帧的对比中可以看到,AdamW在黄瓜任务中反复尝试抓取但始终无法将黄瓜从桌面提起;Muon能抓起黄瓜,但中途夹爪过早张开,黄瓜在运输过程中掉落;Pion则稳定地完成了抓取到放置的全部动作。在最困难的方块放碗任务中,AdamW提起方块但高度不够,无法越过碗沿;Muon的夹爪与方块对位不准,无法形成稳定抓取;Pion则成功将方块放入碗中。
八、在推理强化学习中的测试结果
除了机器人场景,研究团队还在RLVR场景下进行了大规模测试。他们使用Qwen3-1.7B和Qwen3-4B两个模型,分别用GRPO和GMPO两种强化学习算法,在MATH和GSM8K两个数学推理数据集上训练,共形成8个测试设置。
在全部8个设置中,Muon的表现都是崩溃型的:精度在整个训练过程中始终接近于零,有时甚至低于训练开始时的检查点。这与理论分析完全吻合——低信噪比的RLVR梯度在均匀白化下,噪声被放大到与有效信号同等强度,模型参数遭到破坏。
AdamW在所有设置中都能稳定训练,精度随步数持续提升。Pion则进一步超过AdamW,在所有设置下都表现出更快的收敛速度。研究团队还测量了整个训练过程中Pion与AdamW的梯度信噪比,发现Pion始终维持比AdamW更高的梯度信噪比,这从机制上解释了Pion为什么更稳定、更有效。
为了确认Pion的收益来自高通滤波这个特定设计而非其他因素,研究团队还构造了一个"反向消融"实验——Low-pass Muon(低通Muon,简称LPMuon)。这个变体保持相同的NS迭代结构和计算成本,但把系数改成产生相反的效果:大奇异值被压缩、小奇异值被放大。结果LPMuon完全无法训练,精度停在初始检查点不动。三种变体的对比清晰地说明:Muon无过滤失败,LPMuon反向过滤失败,只有Pion的正向高通过滤能够成功。滤波方向是关键。
九、消融实验揭示的更多细节
研究团队还设计了一系列细粒度的消融实验来深入理解Pion的工作机制。
关于Pion与LRMuon的比较,研究团队在LIBERO Object任务上系统测试了LRMuon在不同秩k(1、16、64、256)下的性能。结果显示,LRMuon在所有秩设置下都优于Muon,但始终劣于Pion——这说明软性高通过滤优于硬性截断排名投影。而且LRMuon在秩为256时总训练时间高达7.03小时,而Muon和Pion都只需约0.47小时,差距约15倍。
关于按头模式与整体模式在VLA任务上的比较,研究发现两种模式效果相近,整体模式稍微好一点(四任务平均97.25% vs 96.85%)。这印证了研究团队的判断:VLA动作头是从头开始训练的,没有预训练建立的头部异质性,按头处理的额外收益很小,整体模式已经足够。相比之下,RLVR的LLM骨干网络有大量预训练积累的头部异质性,按头处理才真正重要。
研究团队还系统测试了不同模块分配不同优化器的组合效果。在9种组合中,视觉模块用Muon+语言模块用Muon+动作模块用Pion(S9组合)达到了100%的成功率,是所有组合中的最高值。相比之下,视觉模块换成Pion会使成功率崩溃到17.8%(S7),说明高秩的视觉梯度不适合高通过滤;语言模块换成Pion会把成功率压低到73.8%(S5);而动作模块用Pion而其他用AdamW时成功率只有73.6%(S3),说明仅凭动作模块的改善远不够,需要视觉和语言模块也用Muon来发挥全部潜力。这个实验有力地表明,Pion的优势来自对动作头梯度低秩结构的精准适配,而不是简单地"Pion比Muon好"这一笼统结论。
归根结底,这项研究揭示的核心道理是:没有一个优化策略是万能的。Muon的均匀白化在信号丰富、梯度高秩的预训练场景中是一种优秀的探索策略;但当训练信号稀疏、梯度低秩或低信噪比时,同样的策略反而成了放大噪声的放大器。Pion通过把NS迭代从"全频道均衡器"改造成"高通滤波器",以完全相同的计算成本解决了这一矛盾。对于机器人训练,这意味着更快达到高成功率、更少的训练步数;对于推理模型的强化学习,这意味着训练不再崩溃、精度稳步提升。
当然,研究团队也坦诚了一个限制:Pion并不适合LLM预训练。预训练的梯度通常是高秩的,各方向都有有意义的信息,Muon的均匀探索策略恰恰能充分利用这种丰富性。Pion的高通过滤会丢弃这些信息,反而会比Muon表现差。如何让高通截止频率自适应地调整,在预训练时退化为Muon、在后训练时转变为Pion,是研究团队留给未来的开放问题。
由此可见,优化器的设计不仅仅是数学问题,更是信号处理哲学的问题:什么是噪声,什么是信号,取决于你所处的训练阶段和数据结构。这篇发表于arXiv的论文(编号2605.19282)的价值,不仅在于提供了一个工程上可用的工具,更在于提供了一个理解不同训练场景信号特征差异的分析框架。有兴趣深入了解的读者可以通过该编号在arXiv上查阅完整论文及代码。
Q&A
Q1:Pion优化器和Muon优化器的主要区别是什么?
A:Muon会把梯度矩阵中所有方向的强度都统一调整为相同大小,相当于把有用信号和噪声都放大到同等音量。Pion则通过一个两阶段机制,先把重要方向提升,再压制弱小方向,形成高通滤波效果——强信号保留,噪声压向零。两者计算成本完全相同,区别只在多项式系数的设计。
Q2:VLA机器人训练中为什么动作模块梯度和视觉模块梯度不同?
A:机器人的动作本质上是一个7维向量(手腕的平移、旋转和夹爪状态),信息量远小于视觉模块要处理的像素或语言模块要处理的词汇。因此动作模块的梯度只在少数几个方向上有真正有用的信息(低有效秩),而视觉和语言模块的梯度分布在几百个方向上(高有效秩)。
Q3:为什么强化学习微调时Muon优化器会导致模型崩溃?
A:强化学习依赖轨迹级别的奖励信号,每道题答完才知道对不对,信号稀疏;再加上截断、重要性采样等操作进一步引入噪声,整体梯度信噪比远低于监督微调。Muon把所有方向都放大到同等强度,相当于让噪声主导了参数更新,模型很快就被错误方向带崩溃了。





京公网安备 11011402013531号