当AI优化器"过于自信"时，机器人和推理模型会崩溃

IP属地中国·北京 科技行者 时间：2026-05-30 00:19:03

这项由密歇根州立大学、思科公司、明尼苏达大学以及IBM研究院联合开展的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.19282。研究的核心问题听起来有些绕口，但背后的故事却非常引人入胜：一个在语言模型训练上表现出色的优化器，为什么在机器人控制和推理强化学习场景中会"翻车"，甚至完全崩溃？以及，研究团队如何通过重新设计一个数学工具来解决这个问题？
要理解这篇研究，可以用"频道滤波器"这个比喻贯穿始终。收音机里有一个调频旋钮，它的作用是把你想听的那个频道的信号放大，同时压制其他频道的噪声。如果这个滤波器坏掉了，把所有频道的信号都一视同仁地放大，你听到的就是一锅嘈杂的混音。研究团队发现，现有的一个流行优化器正是这样——它把真正有用的信号和无用的噪声都放大到同样的强度，在某些训练场景下制造了麻烦。他们随即设计了一个新的"高通滤波器"版本，让有用的信号通过，同时压制噪声，效果显著。
一、优化器是什么，它为什么重要
在深入了解研究内容之前，有必要先理解"优化器"在机器学习中扮演的角色。每次训练一个AI模型，本质上都是在不断调整模型内部几千万乃至几百亿个参数，让模型的输出越来越接近正确答案。优化器就是负责"怎么调"的那个策略——它告诉训练系统，每次应该往哪个方向调整、调整多少。
长期以来，一个叫AdamW的优化器占据主导地位，它对每个参数独立地进行自适应调整，就像一个工厂里有几千万个独立的小调节旋钮，每个旋钮根据自己所在位置的情况自行决定转多少。这种方式非常灵活，但也有局限。
近年来，一类新型的"矩阵感知"优化器崭露头角。其中，Muon（全称MomentUm Orthogonalized by Newton–Schulz）是最受关注的一个。它不再孤立地看待每一个参数，而是把一个权重矩阵作为整体来处理，利用矩阵的几何结构来决定更新方向。具体来说，Muon通过一种叫做"Newton–Schulz迭代"（NS迭代）的数学操作，把梯度矩阵的所有"方向强度"——也就是奇异值——都统一调整到相同的大小1，这个过程被称为"均匀谱白化"。可以把它类比为一个均衡器：无论某个频道的信号原来是强还是弱，它都把每个频道的音量旋到同样的位置。这种做法在大语言模型预训练阶段非常有效，能够让模型更充分地探索参数空间，在多项任务上超越AdamW。
然而，研究团队发现，这个"把所有频道音量都调一样"的策略，在两类重要的非预训练场景中会产生严重问题。这两类场景就是：机器人视觉-语言-动作模型（VLA）训练，以及带有可验证奖励的强化学习（RLVR）。
二、机器人训练时遇到了什么麻烦
VLA模型是近年来机器人领域的一个重要方向。它的目标是让机器人能够理解视觉图像和语言指令，然后输出具体的动作——比如"把那个红色的杯子放到托盘上"。这类模型内部通常由三个模块组成：视觉编码器、语言主干，以及动作头。前两者负责"看"和"听"，动作头负责"做"。
研究团队发现，这三个模块在训练时产生的梯度，在内在复杂度上存在巨大差异。他们使用了一个叫做"有效秩"（erank）的指标来衡量这种复杂度——可以理解为，梯度信息分布在多少个有意义的方向上。视觉模块的梯度"有效秩"很高，信息分散在几百个方向上；语言模块居中；而动作头的梯度"有效秩"极低，往往只集中在寥寥几个方向上。这是有道理的：机器人的一个动作只是一个7维向量（手腕的平移、旋转和夹爪状态），自然比处理像素或词汇要简单得多。
回到频道滤波器的比喻：动作头的梯度就像一个只有3个真正重要频道、其余都是弱噪声的信号。Muon的均匀白化操作，会把这3个重要频道和其他几百个噪声频道都放大到同样的音量，结果有用信号被淹没在噪声里。研究团队用实验验证了这一点：在LIBERO Object这个机器人基准测试上，当动作头使用Muon训练时，成功率只有82.2%，反而不如使用AdamW的93.6%。
研究者也考虑了一个现有的改进方案——Low-rank Muon（低秩Muon，简称LRMuon）。它的思路是：先通过精确的奇异值分解（SVD）找出梯度中最重要的前k个方向，只保留这些方向进行更新，其余方向直接丢弃。这样确实能自适应地处理低秩梯度，把成功率提高到97%。但问题是，SVD计算非常昂贵，会导致总训练时间增加约15倍。这在实际应用中是不可接受的。
三、强化学习训练时又遇到了什么麻烦
RLVR是另一个热门方向，它的目标是通过让模型与"可以自动验证答案的题目"互动来提升推理能力——比如数学题、编程题，因为这些题有明确的对错之分，不需要人工判分。DeepSeek-R1等模型的推理能力提升，背后就用到了类似的技术路线。
研究团队注意到，RLVR的梯度信噪比（SNR）远低于普通的监督微调（SFT）。信噪比可以理解为：在所有的梯度更新信号里，真正有意义的部分占多少。SFT的信噪比很高，因为每个token都有明确的教师信号；RLVR则不同，它依赖轨迹级别的奖励（做完一整道题才知道对不对），信号稀疏，同时还有重要性采样、截断和归一化等操作进一步引入噪声。研究团队从理论推导上给出了严格的信噪比对比公式，证明RLVR的梯度信噪比显著低于SFT。
在这样的低信噪比环境下，Muon的均匀白化就变成了灾难。回到频道滤波器的比喻：RLVR的梯度就像一个真正有意义的信号只占一小部分、大部分都是噪声的广播。把所有频道都放到同样音量，等于让噪声彻底主导了更新方向。研究团队在实验中发现，当使用Muon训练Qwen3-1.7B模型在MATH数学题上的GRPO强化学习时，模型精度从训练开始就一路下滑，最终趋近于零，发生了完全的崩溃。而AdamW在同样设置下能稳定提升精度。
除此之外，研究团队还指出了Muon的另一个问题：它把注意力机制的权重矩阵作为一个整体来处理，而忽视了不同注意力头（attention head）之间已经在预训练中形成的异质性。预训练后，不同的注意力头扮演不同的角色，各自的权重范数（可以理解为"音量旋钮的初始位置"）存在显著差异。这种差异本身是有意义的——它决定了不同头的注意力模式和对梯度的贡献。Muon对整个矩阵做均匀处理，会强行抹平这种差异，强制让所有头以相同的更新幅度改变，破坏了预训练积累下来的有益结构。
四、Pion的设计：一个精心调校的高通滤波器
面对以上两个限制，研究团队提出了Pion（sPectral hIgh-pass Optimization on momeNtum，即基于动量的谱域高通优化）。Pion的核心想法来自对NS迭代本质的深刻理解。
NS迭代的每一步，在数学上等价于对矩阵中的每一个奇异值（也就是每个"频道强度"）独立施加一个标量多项式变换。Muon的NS迭代所使用的多项式，会把所有奇异值都趋向1——这就是均匀白化。而Pion的关键洞察是：设计NS迭代，本质上等价于设计这个标量多项式。如果能把这个多项式换成一个"高通滤波器"的形状——让大的奇异值保持在1附近，让小的奇异值趋向0——问题就解决了。
研究团队把这个新的NS迭代分成两个阶段，称为"促进+抑制"机制。第一阶段叫做促进（Promotion）：使用一个精心设计的多项式，把所有奇异值都尽可能地往上抬，让原本较弱的方向也有机会通过后续的筛选门槛。第二阶段叫做抑制（Suppression）：使用另一个多项式，把小的奇异值压向0，同时把大的奇异值锚定在1。两个阶段串联起来，就产生了一个尖锐的高通滤波效果：大奇异值（代表真正重要的信号方向）被完整保留，小奇异值（代表噪声）被压制为零。
这两个多项式的系数不是随意拍脑袋定的，而是通过数学约束严格推导出来的。以促进多项式为例，它需要满足三个条件：当奇异值已经是1时保持不动（固定点条件），当奇异值接近1时不要进一步放大扰动（一阶平稳条件），以及在奇异值等于1处曲率不向上弯（边界凹性条件）。这三个约束加上全区间单调性的要求，唯一确定了促进多项式的系数为(1.875, -1.25, 0.375)。抑制多项式则额外要求在原点处斜率为零（谱滤波条件），强迫小奇异值被高阶项压向0，系数由此唯一确定为(0, 2.5, -1.5)。
整个迭代总步数固定为5步（与Muon相同），其中促进步数kp可以在0到5之间选择，剩余步数用于抑制。这个kp是Pion唯一需要调节的超参数，控制滤波器的截止频率——kp越小、抑制步数越多，过滤效果越激进。研究团队发现，在VLA和RLVR两种场景下，抑制步数ks不小于3（即kp不超过2）时效果最好。由于总步数不变，Pion每步的计算成本与Muon完全一致。
五、针对注意力头异质性的额外设计
除了高通滤波机制，Pion还针对RLVR场景引入了一个"按头处理"的模式。具体来说，在处理注意力层的权重矩阵时，Pion先沿着注意力头的维度把矩阵切分成多个小块，每个头对应一个小块，然后对每个小块独立地运行高通NS迭代，最后再拼回原来的形状。这个操作的额外代价几乎可以忽略不计，只是多了一次形状变换。
研究团队通过实验验证了这个设计的必要性。他们测量了Qwen3-1.7B模型在RLVR训练前和训练后，不同注意力头的Q投影权重矩阵范数的跨头方差。训练前，这个方差在所有28个层都相当显著，说明不同头的"初始音量"差异很大。而如果使用整体模式的Pion（不分头处理），训练后各头的更新幅度几乎完全一样（方差接近于零），说明整体模式会强制平均掉各头之间的差异。按头模式则能根据每个头的实际情况给出差异化的更新，保留了预训练建立的异质性结构。
有一个细节值得关注：按头模式对Muon无效。即使把Muon改成按头处理，它在RLVR上依然崩溃，因为噪声放大的问题（Limitation 2）并没有因为分头而消失。这说明高通滤波是RLVR稳定训练的关键，按头分解只是一个辅助机制，用来保护预训练的头部结构。
六、在模拟机器人环境中的测试结果
研究团队在LIBERO和LIBERO-Plus两个机器人基准测试套件上，用两种不同架构的VLA模型验证了Pion的效果。
第一个模型VLA-Adapter，使用l1回归方式预测动作，模型骨干基于Prismatic-Qwen2.5-0.5B。在LIBERO Object任务上，使用AdamW训练的模型在1500步时成功率为32.2%，Muon为97.0%，而Pion达到了100%。在Spatial、Goal、Long三个任务上，Pion同样在训练15000步后取得了最高的成功率（分别为99.4%、97.2%、92.4%），均超过Muon（99.0%、95.8%、88.0%）和AdamW（97.0%、89.2%、69.6%）。
从训练曲线来看，Pion达到95%成功率只需要大约500步，而AdamW和Muon需要更多步数才能达到同样水平，说明Pion不仅最终效果更好，收敛速度也更快。
第二个模型VLANeXt，使用流匹配（flow-matching）方式生成动作，骨干网络为Qwen3-VL-2B-Instruct，结构与VLA-Adapter完全不同，用于验证Pion的效果是否只针对特定架构。测试在更有挑战性的LIBERO-Plus上进行，该测试集包含了背景变化、摄像头角度变化、语言描述变化、场景布局变化、光照变化、噪声干扰和机器人本体变化等七种扰动。Pion在所有扰动类别下都优于Muon和AdamW，总平均成功率分别为Pion 75.93%、Muon 72.34%、AdamW 64.57%。在语言描述变化这一扰动下，Pion比Muon高出约9个百分点；在噪声和机器人变化扰动下，也各高出约6个百分点。这表明Pion训练出的策略对分布变化有更好的鲁棒性。
研究团队还提供了一个具体的对比案例。在一个"抓取装有柑橘类饮料的容器并放入编织托架"的任务中，AdamW训练的模型抓错了瓶子，显然语言理解出了偏差；Muon训练的模型抓到了正确的瓶子，但在移动过程中碰撞了旁边的物体，体现了均匀白化导致的"动作抖动"；只有Pion训练的模型干净利落地完成了全程，没有任何碰撞。
七、在真实机器人上的测试结果
模拟环境中的成功总要经受真实世界的考验。研究团队用一台Franka Research 3机械臂，在DROID硬件平台上验证了Pion。他们使用π0.5这一现有的VLA骨干模型，用200条遥操作示范轨迹进行微调，然后在三个抓取放置任务上评估：黄瓜→盘子、方块→盘子、方块→碗。每个任务进行30次随机初始位置的试验。
结果相当惊人：AdamW的平均成功率为31.1%，Muon为38.9%，而Pion达到了85.6%。具体到单个任务：黄瓜→盘子，Pion为93.3%，Muon为56.7%，AdamW为40.0%；方块→盘子，Pion为83.3%，两者均为33.3%；方块→碗，Pion为80.0%，Muon为26.7%，AdamW为20.0%。这些收益全部在只有20000个训练步的低预算设置下取得，比AdamW通常所需的训练量少得多，说明Pion在真实机器人任务上同样具有更高的步效率。
从视频帧的对比中可以看到，AdamW在黄瓜任务中反复尝试抓取但始终无法将黄瓜从桌面提起；Muon能抓起黄瓜，但中途夹爪过早张开，黄瓜在运输过程中掉落；Pion则稳定地完成了抓取到放置的全部动作。在最困难的方块放碗任务中，AdamW提起方块但高度不够，无法越过碗沿；Muon的夹爪与方块对位不准，无法形成稳定抓取；Pion则成功将方块放入碗中。
八、在推理强化学习中的测试结果
除了机器人场景，研究团队还在RLVR场景下进行了大规模测试。他们使用Qwen3-1.7B和Qwen3-4B两个模型，分别用GRPO和GMPO两种强化学习算法，在MATH和GSM8K两个数学推理数据集上训练，共形成8个测试设置。
在全部8个设置中，Muon的表现都是崩溃型的：精度在整个训练过程中始终接近于零，有时甚至低于训练开始时的检查点。这与理论分析完全吻合——低信噪比的RLVR梯度在均匀白化下，噪声被放大到与有效信号同等强度，模型参数遭到破坏。
AdamW在所有设置中都能稳定训练，精度随步数持续提升。Pion则进一步超过AdamW，在所有设置下都表现出更快的收敛速度。研究团队还测量了整个训练过程中Pion与AdamW的梯度信噪比，发现Pion始终维持比AdamW更高的梯度信噪比，这从机制上解释了Pion为什么更稳定、更有效。
为了确认Pion的收益来自高通滤波这个特定设计而非其他因素，研究团队还构造了一个"反向消融"实验——Low-pass Muon（低通Muon，简称LPMuon）。这个变体保持相同的NS迭代结构和计算成本，但把系数改成产生相反的效果：大奇异值被压缩、小奇异值被放大。结果LPMuon完全无法训练，精度停在初始检查点不动。三种变体的对比清晰地说明：Muon无过滤失败，LPMuon反向过滤失败，只有Pion的正向高通过滤能够成功。滤波方向是关键。
九、消融实验揭示的更多细节
研究团队还设计了一系列细粒度的消融实验来深入理解Pion的工作机制。
关于Pion与LRMuon的比较，研究团队在LIBERO Object任务上系统测试了LRMuon在不同秩k（1、16、64、256）下的性能。结果显示，LRMuon在所有秩设置下都优于Muon，但始终劣于Pion——这说明软性高通过滤优于硬性截断排名投影。而且LRMuon在秩为256时总训练时间高达7.03小时，而Muon和Pion都只需约0.47小时，差距约15倍。
关于按头模式与整体模式在VLA任务上的比较，研究发现两种模式效果相近，整体模式稍微好一点（四任务平均97.25% vs 96.85%）。这印证了研究团队的判断：VLA动作头是从头开始训练的，没有预训练建立的头部异质性，按头处理的额外收益很小，整体模式已经足够。相比之下，RLVR的LLM骨干网络有大量预训练积累的头部异质性，按头处理才真正重要。
研究团队还系统测试了不同模块分配不同优化器的组合效果。在9种组合中，视觉模块用Muon+语言模块用Muon+动作模块用Pion（S9组合）达到了100%的成功率，是所有组合中的最高值。相比之下，视觉模块换成Pion会使成功率崩溃到17.8%（S7），说明高秩的视觉梯度不适合高通过滤；语言模块换成Pion会把成功率压低到73.8%（S5）；而动作模块用Pion而其他用AdamW时成功率只有73.6%（S3），说明仅凭动作模块的改善远不够，需要视觉和语言模块也用Muon来发挥全部潜力。这个实验有力地表明，Pion的优势来自对动作头梯度低秩结构的精准适配，而不是简单地"Pion比Muon好"这一笼统结论。
归根结底，这项研究揭示的核心道理是：没有一个优化策略是万能的。Muon的均匀白化在信号丰富、梯度高秩的预训练场景中是一种优秀的探索策略；但当训练信号稀疏、梯度低秩或低信噪比时，同样的策略反而成了放大噪声的放大器。Pion通过把NS迭代从"全频道均衡器"改造成"高通滤波器"，以完全相同的计算成本解决了这一矛盾。对于机器人训练，这意味着更快达到高成功率、更少的训练步数；对于推理模型的强化学习，这意味着训练不再崩溃、精度稳步提升。
当然，研究团队也坦诚了一个限制：Pion并不适合LLM预训练。预训练的梯度通常是高秩的，各方向都有有意义的信息，Muon的均匀探索策略恰恰能充分利用这种丰富性。Pion的高通过滤会丢弃这些信息，反而会比Muon表现差。如何让高通截止频率自适应地调整，在预训练时退化为Muon、在后训练时转变为Pion，是研究团队留给未来的开放问题。
由此可见，优化器的设计不仅仅是数学问题，更是信号处理哲学的问题：什么是噪声，什么是信号，取决于你所处的训练阶段和数据结构。这篇发表于arXiv的论文（编号2605.19282）的价值，不仅在于提供了一个工程上可用的工具，更在于提供了一个理解不同训练场景信号特征差异的分析框架。有兴趣深入了解的读者可以通过该编号在arXiv上查阅完整论文及代码。
Q&A
Q1：Pion优化器和Muon优化器的主要区别是什么？
A：Muon会把梯度矩阵中所有方向的强度都统一调整为相同大小，相当于把有用信号和噪声都放大到同等音量。Pion则通过一个两阶段机制，先把重要方向提升，再压制弱小方向，形成高通滤波效果——强信号保留，噪声压向零。两者计算成本完全相同，区别只在多项式系数的设计。
Q2：VLA机器人训练中为什么动作模块梯度和视觉模块梯度不同？
A：机器人的动作本质上是一个7维向量（手腕的平移、旋转和夹爪状态），信息量远小于视觉模块要处理的像素或语言模块要处理的词汇。因此动作模块的梯度只在少数几个方向上有真正有用的信息（低有效秩），而视觉和语言模块的梯度分布在几百个方向上（高有效秩）。
Q3：为什么强化学习微调时Muon优化器会导致模型崩溃？
A：强化学习依赖轨迹级别的奖励信号，每道题答完才知道对不对，信号稀疏；再加上截断、重要性采样等操作进一步引入噪声，整体梯度信噪比远低于监督微调。Muon把所有方向都放大到同等强度，相当于让噪声主导了参数更新，模型很快就被错误方向带崩溃了。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Kimi回应马斯克喊话：希望他们出来跟我们掰一掰手腕

Steam新一周游戏销量榜公布：《幻兽帕鲁》反超登顶全球收费榜

无问芯穹在WAIC发布“前店后厂一中心”Agentic Infra战略，用AI提效Token生产

财报前夕，特斯拉将Robotaxi自动驾驶出租车服务扩展至美国奥兰多和坦帕

理想回应“新一代L6超充是否会伤电池”：正常用车周期内，衰减基本不用操心

中国规模最大重离子加速器正式建成！核心软硬件100%国产化

全站最新

Kimi回应马斯克喊话：希望他们出来跟我们掰一掰手腕

Steam新一周游戏销量榜公布：《幻兽帕鲁》反超登顶全球收费榜

无问芯穹在WAIC发布“前店后厂一中心”Agentic Infra战略，用AI提效Token生产

财报前夕，特斯拉将Robotaxi自动驾驶出租车服务扩展至美国奥兰多和坦帕

热门推荐

Kimi回应马斯克喊话：希望他们出来跟我们掰一掰手腕

Steam新一周游戏销量榜公布：《幻兽帕鲁》反超登顶全球收费榜

无问芯穹在WAIC发布“前店后厂一中心”Agentic Infra战略，用AI提效Token生产

财报前夕，特斯拉将Robotaxi自动驾驶出租车服务扩展至美国奥兰多和坦帕

理想回应“新一代L6超充是否会伤电池”：正常用车周期内，衰减基本不用操心

中国规模最大重离子加速器正式建成！核心软硬件100%国产化

AI时代数据存储架构如何创新？西部数据在WAIC公布路线图

给835页文档，还你一个数据库！Cursor重塑“大模型经济学”：AI蜂群化身终极廉价编译器

电动车变充电宝！现代汽车全球推广All Day Energy服务：车主能躺赚电费差价

为了教大伙用AI，这家公司写了40万字的攻略

SpaceX股价较峰值回落30%！马斯克警告做空机构：你们存活概率极低

Kimi K3火了，月之暗面回应争议：并非蒸馏复刻现有模型

谷歌推出三款低成本Gemini模型旗舰3.5 Pro延期未发

Gemini 3.6 Flash正式发布，但网友笑得更大声了

全球首款机器人手机：荣耀 Robot Phone 拍照页面曝光，将支持大师电影模式