![]()
这项由新加坡科学技术研究局高性能计算研究院联合上海工程技术大学开展的研究,于2026年5月30日以预印本形式发布,论文编号为arXiv:2606.00761,感兴趣的读者可通过该编号查阅完整论文。
**研究背景:被忽视的"调光旋钮"**
现代AI大模型,尤其是那些用来回答问题、写文章、帮你处理各种任务的语言模型,内部结构远比人们想象的复杂。为了让这些模型既聪明又不至于耗尽所有计算资源,工程师们发明了一种叫做"专家混合"(Mixture-of-Experts,简称MoE)的架构。你可以把它理解成一个超大型公司,里面有几十甚至几百个专业部门——每当一个问题进来,公司前台(路由器)会判断这个问题该交给哪几个部门来处理,其他部门则继续休息,不参与本次任务。这样一来,整个公司的人数虽然庞大,但每次真正出动的员工却很少,效率大幅提升。
在这套架构里,每个专业部门(专家)处理问题的方式,很大程度上取决于一个叫做"SwiGLU"的激活机制。这个机制本质上是一个"开关"——它决定每条信息通路是被放大、被压制,还是被保留。然而长期以来,这个开关的"灵敏度"是固定的,无论任务轻重、信息多少,它始终以同一个标准运作。这篇论文的核心贡献,就是给这个开关加装了一个"调光旋钮",让它能根据当前任务的确定程度,自动调整自己的灵敏度。研究团队将这个改进方案命名为κ-SwiGLU(读作"卡帕-SwiGLU")。
**一、先搞清楚"开关"和"路由"是什么**
在深入了解这个改进方案之前,有必要先弄清楚两个核心概念。
首先是SwiGLU的工作原理。每当一个词或一段信息进入模型的某个专家时,这个专家内部会有许多并行的"信息通道"。SwiGLU的作用是对每条通道加一个"门控"——这个门控会根据输入信号的大小,决定这条通道的信号是被放大传出,还是被压制归零。具体来说,它用的是一种叫做SiLU的函数:当输入信号很强时,门会开得很大,信号几乎全部通过;当输入信号接近零时,门会几乎关闭;当输入信号为负时,门会完全关闭,信号被屏蔽掉。这个机制让模型能够选择性地激活对当前任务有用的特征,同时抑制无关信息。
然后是"路由确信度"的概念。在MoE架构中,前台(路由器)是通过计算每个问题向量与每个专家"特征向量"之间的相似程度来决定分配方案的——相似程度越高,说明这个专家越适合处理这个问题,分配给它的"确信度"也越高。这个相似程度对应一个具体的数值,称为路由逻辑值(router logit)。数值越大,说明路由器越确信这个问题该由这个专家处理。
这里有一个关键的物理意义:在高维空间里,被路由到同一个专家的所有问题,其向量方向都与该专家的特征向量方向有一定的重叠。重叠越大,说明这个问题与该专家的"专业领域"越契合,也就是说路由器对这次分配越有把握。研究人员在实验中验证了这一点——在一个8层MoE模型的第7层,被路由到某个专家的所有问题向量与该专家特征向量的余弦相似度,稳定在0.075到0.25之间,均值约为0.15。这个数字在512维空间里意义重大,因为对于随机分布的单位向量来说,满足这一相似度条件的向量在整个空间中占比仅约0.03%——这说明被路由的问题并非随机落入,而是真的聚集在专家特征方向附近。
**二、一个意外发现:专家开关和路由器在"私下勾连"**
研究团队在深入分析MoE的训练过程时,发现了一个此前从未被系统研究过的现象——专家内部的门控投影方向,会在训练过程中自动向路由器的特征方向靠拢,或者朝完全相反的方向偏移。
用公司的比喻来说:前台(路由器)判断某个问题是否该交给某个部门,用的是一套打分标准;而这个部门内部处理问题时的"筛选机制"(门控投影),在训练过程中会悄悄把自己的筛选标准调整得和前台的打分标准越来越相似,或者越来越相反。这种现象意味着什么?
意味着当一个问题被高确信度地分配给某个专家时,这个问题的向量与路由器方向高度重叠,而专家的门控投影向量也与路由器方向高度对齐(或反向对齐),因此门控信号的输入值会被系统性地放大(或压制)。换句话说,路由器的确信度高低,会通过这种"隐性偏移"效应,自动影响专家内部的门控强弱——高确信度的问题会落在门控曲线的更活跃区域,低确信度的问题则可能落在更不活跃的区域。
研究人员在7个独立训练的8层MoE模型上系统测量了这种对齐现象。结果显示,在训练刚开始的几百步内,门控投影就迅速与路由器方向形成了0.2到0.4的余弦相似度峰值。尽管这种对齐强度随着训练推进而有所衰减,但始终维持在非零水平。更有趣的是,不同层的对齐方向会有所不同——例如第4层在训练初期呈正向对齐,但后来转变为一致的负向对齐;而第7层则在大部分训练时间内保持正向对齐。这表明路由器与门控之间的耦合是一种普遍存在的现象,但其具体表现形式因层而异。
研究人员还进一步量化了这种隐性偏移对门控输入的实际影响。通过分解门控投影向量的平行分量和垂直分量,可以计算出由路由器方向引起的系统性偏移量。在两个代表性层上,所有专家中排名前5%和后5%的偏移量,分别在整个训练过程中稳定维持正值和负值,说明这种双向的、非对称的门控偏移是真实存在且持续发生的。
**三、κ-SwiGLU:给"开关"装上随机应变的调光旋钮**
发现了这种隐性耦合之后,研究团队提出了一个自然而然的想法:既然路由器的确信度已经在悄悄影响门控行为了,为什么不把这种影响做得更显式、更可控、更灵活呢?
标准SiLU函数的形状是固定的,它的过渡区域宽度(即从"关闭"到"开启"所需要的输入变化范围)是不变的。研究人员给这个形状引入了一个控制参数κ——当κ大于1时,过渡区域变窄,门控变得更加"非此即彼",像一个精准的开关,小幅度的输入变化就能导致门控状态的剧烈切换;当κ小于1时,过渡区域变宽,门控变得更加"平滑宽容",能对更广泛的输入范围做出响应。标准SiLU对应的是κ=1的特殊情况。
κ-SwiGLU的核心思路,就是让每个专家的每个门控单元,根据当前问题的路由确信度动态计算自己的κ值。具体公式为:κ值通过一个关于路由逻辑值的线性变换后再做有界映射来得到。线性变换包含两个可学习的标量参数:α(缩放系数)和b(偏置项)。线性变换的输出会经过一个`U^tanh(z)`的有界映射,其中U是一个超参数,设置为3——这意味着κ的取值范围被严格限制在(1/3, 3)之间,防止极端的κ值破坏训练稳定性。当α和b都为0时,κ=1,κ-SwiGLU退化为标准SwiGLU,保证了向后兼容性。
值得注意的是,κ-SwiGLU对标准SwiGLU的修改只发生在"门控"部分,而不影响信息通路部分。整个计算过程中,路由逻辑值在前向传播中本就是现成可用的,计算κ只需要几个元素级的运算,不涉及任何额外的矩阵乘法。
从直觉上理解,这个机制允许每个专家根据"这个问题我有多确定"来调整自己处理信息的方式。当路由器非常确信这个问题适合这个专家时(高确信度),专家可以学会用更锋利的门控来精准筛选特征;当路由器只是勉强把问题分配给这个专家时(低确信度),专家可以学会用更宽容的门控来保留更多信息。当然,具体是哪种策略更好,是由训练数据决定的,不同的专家可以学到不同的策略。
**四、如何训练这个新机制而不让它失控**
给模型加新机制,最担心的问题是训练不稳定——新参数乱跑,导致整个训练崩溃。研究团队为此设计了几个保障措施。
首先是"冷启动"策略:α和b在训练的前1/10时间内被冻结在0,此时κ-SwiGLU完全等同于标准SwiGLU,让模型先建立稳定的路由行为和专家表示,再引入动态门控。这就好比新员工入职先观察公司运作,摸清情况后再开始提出改进建议,而不是第一天就大刀阔斧地改变流程。
其次是L2正则化:对α和b施加惩罚,防止它们无限增大,也就是防止门控偏离标准SiLU太远。正则化系数分别设为λα=0.02和λb=0.01。经过调试,这组参数在抑制过拟合的同时,还保留了足够的学习灵活性。
在学习率方面,κ-SwiGLU的专属学习率方案是线性预热到0.12,再线性衰减到0.06。与主模型参数的优化器不同,α和b使用AdamW优化器单独管理,学习率0.3。
**五、实验设置:在多个模型规模上反复验证**
研究团队在一个叫做FineWeb-Edu的教育内容数据集上训练了一系列MoE语言模型,覆盖了从8层到28层的多种配置,使用4块H200 GPU完成训练。为了在有限显存内实验更多配置,团队采用了两种架构策略:标准MoE(8到14层,其中6到10层为MoE层)和"三明治"MoE(16到28层,但MoE层只有中间的2层,其余全是普通全连接层)。
全部8种配置中,最小的MoE-8L模型有约2700个参数(总量),但每次处理一个词只激活约269个参数,训练了27亿个词;最大的Sandwich-28L模型总参数约3300个,每次激活约849个,训练了142亿个词。每种配置都对标准SwiGLU和κ-SwiGLU各训练3个独立运行(随机种子24、26、28),报告均值和标准差。
评估指标使用了一套叫做CORE的基准测试,包含22个涵盖常识推理、知识问答和语言建模等方向的数据集,汇总成一个"中心化CORE分数"——这个分数会减去随机猜测基线,因此能更准确地反映模型的真实能力增长。
**六、实验结果:8种配置中7种得到改善**
结果相当清晰。在4种标准MoE配置上,κ-SwiGLU的CORE分数均高于标准SwiGLU:MoE-8L从13.5提升到14.5(提升1.0个百分点),MoE-10L从17.5提升到18.3(提升0.9),MoE-12L从20.1提升到20.8(提升0.7),MoE-14L从23.3提升到23.9(提升0.6)。浅层模型的改善幅度略大,研究团队推测原因是浅层模型使用了更大的专家池(最多64个专家),MoE特性更突出,因此动态门控的收益更明显;而深层标准MoE为了节约显存被迫减少专家数量到16个,MoE的稀疏性减弱。
在4种三明治MoE配置上,除了最浅的Sandwich-16L略有下降(从14.3降到14.1,差距在误差范围内)之外,其余三种均有提升:Sandwich-20L从18.1提升到18.5(+0.5),Sandwich-24L从19.7提升到20.3(+0.6),Sandwich-28L从21.3提升到21.9(+0.6)。即便整个模型只有两个MoE层,动态门控的效果依然稳定存在。
研究团队特别指出,单看每个配置的改善幅度,与运行间的随机波动相比并不总是显著,但8个配置中7个一致向好,这种跨配置的一致性本身就是强有力的信号——改善不是偶发的噪声,而是方法本身带来的系统性收益。
**七、剥丝抽茧:到底是哪个部分起了作用**
为了理解κ-SwiGLU改善的来源,研究团队做了消融实验,把κ参数分成两部分单独测试。第一种变体(κ-SwiGLU-α)去掉了与路由逻辑值相关的缩放项,只保留偏置项b;第二种变体(κ-SwiGLU-b)去掉了偏置项b,只保留缩放项α·s(x);第三种是完整的κ-SwiGLU。
在MoE-8L和MoE-10L上的结果非常清晰:去掉与路由确信度直接相关的缩放项α·s(x),性能与标准SwiGLU相差无几甚至略差(MoE-8L:13.4 vs 13.5基线);而去掉偏置项b,性能依然接近完整版(MoE-8L:13.9 vs 14.5完整版,MoE-10L:18.5 vs 18.3,在误差范围内基本持平)。这说明路由确信度驱动的动态缩放才是核心收益来源,而偏置项提供的是额外的灵活性调节,没有前者重要。
**八、计算代价:几乎可以忽略的小小代价**
任何新方法都有计算代价,κ-SwiGLU也不例外。研究团队在最大的MoE-14L模型上进行了详细的开销测量。结果是:额外引入的激活参数仅增加0.02%,可以完全忽略不计。训练吞吐量(每秒处理词数)从153,200降至142,500,下降约7%;推理吞吐量从24,600降至23,729,下降约3.5%。这些开销完全来自计算κ所需的少量额外元素级运算。研究团队表示,通过进一步的底层算子优化,这些开销还有望降至可忽略的水平。
**九、κ值是怎么变化的:训练过程的内部观察**
研究团队还深入分析了κ值在训练过程中的动态变化,在12层MoE的第9层进行了详细追踪。结果呈现出一个有趣的"先分化,再收敛"的模式。
在训练前1/10时间内,κ被冻结在1,门控行为与标准SwiGLU完全相同。解冻之后,κ值迅速分化:排名前5%的门控单元的κ值急剧攀升到约2.5,而排名后5%的门控单元的κ值急剧下滑到约0.4。这意味着一部分门控变得极其锋利,另一部分则变得极其宽容。随着训练继续推进,两组κ值都缓慢向1靠拢,但在训练结束时仍明显偏离1——大约分别维持在1.2-1.5和0.6-0.8的范围。
这种"先大幅探索,再适度收敛"的模式,说明模型并没有走向极端,也没有退化为均匀的调整;而是在充分探索了门控弹性空间之后,学到了一个持续有效的适度调制策略。与此同时,对α和b参数的追踪显示,α的贡献远大于b——在训练中期,以典型路由逻辑值2.5为例,α·s(x)项对最终κ的贡献约是b项的1.675倍,进一步验证了消融实验的结论。
**研究的局限与未来展望**
这项研究本身也坦诚地指出了若干局限性。所有实验都在相对小规模的MoE模型上进行,最大的模型与当前前沿的商业MoE系统(如GPT-4、DeepSeek等)相比仍有相当大的规模差距。在更大的参数量、更长的训练时间和更大规模的预训练数据上,是否能观察到同样的改善趋势,尚待验证。
评估维度也相对集中,主要依赖CORE这套预训练基准。在指令跟随、长文本处理、推理密集任务等更贴近实际使用的场景下,动态门控的效果还需要进一步探索。此外,当前的κ参数化方案使用的是路由逻辑值的简单线性变换;是否存在更好的置信度信号来源、更合适的变换形式、更优的初始化和正则化策略,都是值得后续研究的方向。未来的工作也可以考虑将这一思路推广到语言模型以外的其他MoE应用场景。
说到底,κ-SwiGLU做的事情,用一句话概括就是:让专家在接到自己最擅长的任务时,把筛选标准调得更严格、更精准;在接到稍显陌生的任务时,则放宽标准、多保留一些可能有用的信息。这个机制的计算代价微乎其微,却在跨越多种模型架构和模型深度的实验中,一次又一次地带来了稳定的性能提升。
对于想要在现有MoE模型上进行低成本改进的研究者和工程师来说,这个方向值得认真考量。而对于普通用户来说,这项研究意味着未来的AI助手在处理它"更擅长"的问题时,可能会给出更精准、更聚焦的回答,而不是千篇一律地用同样的处理方式对待所有问题。
有兴趣深入了解技术细节的读者,可以通过论文编号arXiv:2606.00761查阅完整的研究报告。
**Q&A**
Q1:κ-SwiGLU和普通SwiGLU有什么实质区别?
A:普通SwiGLU的门控灵敏度是固定的,无论什么问题进来都用同一套标准筛选信息。κ-SwiGLU则根据路由器对"当前问题交给这个专家处理"这件事的确信程度,动态调整门控的灵敏度——确信度高时门控更锋利,确信度低时门控更宽容。这两个参数每个专家独立学习,整体新增参数量不到原来的0.02%。
Q2:"路由器-门控隐性耦合"是什么意思,为什么重要?
A:在MoE模型训练过程中,研究人员发现专家内部的门控投影向量会自动向路由器的特征向量方向对齐或反向对齐。这导致路由确信度高的问题在专家内部会得到系统性的门控偏移,相当于路由器和专家之间存在一条隐藏的"信息通道"。这个现象之前从未被系统研究过,正是这一发现激发了κ-SwiGLU的设计思路。
Q3:κ-SwiGLU的训练为什么要先冻结κ参数一段时间?
A:如果一开始就让κ参数自由变化,模型的路由行为和专家表示还不稳定,动态门控可能会引入混乱。研究团队将α和b在训练前10%的步骤内冻结为0,此时κ=1,模型与标准SwiGLU完全相同,先让路由和专家表示趋于稳定。之后再解冻κ参数,让门控在稳固的基础上逐步学习动态调整策略,从而保证训练稳定性。





京公网安备 11011402013531号