新智元报道
编辑:Aeneas KingHZ
Transformer杀手来了?KAIST、谷歌DeepMind等机构刚刚发布的MoR架构,推理速度翻倍、内存减半,直接重塑了LLM的性能边界,全面碾压了传统的Transformer。网友们直呼炸裂:又一个改变游戏规则的炸弹来了。
就在刚刚,KAIST、Mila和谷歌DeepMind团队等放出重磅炸弹——
一个名为Mixture-of-Recursions的全新LLM模型架构。
这个崭新的架构,被业内认为有潜力成为Transformer杀手!
它的推理速度提升2倍,训练FLOP减少,KV缓存内存直接减半。
最终,在135M到1.7B的参数规模下,MoR直接划出了一个新的帕累托前沿:相同的训练FLOPs,但困惑度更低、小样本准确率更高,并且吞吐量提升超过2倍。
全面碾压传统的Transformer!
论文链接:https://arxiv.org/abs/2507.10524
其实,学界很早就发现,Transformer复杂度太高,算力需求惊人。
比如最近CMU大牛、Mamba架构作者Albert Gu就表示,Transformer模型能力的局限太大,所谓token就是胡扯。
而谷歌产品负责人Logan Kilpatrick公开指出了注意力机制的缺陷——不可能实现无限上下文,还强调必须要在核心架构层进行全面创新。
今天谷歌DeepMind的这项研究,和这些大牛的观点不谋而合了。
对此,网友们纷纷表示实在炸裂。
有人预测,潜在空间推理可能会带来下一个重大突破。
显然,对于代码、数学、逻辑这类分层分解问题的任务,MoR都是一个改变游戏规则的重磅炸弹。
甚至还有人评论道:看起来像是Hinton的胶囊网络重生了。
谷歌DeepMind放大招
递归魔法让LLM瘦身还提速
LLM发展到如今,接下来该怎样做?靠堆参数、加层数,让它更聪明吗?
这项研究告诉我们:真正的高手,从来都不是靠堆料,而是靠设计的艺术。
这次他们做出的MoR全新架构,直译出来是「递归混合体」,直接让LLM推理速度噌噌翻倍!
所以,MoR究竟做了什么?
简而言之,它做了以下两点。
1. 不对所有token一视同仁
LLM在处理文本时,会把句子拆成一个个token,不过,像「的」「是」「在」这种词,并不需要多高深的推理,只需要一次前向传播就够了。而复杂的token,则需多次经过同一层栈。
MoR的聪明之处就在于,因token而异。
MoR的秘密武器是小型路由器,会为每个token的隐藏状态打分,仅高分token的会继续循环,其余的则提前退出。
2. 循环复用:一个模块搞定全部
传统Transformer的思路就是不断「堆层」,堆得越高,处理能力越强。但这样的代价,就是内存和算力:模型会越来越慢,越来越贵。
而MoR则反其道而行之,专门设计了共享块,每个token最多循环4次,只要路由器说「完成」,就提前跳出循环。
总之,如果说Transformer是一个庞大的工厂流水线,那MoR就更像一支高效的特种部队。未来的AI,恐怕不会再比拼谁更重,而是谁更会分工调度、节省力气。
而谷歌DeepMind,已经敏锐地把握到了这一点,给我们演示了这一趋势的早期范本。
真自适应计算
只靠Scaling law,把语言模型做大,确实能让它能力暴涨,但训练、部署所需的算力和成本也跟着暴涨。
现在常见的「瘦身」招数,要么是把参数共享(省显存),要么是按需计算(省算力)。
但目前仍缺乏一种能将两者有机融合的架构。
「递归混合」(Mixture-of-Recursions, MoR),充分发挥了递归Transformer的潜力(见图1),成功融合了两者。
图1:递归混合(Mixture-of-Recursions,MoR)概览
(左)每个递归步骤包含固定层堆栈和决定token是否继续递归的路由器(中间灰框区域)。
(中)完整模型结构,其中共享递归步骤根据路由决策对每个token最多应用