当前位置: 首页 » 资讯 » 科技头条 » 正文

Transformer终结者!谷歌DeepMind全新MoR架构问世,新一代魔王来了

IP属地 中国·北京 编辑:胡颖 新智元 时间:2025-07-17 15:38:55

新智元报道

编辑:Aeneas KingHZ

Transformer杀手来了?KAIST、谷歌DeepMind等机构刚刚发布的MoR架构,推理速度翻倍、内存减半,直接重塑了LLM的性能边界,全面碾压了传统的Transformer。网友们直呼炸裂:又一个改变游戏规则的炸弹来了。

就在刚刚,KAIST、Mila和谷歌DeepMind团队等放出重磅炸弹——

一个名为Mixture-of-Recursions的全新LLM模型架构。

这个崭新的架构,被业内认为有潜力成为Transformer杀手!

它的推理速度提升2倍,训练FLOP减少,KV缓存内存直接减半。

最终,在135M到1.7B的参数规模下,MoR直接划出了一个新的帕累托前沿:相同的训练FLOPs,但困惑度更低、小样本准确率更高,并且吞吐量提升超过2倍。

全面碾压传统的Transformer!

论文链接:https://arxiv.org/abs/2507.10524

其实,学界很早就发现,Transformer复杂度太高,算力需求惊人。

比如最近CMU大牛、Mamba架构作者Albert Gu就表示,Transformer模型能力的局限太大,所谓token就是胡扯。

而谷歌产品负责人Logan Kilpatrick公开指出了注意力机制的缺陷——不可能实现无限上下文,还强调必须要在核心架构层进行全面创新。

今天谷歌DeepMind的这项研究,和这些大牛的观点不谋而合了。

对此,网友们纷纷表示实在炸裂。

有人预测,潜在空间推理可能会带来下一个重大突破。

显然,对于代码、数学、逻辑这类分层分解问题的任务,MoR都是一个改变游戏规则的重磅炸弹。

甚至还有人评论道:看起来像是Hinton的胶囊网络重生了。

谷歌DeepMind放大招

递归魔法让LLM瘦身还提速

LLM发展到如今,接下来该怎样做?靠堆参数、加层数,让它更聪明吗?

这项研究告诉我们:真正的高手,从来都不是靠堆料,而是靠设计的艺术。

这次他们做出的MoR全新架构,直译出来是「递归混合体」,直接让LLM推理速度噌噌翻倍!

所以,MoR究竟做了什么?

简而言之,它做了以下两点。

1. 不对所有token一视同仁

LLM在处理文本时,会把句子拆成一个个token,不过,像「的」「是」「在」这种词,并不需要多高深的推理,只需要一次前向传播就够了。而复杂的token,则需多次经过同一层栈。

MoR的聪明之处就在于,因token而异。

MoR的秘密武器是小型路由器,会为每个token的隐藏状态打分,仅高分token的会继续循环,其余的则提前退出。

2. 循环复用:一个模块搞定全部

传统Transformer的思路就是不断「堆层」,堆得越高,处理能力越强。但这样的代价,就是内存和算力:模型会越来越慢,越来越贵。

而MoR则反其道而行之,专门设计了共享块,每个token最多循环4次,只要路由器说「完成」,就提前跳出循环。

总之,如果说Transformer是一个庞大的工厂流水线,那MoR就更像一支高效的特种部队。未来的AI,恐怕不会再比拼谁更重,而是谁更会分工调度、节省力气。

而谷歌DeepMind,已经敏锐地把握到了这一点,给我们演示了这一趋势的早期范本。

真自适应计算

只靠Scaling law,把语言模型做大,确实能让它能力暴涨,但训练、部署所需的算力和成本也跟着暴涨。

现在常见的「瘦身」招数,要么是把参数共享(省显存),要么是按需计算(省算力)。

但目前仍缺乏一种能将两者有机融合的架构。

「递归混合」(Mixture-of-Recursions, MoR),充分发挥了递归Transformer的潜力(见图1),成功融合了两者。

图1:递归混合(Mixture-of-Recursions,MoR)概览

(左)每个递归步骤包含固定层堆栈和决定token是否继续递归的路由器(中间灰框区域)。

(中)完整模型结构,其中共享递归步骤根据路由决策对每个token最多应用

标签: token mor 模型 transformer 架构 参数 路由 内存 kv 策略

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。