Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

IP属地中国·北京 编辑：胡颖新智元 时间：2025-07-17 15:38:55

新智元报道
编辑：Aeneas KingHZ
Transformer杀手来了？KAIST、谷歌DeepMind等机构刚刚发布的MoR架构，推理速度翻倍、内存减半，直接重塑了LLM的性能边界，全面碾压了传统的Transformer。网友们直呼炸裂：又一个改变游戏规则的炸弹来了。
就在刚刚，KAIST、Mila和谷歌DeepMind团队等放出重磅炸弹——
一个名为Mixture-of-Recursions的全新LLM模型架构。
这个崭新的架构，被业内认为有潜力成为Transformer杀手！
它的推理速度提升2倍，训练FLOP减少，KV缓存内存直接减半。
最终，在135M到1.7B的参数规模下，MoR直接划出了一个新的帕累托前沿：相同的训练FLOPs，但困惑度更低、小样本准确率更高，并且吞吐量提升超过2倍。
全面碾压传统的Transformer！
论文链接：https://arxiv.org/abs/2507.10524
其实，学界很早就发现，Transformer复杂度太高，算力需求惊人。
比如最近CMU大牛、Mamba架构作者Albert Gu就表示，Transformer模型能力的局限太大，所谓token就是胡扯。
而谷歌产品负责人Logan Kilpatrick公开指出了注意力机制的缺陷——不可能实现无限上下文，还强调必须要在核心架构层进行全面创新。
今天谷歌DeepMind的这项研究，和这些大牛的观点不谋而合了。
对此，网友们纷纷表示实在炸裂。
有人预测，潜在空间推理可能会带来下一个重大突破。
显然，对于代码、数学、逻辑这类分层分解问题的任务，MoR都是一个改变游戏规则的重磅炸弹。
甚至还有人评论道：看起来像是Hinton的胶囊网络重生了。
谷歌DeepMind放大招
递归魔法让LLM瘦身还提速
LLM发展到如今，接下来该怎样做？靠堆参数、加层数，让它更聪明吗？
这项研究告诉我们：真正的高手，从来都不是靠堆料，而是靠设计的艺术。
这次他们做出的MoR全新架构，直译出来是「递归混合体」，直接让LLM推理速度噌噌翻倍！
所以，MoR究竟做了什么？
简而言之，它做了以下两点。
1. 不对所有token一视同仁
LLM在处理文本时，会把句子拆成一个个token，不过，像「的」「是」「在」这种词，并不需要多高深的推理，只需要一次前向传播就够了。而复杂的token，则需多次经过同一层栈。
MoR的聪明之处就在于，因token而异。
MoR的秘密武器是小型路由器，会为每个token的隐藏状态打分，仅高分token的会继续循环，其余的则提前退出。
2. 循环复用：一个模块搞定全部
传统Transformer的思路就是不断「堆层」，堆得越高，处理能力越强。但这样的代价，就是内存和算力：模型会越来越慢，越来越贵。
而MoR则反其道而行之，专门设计了共享块，每个token最多循环4次，只要路由器说「完成」，就提前跳出循环。
总之，如果说Transformer是一个庞大的工厂流水线，那MoR就更像一支高效的特种部队。未来的AI，恐怕不会再比拼谁更重，而是谁更会分工调度、节省力气。
而谷歌DeepMind，已经敏锐地把握到了这一点，给我们演示了这一趋势的早期范本。
真自适应计算
只靠Scaling law，把语言模型做大，确实能让它能力暴涨，但训练、部署所需的算力和成本也跟着暴涨。
现在常见的「瘦身」招数，要么是把参数共享（省显存），要么是按需计算（省算力）。
但目前仍缺乏一种能将两者有机融合的架构。
「递归混合」(Mixture-of-Recursions, MoR)，充分发挥了递归Transformer的潜力（见图1），成功融合了两者。
图1：递归混合（Mixture-of-Recursions,MoR）概览
（左）每个递归步骤包含固定层堆栈和决定token是否继续递归的路由器（中间灰框区域）。
（中）完整模型结构，其中共享递归步骤根据路由决策对每个token最多应用

标签： token mor 模型 transformer 架构参数路由内存 kv 策略

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

英伟达清仓大甩卖，但我却笑不太出来。

从链博会看先进制造：多方共话产业链重构，黄仁勋热议物理AI

共享充电宝，会是下一个移动炸弹吗？

关于中国创新药BD的三个新真相

天链机器人、智能钻机、红牛基地……看四川如何深度融入全球产业链？

香港车博会惊艳亮相，“四川南充造”又一款新能源商用车正式下线上市｜打赢经济发展翻身仗

全站最新

英伟达清仓大甩卖，但我却笑不太出来。

从链博会看先进制造：多方共话产业链重构，黄仁勋热议物理AI

共享充电宝，会是下一个移动炸弹吗？

关于中国创新药BD的三个新真相

热门推荐

英伟达清仓大甩卖，但我却笑不太出来。

刚刚，暴涨！中国资产，大爆发！

从链博会看先进制造：多方共话产业链重构，黄仁勋热议物理AI

宁夏出台“人工智能+”三年行动方案打造西部AI创新发展高地

共享充电宝，会是下一个移动炸弹吗？

关于中国创新药BD的三个新真相

天链机器人、智能钻机、红牛基地……看四川如何深度融入全球产业链？

香港车博会惊艳亮相，“四川南充造”又一款新能源商用车正式下线上市｜打赢经济发展翻身仗

OpenAI 史上最强 ChatGPT 智能体发布：逛网站、做 PPT 样样精通

上海外滩FTC成新地标，助力全球互联网内容创作者集聚发展

前OpenAI首席技术官，完成20亿美元种子轮融资，英伟达也投了！

上海外滩FTC启幕，打造互联网优质内容创作新地标

马斯克的xAI与沙特Humain就数据中心交易进行洽谈

上海外滩“新地标” 亮相吸引全球互联网内容创作者

旅行社老板在直播间卖 “全网最高价”私家团，日销售额超100万