内存暴降50倍，MIT提出注意力匹配，能终结大模型显存危机吗？

IP属地中国·北京 机器之心Pro 时间：2026-05-31 20:17:12

编辑｜Panda

想象这样一个场景：你正盯着屏幕，看着你的自主 AI 智能体（比如 OpenClaw）疯狂地运作。

它正在自主审查一个包含数十万行代码的史诗级开源项目，穿梭于无数的文件、API 文档和调试日志之间。它表现得像一个不知疲倦的超级程序员，但在这「无所不能」的表象之下，潜伏着一个随时可能引爆的硬件梦魇 —— 随着上下文变得越来越长，大模型的「工作记忆」正在暴涨，像一个无底洞一样，无情地吞噬着昂贵的 GPU 显存池！
这个令所有企业级 AI 开发者闻风丧胆的显存杀手，就是KV Cache。
但现在，解决方案来了，来自麻省理工学院（MIT）的研究团队（Adam Zweiger、Xinghong Fu 等人）。他们开发出了一种名为「注意力匹配」（Attention Matching）的全新潜在空间（Latent Space）压缩技术。

论文标题：Fast KV Compaction via Attention Matching论文地址：https://arxiv.org/pdf/2602.16284代码地址：https://github.com/adamzweiger/compaction
其能够在短短几秒钟内，将大型语言模型的上下文内存疯狂压缩高达50倍，且几乎没有任何精度损失！

这意味着原本需要一整个 H100 GPU 阵列才能勉强支撑的超长对话或巨型文档分析任务，现在可能只需要单张显卡就能轻松跑满并发。一场关于 AI 基础设施的效率革命，似乎已悄然打响。
昂贵的工作记忆
大模型的阿喀琉斯之踵
要理解这项技术有多么逆天，我们必须先直视大模型的软肋。
LLM 是自回归的，它们生成回答时是逐 token 往外吐的。为了避免在预测每一个新词时，都要把长达几万字的聊天记录从头到尾重新计算一遍，模型必须将之前处理过的每一个 token 的「数学灵魂」缓存起来 —— 这些被提取出来的多维向量，就是「键（Key）」和「值（Value）」对，即 KV Cache。
随着上下文的拉伸，这层工作记忆会不可逆转地膨胀。
在现代企业级应用中，比如分析成百上千页的法律合同、维持长达数月的私人 AI 伴侣记忆，或者运行 OpenClaw 这样的自治编码智能体，单单一个用户的请求，其 KV Cache 就能瞬间飙升到数十 GB。
正如论文第一作者 Adam Zweiger 所言：「在超长上下文服务中，KV Cache 是最大的物理瓶颈。它不仅死死锁住了并发量，强迫你缩小批处理规模，甚至逼着系统进行极其影响性能的频繁卸载。」
面对这个吞金兽，研究者们曾尝试过许多方案：
Token 丢弃与合并（如 H2O, SnapKV, PyramidKV 等）：这些方法试图踢掉那些模型认为「不重要」的 token。在轻度压缩时还能凑合，但一旦将压缩率拉高（比如试图压缩 10 倍以上），模型的智商就会遭遇断崖式下跌。文本摘要：这是目前工业界最无奈的标配。当内存见底时，系统暂停，让模型自己写一段上下文总结，然后清空原有记忆。这种方法极度「有损」，会把极其关键的微小细节（比如医疗记录里的一个罕见指标）彻底抹除。潜空间压缩（如 Cartridges）：这是近期的前沿探索，证明了高比例压缩不仅可行，而且还能保持高精度。但它的代价极其高昂：它需要通过极其缓慢的端到端梯度下降来训练这些压缩后的记忆。为了压缩一段上下文，哪怕动用昂贵的 GPU，也需要耗费数小时！这在要求「秒回」的实时企业应用中，简直是天方夜谭。
我们需要一种既有 Cartridges 的精度，又有传统方法速度的终极魔法。而 MIT 的「注意力匹配」，正是为此而生。
打破常理的数学魔法
「注意力匹配」的底层逻辑
MIT 的研究人员没有死磕缓慢的机器学习训练，而是想出了一个绝妙的数学捷径。他们退后一步，问了一个极其本质的问题：当我们压缩记忆时，模型究竟在乎什么？
答案是：模型根本不在乎你存了多少个 Key 和 Value，它只在乎当它抛出一个查询（Query，即 q）时，这堆记忆能给它返回什么结果！
为了完美欺骗 AI，让它觉得「压缩后的记忆和原本庞大的记忆一模一样」，压缩后的键值对 (C_k, C_v) 必须严格匹配原始记忆的两个核心数学属性：
注意力输出（Attention Output）：这是 AI 提取到的实际信息向量。注意力质量（Attention Mass）：这是极其关键的一点。在拼接新 token 或旧记忆时，一段记忆的话语权取决于它的「质量」。
如果你直接把 1000 个 token 压缩成 20 个，那么这 20 个 token 的「总质量」绝对拼不过原本的 1000 个，这会导致模型在后续推理时，极度轻视这部分被压缩的记忆。为了破解这个死局，研究团队引入了一个微小但堪称神来之笔的变量：每 token 标量偏差 β。
这个 β 偏差就像是一个「杠杆权重」，它在注意力计算的指数层面上对保留下来的 Key 进行乘法重加权，让区区 1 个被保留的 Key，能够爆发出代表 50 个被移除 Key 的巨大「质量」！
如果用严谨的数学语言（如论文中的公式 1 和 2）来表达，他们要优化的目标就是找到 (C_k,β, C_v)，使得对于所有相关的查询 q：

并且匹配总质量：

更惊人的是，由于这种精妙的框架构建，这个看似复杂的非线性优化问题，竟然自然而然地解体了！研究人员完全摒弃了吃算力的反向传播和梯度优化。
首先，锁定 C_k 后，质量匹配问题退化成了一个非负最小二乘法（NNLS）问题，瞬间就能计算出偏差 β。随后，注意力输出匹配问题直接变成了一个标准的普通最小二乘法（OLS）问题，通过简单的代数矩阵运算，眨眼间就能求出压缩后的值 C_v！
这简直是降维打击。原本需要数小时的训练，被线性代数优化到了以「秒」为单位。

来自 VentureBeat，由 AI 生成
预判你的预判
如何提取「参考查询」与挑选「金钥匙」？
有了数学武器，接下来的工程落地同样惊艳。为了让压缩算法知道该保留什么，系统需要一批「参考查询」（Q_ref），作为模型未来可能提出的问题的「替身」。
研究团队设计了极其聪明的「预演」机制：
重复预填充：悄悄在文档末尾加一句隐藏指令：「重复前面的上下文」，然后捕获模型在试图复述时产生的内部 Query 向量。自我学习：让模型对文档进行快速的合成任务，比如「提取所有核心事实」或「把日期结构化为 JSON」，从而嗅探出模型在深度推理时会生成什么样的 Query。
手里攥着这些极具代表性的 Query 探针，系统开始从原始的茫茫 Key 海中挑选「金钥匙」（C_k）。论文中提供了两种方法：
最高注意力法（Highest Attention Keys）：这是一种闪电般的启发式方法，直接挑出在参考查询中被关注度最高的 Keys。速度极快，性价比超高。正交匹配追踪（Orthogonal Matching Pursuit, OMP）：这是一种更加极客和贪婪的算法。它像搭积木一样，每一步都精挑细选一个最能填补「质量误差」残差的 Key，然后用 NNLS 重新校准权重。虽然稍微耗时（依然只是几分钟级别），但能将压实质量推向巅峰（AM-OMP）。

并非所有「注意力」生来平等
非均匀压缩策略
这还不是重点，在深入探索模型架构时，他们发现了一个有趣的现象：在多头注意力机制中，并非所有的「头」都是工作狂。
有些 Head 极度贪婪，需要庞大的 KV 容量才能保持性能（比如负责长程依赖的 Head）；而另一些 Head 则极其佛系，哪怕你把它的记忆砍掉 90%，它依然能完美运转（比如只关注局部词法结构的 Head）。

基于这个洞察，团队开发了非均匀压缩（Nonuniform Compaction）策略：为每一个模型预先计算了一条「敏感度曲线」，就像是给每一个注意力头进行了一次体检。在实际压缩时，系统不再是一刀切，而是将极其宝贵的显存预算，倾斜分配给那些对信息最敏感的「核心 Head」。这一策略的引入，直接让压缩后的模型性能实现了质的飞跃！
即使在像 Gemma-3-12B 这种大量使用了滑动窗口注意力的混合架构模型上，注意力匹配依然表现出了惊人的适应性和鲁棒性。
压力测试
见证奇迹的时刻
为了验证这项技术是否真的能在现实世界的绞肉机中存活，研究人员选择了 Qwen3-4B、Llama3.1-8B 和 Gemma3-12B，并将它们扔进了两个截然不同的测试场。

1. QuALITY 基准测试：秒杀全场
在这个包含 5000 到 8000 词的标准阅读理解测试中，Attention Matching 在 50 倍的极限压缩比下，仅仅耗时几秒到一分钟（取决于是否使用 OMP 算法），就彻底打爆了 H2O+、SnapKV、KVzip 等所有基于 token 裁剪的前辈。它的准确率曲线紧紧咬住了耗时数小时的 Cartridges，诠释了什么是「快、准、狠」。
2. LongHealth 医疗卷宗：传统方案的坟墓
这是一个代表真正企业级挑战的数据集。整整 60,000 个 token，塞满了多个患者复杂的病历、化验单和用药记录，信息密度极高。
在这个测试中，工业界最爱用的「文本摘要」彻底沦为笑柄 —— 它的准确率跌到了和「不提供任何上下文（No-Context）」一模一样的底线，意味着模型看了摘要等于没看。
而 Attention Matching 则犹如战神附体，大幅超越了所有传统权宜之计。
当然，Zweiger 也坦诚地给出了工程建议：「对于这种极高信息密度的任务，如果你想保留所有细节，建议将压缩比调得温和一些（比如 10 倍或 20 倍），以换取绝对的精确度。」
3. AIME 2025 在线动态压缩：飞行中换引擎
最让人热血沸腾的，是针对在线压缩的概念验证。面对 AIME 顶级数学推理题，研究人员锁死了物理内存上限。模型就像是在一个狭小的笼子里进行极度消耗脑力的计算。

每当内存爆满，系统就会瞬间按下暂停键，用 Attention Matching 将其工作记忆暴力压缩 50%，然后让模型继续思考！即使在一次解题过程中，连续六次「切除」一半的记忆，模型最终依然成功找到了正确答案，其表现与拥有无限内存的模型完全一致。
这对于 OpenClaw 这样需要长时间运行、不断产生冗长工具调用日志的 Agent 来说，简直是救命稻草！
甚至，对于那些追求压缩率、对精度要求稍宽容的场景，研究人员还玩出了一种「200 倍压缩」的组合技：先让模型生成文本摘要，然后再对摘要的 KV Cache 进行 Attention Matching 压缩！最终在微乎其微的显存占用下，达到了与纯摘要一样的准确率。

结语
从开发者自救到大厂标配的范式转移？
当然，没有任何魔法是没有代价的。
必须指出的是，如果你面对的是极其复杂的数据，并且非要追求 100 倍以上压缩，那么缓慢的、基于梯度优化的 Cartridges 依然能在精度上险胜一筹，因为它能在更广阔的潜空间中搜索最优解，而不受限于「从原始 Key 中挑选」的设定。
此外，这套神技目前还不是一个可以「无脑安装」的插件软件。正如 Zweiger 解释的那样：「潜空间压缩是一种模型层的技术。你必须拥有访问模型权重的权限。」这意味着，如果你完全依赖闭源的 API（比如直接调用 GPT-4 接口），你是无法自己实现这套魔法的。企业要想享受这种显存自由，必须拥抱开源权重模型（如 Llama 3、Qwen 3）。
而且，要将这种潜空间 KV 压缩技术编织进现代极其复杂的商用推理引擎（那些早已布满了前缀缓存、变长内存打包等复杂技巧的系统）中，依然需要工程师们掉光不少头发。
但趋势已无可阻挡。正如 Zweiger 所预言的：「我们正在见证上下文压缩发生根本性的范式转移 —— 它正从『企业自己拼凑的粗糙工程』，进化为『底层模型提供商内置的核武器』。比如 OpenAI 最近推出的黑盒压缩端点，返回的就是一个不透明的对象，而不是纯文本摘要。」
当「注意力匹配」彻底融入 AI 基础设施的血液中时，显存瓶颈将被彻底击碎。到那时，像 OpenClaw 这样的智能体，也许真的能够以单机之躯，吞吐整个世界的知识。
https://venturebeat.com/orchestration/new-kv-cache-compaction-technique-cuts-llm-memory-50x-without-accuracy-loss

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

磐石·科学基础大模型2.0发布——通专“双轮驱动”，探索科研新范式

中国工程院院士、阿里云创始人王坚：AI的下一场革命，关键在“科学数据”

OPPO厘清战线：一加和realme各自奔赴最强战场

我在WAIC暴走两万步，看到了中国AI的三件套

不听劝的阶跃闯进手机战场，造一台为人机共生的终端

被电动化坑惨还是油车香！本田停产在美唯一纯电车

全站最新

磐石·科学基础大模型2.0发布——通专“双轮驱动”，探索科研新范式

中国工程院院士、阿里云创始人王坚：AI的下一场革命，关键在“科学数据”

OPPO厘清战线：一加和realme各自奔赴最强战场

我在WAIC暴走两万步，看到了中国AI的三件套

热门推荐

大盘回撤银行股逆势抗跌，分红创新高后行情延续性几何？

紫银转债迎最后交易日，未转股比例高达99.99%，青农转债接棒大考

飞天茅台i茅台零售价涨至1639元/瓶，1L规格同步上调

安克充电宝首批获新国标认证，26年全线新品同步跟进

磐石·科学基础大模型2.0发布——通专“双轮驱动”，探索科研新范式

中国工程院院士、阿里云创始人王坚：AI的下一场革命，关键在“科学数据”

金融城小燃哥｜AI 支付要来了，你准备好了吗？

OPPO厘清战线：一加和realme各自奔赴最强战场

我在WAIC暴走两万步，看到了中国AI的三件套

不听劝的阶跃闯进手机战场，造一台为人机共生的终端

被电动化坑惨还是油车香！本田停产在美唯一纯电车

OpenAI们割肉、Kimi们火拼，AI编程下半场怎么打？

史上规模最大WAIC释放信号：不止芯片对决，国产AI算力进入生态竞速期

强脑科技全球首发脑控机器人训练平台，10分钟解锁意念控制

中国电车杀到家门口，欧洲车企却对价格战连喊四个“不”