机器人的"记忆危机"：KAIKAKU团队如何让AI只记住真正有用的东西

IP属地中国·北京 科技行者 时间：2026-06-09 22:24:34

这项研究来自KAIKAKU公司，于2026年6月以预印本形式发布，论文编号为arXiv:2606.02775v1，有兴趣深入了解的读者可通过该编号查询完整论文。
当一个普通人做了十年的同一份工作，他不会记住每天早上走进办公室时看到的每一块地砖、每一次电梯门打开的声音。他记住的，是那些影响他下一个决定的事情——客户的特殊要求、机器昨天出了什么问题、下午有个重要会议。这种"只记关键信息"的能力，对人类来说是理所当然的。但对于正在被送入工厂、仓库、手术室的机器人来说，却是一道还没被完全解开的难题。
KAIKAKU的研究团队为此专门设计了一套叫做AURA-Mem（Action-Utility Recurrent Adaptive Memory，行动效用递归自适应记忆）的新型记忆机制，试图赋予机器人这种"只记真正有用的事"的能力。这套机制的核心思想用一句话概括，就是：**让记忆知道什么时候该闭嘴**。
一、记忆的代价：为什么机器人的"日记本"会把自己压垮
要理解这项研究解决了什么问题，先要明白机器人的"大脑"是怎么工作的。
目前最先进的机器人控制系统，往往是基于一种叫做"视觉-语言-动作模型"（VLA，Vision-Language-Action model）的架构。这类模型能同时处理摄像头画面、语言指令和肢体动作，是目前机器人领域最具潜力的技术路线之一。这些模型的核心，是一个叫"Transformer"的神经网络架构——同样的技术也是ChatGPT这类大模型的基础。
Transformer有一个特点：它需要记住之前看过的所有内容，才能做出好的判断。为了实现这一点，工程师们设计了一种叫"KV缓存"（Key-Value Cache）的机制。可以把它理解成一本"实时日记"——机器人每走一步、每扭动一次手臂，都会在这本日记上加一页。随着时间推移，日记越来越厚。
在数据中心里，这种机制运行得很好。因为数据中心同时服务大量短暂的对话请求，每次对话结束，日记就扔掉，重新开始。但机器人的情况截然不同。一台负责在仓库分拣货物的机器人，可能一天要连续工作八小时、十六小时，甚至更长。它的"日记"不会被扔掉，只会越来越厚。
研究团队给出了一个非常直观的数字：在他们测试的配置下，一个运行了十万步的机器人，其KV缓存占用的内存高达两千五百六十万字节（约25.6MB）。而AURA-Mem的方案，在整个十万步过程中，内存占用始终是固定的四千二百二十四字节（约4KB）——两者相差六千零六十一倍。
这种差距不只是数字上的好看。现实中，机器人使用的边缘计算芯片（也就是装在机器人身上的小型计算单元）内存极为有限，价格极为昂贵。2026年初，全球高带宽内存（HBM）供应几近枯竭，主要供应商美光和SK海力士的未承诺产能为零，两家合计资本支出超过四百五十亿美元扩产。DRAM合同价格在2026年第一季度单季暴涨百分之九十到九十五，创历史单季纪录。在这样的硬件背景下，内存的每一个字节都有实实在在的经济代价。
更重要的是，每一次向内存写入数据，都会消耗能量，都会磨损硬件——尤其是新一代基于闪存的高带宽内存（HBF），其写入次数是有限的，写得越少，硬件就能用得越久。所以，"减少不必要的内存写入"这件事，从硬件寿命和能耗的角度来看，有着非常直接的经济价值。
二、现有方案的困境：要么越用越胖，要么每步都在写
面对这个问题，研究界并非没有尝试过解决方案，但已有方案都面临各自的局限。
一类方案是"KV缓存压缩与淘汰"，比如H2O、SnapKV、StreamingLLM等技术。这类方案的思路是：既然日记越来越厚，那就定期扔掉一些"不重要的页"，只保留一部分。但问题在于，无论怎么扔，日记的总量仍然是随时间线性增长的——只不过增长得慢一些。在无限运行的任务面前，这只是推迟了内存爆炸，并没有从根本上解决问题。
另一类方案是"状态空间模型"（SSM），比如大名鼎鼎的Mamba、S4等。这类模型的好处是，它们的推理状态（inference state，也就是运行时需要占用的内存）是固定大小的，不会随时间增长。听起来完美？问题在于，这类模型每走一步，都必须更新一次状态，不管这一步有没有带来任何新信息。这就好比，无论今天发生了什么——哪怕你只是在办公室喝了杯水，什么也没干——你都必须在日记上写一整页。内存大小是固定了，但写入的频率并没有降低，硬件依然在持续磨损。
AURA-Mem正是为了填补这个空白而生的：既要内存大小固定（不随时间增长），又要写入次数尽可能少（只在真正有新信息时才写）。这两个目标同时实现，就是这项研究最核心的技术贡献。
三、聪明的守门人：一个懂得"这件事值不值得记"的写入门控
AURA-Mem的架构可以用一个非常形象的比喻来理解：把它当成一个配备了智能守门人的固定大小保险箱。
保险箱的大小永远不变——无论机器人已经工作了五分钟还是五个小时，这个保险箱只有那么大。保险箱里装的是一种叫做"快权重矩阵"（fast-weight matrix）的东西，可以理解为一张高度压缩的"世界摘要"。机器人每次需要做决策时，都会从这个保险箱里读取信息——这个读取操作每步都会发生。
但往保险箱里写入新信息，就需要通过守门人的审核。守门人有一个专门的判断标准：当前看到的这个画面，会不会改变我下一步的行动？如果答案是"不会"，守门人就不开门，保险箱的内容保持不变，什么也不写入。如果答案是"会"，守门人才打开保险箱，把新信息更新进去。
这个守门人在技术上被称为"写入门控"（write gate），它的判断依据叫做"行动惊喜度"（action-utility surprise）。具体来说，它会计算一个数值：当前的快权重矩阵（也就是现有的"世界摘要"）对这一时刻的观测有多"吃惊"——也就是，现有的记忆对当前画面的预测有多差。如果预测很准，说明当前画面对记忆来说没什么新意，不值得写入；如果预测很差，说明发生了值得记录的新情况，应该更新记忆。
这个判断标准的关键在于"行动相关性"。守门人不是在问"这个画面漂不漂亮"，也不是在问"这个画面和上一帧有没有变化"，而是在问"如果我不更新记忆，我的下一个动作会不会出错"。这一点，是AURA-Mem与所有前辈方案的本质区别。
四、训练方法：用"做错事的代价"来教守门人判断
守门人的判断能力不是天生的，需要通过训练获得。而训练方式本身，也是这项研究的一个重要创新点。
大多数同类方案在训练时，用的是一种叫"语言建模损失"（language modeling loss）的目标——简单说，就是看模型能不能预测下一个词或下一帧画面有多准。这本质上是一种"重建"目标：记忆好不好，看你能不能把看过的东西重新还原出来。
AURA-Mem的训练目标完全不同。它用的是"行动损失"（action loss）：记忆好不好，看你能不能做出正确的动作。具体来说，训练时会让模型根据当前记忆预测专家示范的动作，如果预测错了，就给一个惩罚信号；这个惩罚信号会通过整个网络反向传播，包括守门人的判断逻辑。于是守门人慢慢学会：哪些时刻不写入会导致动作出错，哪些时刻不写入完全没有影响。
在这个基础上，训练目标还包含两个额外的调节项。一个是"信息瓶颈项"（information bottleneck term，简写为IB），它的作用是给记忆施加"压缩压力"——鼓励记忆在保持行动准确的前提下，尽可能少保留信息，只留下真正必要的部分。另一个是"写入稀疏性惩罚"，直接限制守门人的打开频率，防止它每步都写入而失去节省内存的意义。
这三个训练目标协同工作，共同塑造出一个这样的守门人：它既会根据行动需求判断"值不值得写"，又会在不影响行动质量的前提下尽量少写，还有一个可调节的"写入频率旋钮"供部署时按需调整。
五、技术内核：快权重矩阵是怎么存储和更新记忆的
保险箱里的"快权重矩阵"（技术上记作W，形状为行数等于键维度、列数等于值维度的矩阵），本质上是一个小型的"联想记忆"——它存储的是键到值的映射关系，就像大脑里的"看到X，联想到Y"的连接。
读取记忆的方式很简单：把当前观测编码成一个"查询向量"，用它去乘以这个矩阵，得到的结果就是与当前情况最相关的历史信息。这个操作每步都执行，代价极低。
更新记忆的方式，借鉴了一种叫做"测试时训练"（test-time training，TTT）的技术思路：在实际运行（而非训练）过程中，对记忆矩阵执行一步微小的梯度下降，把新观测的信息"压印"进去。这个更新有一个数学上非常优雅的特性：它的梯度可以用闭合公式直接算出来，不需要额外的自动求导过程，计算代价极低。同时，更新时会有一个"遗忘因子"，让旧的信息慢慢淡出，防止记忆被太旧的内容占满。
最关键的设计在于：这整个矩阵，从第一步到最后一步，形状永远不变。它吸收新信息的方式，是改变矩阵里的数值，而不是给矩阵添加新的行或列。这和KV缓存每步都追加新行的做法，有着本质的区别。正是这个设计，保证了内存占用的严格恒定。
六、实验结果：数字说话，但要看清楚数字在说什么
研究团队在合成记忆压力测试任务上，对AURA-Mem和多种对比方案进行了系统评估。主要测试任务叫做"含噪长距离召回"（noisy long recall）——让模型在一个充满干扰信息的长序列中，记住多个键值对的绑定关系，并在被问到时正确召回。这是一个专门设计来考验记忆能力的任务，任务难度可以通过调整参数来控制。
在最关键的带宽效率测试中（状态维度N=64的配置），AURA-Mem以每秒2.18次的写入频率，实现了和每步都写入（每秒20次）完全相同的任务准确率（均为1.000）。这意味着，在准确率丝毫不降的情况下，写入次数减少了九点一九倍。
不过，研究团队非常诚实地指出了这个数字的局限：N=64的配置下，任务本身已经"饱和"了——所有非随机方案都能达到满分，在这种情况下，写入效率是唯一的区分指标。真正能看出方案差异的，是更难的配置。在"困难任务"配置下（N=8到N=32），AURA-Mem在写入次数减少五点一九到六点一三倍的同时，依然和最强的固定大小状态基线保持着统计上无显著差异的准确率。
研究团队还做了一个非常有说服力的对比实验：把守门人的智能判断换成等频率的随机写入或周期性写入。结果显示，在同样的写入频率下，随机写入和周期写入的任务成功率只有约0.37（满分为1.0），而AURA-Mem可以达到1.0。这个对比直接证明了：关键不在于写多少次，而在于写哪些时刻——守门人的"行动惊喜度"判断信号，才是核心价值所在。
此外，研究团队还训练了一个对比方案，叫做"学习型词元门控"（learned token gate）——同样架构的守门人，但训练目标换成了预测下一帧画面，而非行动损失。结果非常戏剧性：这个守门人在所有配置下都陷入了"永不写入"的崩溃状态，根本无法正常工作。这从反面印证了：用行动损失来训练守门人，不是一个可随意替换的选择，而是让整个机制正常工作的关键。
七、真实机器人测试：理论落地，守门人在实战中表现如何
合成测试固然重要，但研究团队还专门在一个真实的大型机器人控制模型上验证了AURA-Mem的实战效果。
他们使用的是一个叫OpenVLA-OFT的七十亿参数视觉-语言-动作模型，在LIBERO-Long机器人操作基准测试上进行了闭环评估（闭环的意思是，机器人的动作真的会改变环境状态，然后再观测新的环境状态，真实地循环起来）。测试设置是六个任务，每个任务十次尝试，共六十次，机器人需要在五百二十步内完成任务。
测试分三组：第一组是"base"，机器人不使用任何记忆写入；第二组是"kv"，使用传统的每步都写入的KV缓存；第三组是"aura"，使用AURA-Mem的智能守门人写入。
结果非常清晰：base成功率14/60=0.233，kv成功率13/60=0.217，aura成功率14/60=0.233。AURA-Mem和不使用任何记忆写入的基线完全持平，略优于总是写入的KV方案——同时，aura的写入次数只有504次，而kv的写入次数是3541次，少了七点零倍。内存占用方面，aura始终保持四千二百二十四字节的固定大小，而kv则增长到了九十万字节以上，相差两百一十四倍。
研究团队也非常坦率地说明了这个测试的局限：三组方案的成功率差异（0.217到0.233）在六十次样本下，统计上无法区分——这说明守门人"没有让机器人变笨"，但也没有让机器人变聪明。绝对成功率只有约0.23，远低于OpenVLA-OFT在标准评测下约0.90到0.98的表现，原因是这次测试采用了零样本、单随机种子的极简评测设置，不代表正式的性能比较。这个实验的意义，在于证明了机制的可移植性，而非声称AURA-Mem能提升机器人能力。
守门人在实战中还展现出了一个有趣的特性：它在部署时的写入频率（0.142），比它在训练时的写入目标（0.175）还要低，而且比训练时实际的写入频率（0.281）低了整整一半。换句话说，当守门人面对真实的控制循环时，它变得比训练时更加谨慎、更加节制——而机器人的表现并没有因此变差。这正是"只记真正有用的东西"的最生动体现。
八、理论保障：这套记忆方案有没有数学上的质量保证
研究团队不满足于仅仅展示实验结果，还尝试从理论上回答一个更深层的问题：这套固定大小的压缩记忆，和拥有完整历史记录的理想记忆相比，会让机器人的决策质量损失多少？
为了回答这个问题，他们借用了一个叫做"近似信息状态"（Approximate Information State，AIS）的理论框架，这个框架由机器学习研究领域的学者在2022年建立，专门用来分析在信息不完整（部分可观测）的环境中，压缩状态表示能给决策质量提供多强的保证。
这个框架给出了一个数学上的"价值损失上界"：只要压缩后的记忆满足两个条件（能准确预测当前的奖励，以及能准确预测下一个压缩状态的分布），价值损失就可以被一个具体的公式控制住——公式里有两个关键参数，一个叫ε（衡量奖励/行动预测的误差），一个叫δ（衡量状态转移预测的误差）。
研究团队在实际测试中测量了这两个参数：ε的均值为0.0021（说明行动预测非常准确），95%分位数为0.0076。这些数字本身是令人鼓舞的——说明AURA-Mem学到的压缩记忆，在行动预测上几乎没有损失。
然而，当把这些数字代入完整的价值损失公式时，结果却令人沮丧：计算出的上界高达52.69，而这个任务的最大可能价值跨度只有10.0。一个上界比量程还大，等于没有提供任何有用的保证。研究团队非常诚实地称这个结果为"vacuous"（空洞的）——公式在数学上是正确的，但在目前的实验规模下，它只是一个无法收紧的宽松上界，不提供任何实际的质量保证。他们把这部分工作定位为"方法论示范"：证明这类理论框架可以被应用到这类场景下，而非声称找到了一个有实际指导意义的保证。
九、诚实的局限：这项研究还没有做到什么
这篇论文的一个显著特点，是研究团队花了大量篇幅主动列举自己的局限和未完成的工作，措辞之坦率在学术论文中颇为少见。
所有量化结论来自合成的记忆压力测试任务，而非真实的机器人物理环境。动态噪声、传感器误差、执行延迟、接触物理和仿真到现实的转移误差，全都没有在这项研究中得到验证。研究者明确表示，AURA-Mem目前只是一个研究原型，不适用于真实机器人部署，更不适用于安全关键场景。
在准确率方面，AURA-Mem并没有超过最强的固定大小状态基线（fixed size state）——两者在统计上持平，不存在显著差异。这意味着，AURA-Mem的主要贡献是写入效率，而非准确率提升。
守门人具有四十一点九%的梯度激活参数优势（相比对照方案多了6337个梯度激活参数），而这个不对等没有被完全控制。理想情况下，应该有一个将门控MLP参数冻结的对照实验，来单独验证守门人的"判断机制"本身的贡献，但这个实验尚未完成。
信息瓶颈训练项的独立贡献也只是"边界正面"——实验显示它带来了训练稳定性的提升，但在统计显著性上并不够强（Welch检验p值为0.153）。研究者明确表示不声称这是一个决定性的发现。
每步的实际墙钟延迟（wall-clock latency）也没有被测量。内存和写入次数上的优势是结构性的，从第一步就存在，但延迟方面的优势还需要在真实硬件上进行专门的性能剖析。
说到底，AURA-Mem做到的事情是：在固定大小的记忆中，让机器人只在"会影响下一个动作"的时刻写入新信息，从而在不损失任务能力的前提下，将内存写入次数减少约五到九倍，并将推理状态的内存占用维持在一个常数，无论机器人工作了多久。这个成果在"硬件资源极度紧张、机器人需要无限期运行"的物理AI部署场景下，有着直接的实用价值。
归根结底，这项研究提出的问题或许比它给出的答案更有价值：一个真正好的机器人记忆系统，应该用动作质量而非画面重建来衡量记忆的好坏；应该让记忆知道什么时候闭嘴，而不是每步都往本子上写；应该占用固定的空间，而不是随着时间无限膨胀。这三条原则，构成了"为机器人设计记忆"这个工程问题的一个清晰的思考框架。未来的工作，将是在真实物理硬件上验证这些原则，并找到让理论保证真正收紧到有实际意义的方法。对于对这一领域感兴趣的读者，完整论文可通过arXiv编号2606.02775获取。
Q&A
Q1：AURA-Mem和普通KV缓存的内存占用差距有多大？
A：在测试配置下，运行十万步后，普通KV缓存占用约25.6MB内存，而AURA-Mem的推理状态始终保持在4224字节（约4KB），两者相差六千零六十一倍。这个差距是结构性的——AURA-Mem的状态大小在初始化时就固定了，不随运行时间增长。
Q2：AURA-Mem的守门人是怎么判断要不要写入记忆的？
A：守门人使用"行动惊喜度"作为判断标准：计算当前记忆对这一时刻观测的预测有多差。如果预测很准，说明当前画面没有新信息，不写入；如果预测很差，说明发生了值得记录的新情况，才更新记忆。关键是这个判断与"动作会不会出错"直接挂钩，而非仅仅看画面变化了多少。
Q3：AURA-Mem在真实机器人上的成功率为什么只有0.233？
A：0.233的成功率反映的是底层基础策略模型（OpenVLA-OFT）在零样本、单随机种子评测设置下的表现，不是AURA-Mem本身的局限。该模型在标准多种子评测下成功率约为0.90到0.98。这次测试的目的是验证加入记忆层不会让机器人变差，而非刷新成功率记录。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

美团方面否认LongCat模型负责人裴鹏离职传言

北医三院首批入选！世界互联网大会数智健康工作组成立

从乘用车、Robotaxi到Robovan，Momenta世界模型“再落一子”

停运8年，这款80、90后熟悉的产品宣布回归

胖东来上半年流失52名员工，于东来：未来招人须考核文化认知

特斯拉车主达成新纪录！FSD连续行驶2万英里全程无接管

全站最新

哈啰Robotaxi首款自研车量产交付携手伙伴共拓自动驾驶商业化新蓝图

东威新能源十周年焕新启航，“珍珠”登场引领精智微车新风潮

美团方面否认LongCat模型负责人裴鹏离职传言

北医三院首批入选！世界互联网大会数智健康工作组成立

热门推荐

HBN母公司IPO失效：遭证监会三连问，高营销低研发难题待解

欧文酵室创始人直播还债：去年刚完成融资，如今欠薪153万元

独家｜碧桂园卖掉长鑫科技“痛失490亿元”细节\n

小米汽车增设澎程专卖店，全国仅6家，新车无专属销售全员可卖\n

苹果智能眼镜或亮相WWDC27 推迟发布因聚焦隐私保护方案打磨

物理AI新势力正奇未来：8个月三轮融资数亿，让机器人解锁短途出行新场景

佳能 2026 财年第二财季归母净利润 1711.84 亿日元，同比增长 9.80%

蔚来 1.58 亿元战略入股长鑫科技：李斌现身答谢晚宴，战略配售名单唯一新能源车企

威腾电气等在江苏成立新公司，注册资本1000万

抖音宣布优化适龄推荐算法

上汽通用发生法定代表人变更

Claude分享链接配置翻车：用户私钥、公司机密被Google公开收录

抖音升级未成年人模式引擎，把多模态大语言模型请进了适龄推荐

美团方面否认LongCat模型负责人裴鹏离职传言

北医三院首批入选！世界互联网大会数智健康工作组成立