当前位置: 首页 » 资讯 » 科技头条 » 正文

清华大学等团队如何让AI智能体拥有"记忆力"

IP属地 中国·北京 科技行者 时间:2026-06-06 22:19:44


这项由清华大学、中山大学、百度、同济大学和北京大学联合开展的研究,于2026年6月发表在arXiv预印本平台,论文编号为arXiv:2606.01528v1。感兴趣的读者可通过该编号在arXiv上查阅完整论文。

你有没有观察过一个小孩第一次进入游乐场的样子?他会先四处张望,然后跑向最显眼的滑梯,玩了几次之后,开始尝试旁边的秋千,再后来发现角落里藏着一个沙坑……他始终记得自己玩过什么,所以能不断向新的地方迈进。整个过程既不需要父母告诉他该玩什么,也不需要任何奖励,只是单纯地被"还没见过的东西"吸引着。

现在把这个小孩替换成一个AI智能体,把游乐场替换成一款从未被测试过的手机应用或网页——问题就来了。当前绝大多数AI智能体在这种"自由探索"的场景下表现得像一个失忆的孩子:它可能一遍又一遍地点同一个按钮,完全不知道自己刚才已经做过同样的事情,更无从判断哪些地方还没有被触碰过。这不是因为模型本身不够聪明,而是因为它缺乏一种关键能力——**记忆**。

正是为了解决这个根本性的问题,来自清华大学、中山大学、百度、同济大学和北京大学的研究团队提出了一个全新的框架,名为JAMEL(联合智能体记忆与探索学习,Joint Agent Memory and Exploration Learning)。这个框架的核心思想可以用一句话概括:让记忆和探索彼此"喂养"对方,形成一个持续进化的良性循环。

一、为什么AI智能体总是原地打转?

要理解JAMEL解决的问题,先要搞清楚AI智能体在探索任务中究竟卡在了哪里。

在大多数实际应用场景中,AI智能体扮演的是一个"操作员"的角色:它打开一个网页或应用,观察当前屏幕上的内容,然后决定下一步做什么——点击哪里、填写什么内容、滑动到哪个方向。这个过程持续几十步乃至几百步。麻烦在于,环境是"部分可观测"的,也就是说,智能体每一步只能看到当前屏幕,无法直接看到整个应用的全貌。

这就相当于你被蒙着眼睛逛一座迷宫,只有在某个位置时,眼罩才短暂掀开让你看一眼周围。在这种情况下,你能否走出迷宫,很大程度上取决于你还记不记得自己去过哪些地方。

现有的AI智能体通常有两种应对方式。第一种是"全记":把过去所有的操作历史完整地塞进输入框,让模型每次决策时都能看到完整记录。这种方法确实有效,但代价极高。随着探索步骤的增加,历史记录越来越长,处理这些文字(或截图)所消耗的计算资源呈爆炸式增长。商业闭源大模型(如谷歌的Gemini)勉强能承受这种开销,但对于普通研究者或在设备上本地运行的小模型来说,几乎是不可能完成的任务。

第二种方式是"裁剪":只保留最近几步的历史,或者把旧历史压缩成一段文字摘要。这样计算成本降下来了,但随之而来的是信息损失。一旦关键的历史记录被删掉,智能体就开始重复走过的路,探索深度大幅下降。

问题的本质是:**如何在不消耗大量计算资源的前提下,让智能体始终知道自己去过哪里?**

二、记忆与探索:一对相互依赖的搭档

研究团队发现,记忆和探索之间存在一种深刻的互依关系,而这正是JAMEL框架的理论基础。

有了记忆,智能体才能判断哪些行为已经被尝试过、哪些地方还值得一探;而探索本身,恰恰又能为记忆的训练提供最自然的"教材"。

打个比方:你是一位第一次到访某个城市的旅行者,手边有一本空白的旅行日记(记忆模块)。每当你去了一个新地点,日记里就多了一条记录。当你下次出门规划路线时,你会翻看日记,避开已经去过的地方,专门寻找还没打卡的角落。旅途越深入,日记越充实,你的决策也越精准。而如果日记根本不起作用(因为你看不懂自己的笔记),你就会一次次重复走同一条街。

在这个框架里,关键的洞察是:**当智能体因为做出了新颖的探索行为而获得奖励时,这个奖励信号就同时告诉了记忆模块"什么信息是有用的"**。不需要人工标注每一步的记忆应该写什么,探索过程本身就在自动生成训练素材。

这种"自给自足"的学习方式还会天然形成一个由易到难的学习曲线。在探索初期,随便点几下都能触发新功能,奖励信号密集;随着应用的浅层功能被逐渐覆盖,要获得奖励就必须进行更复杂的多步操作,模型被迫学习更深层的探索策略。这就像游戏的难度设计:前期关卡简单,帮你建立基础操作感;后期关卡复杂,逼着你掌握高级技巧。整个过程无需任何人为设计,完全自然涌现。

三、JAMEL的构造:一个精巧的"压缩+决策"双引擎

理解了设计思路,现在来看JAMEL的具体技术架构是如何实现这一切的。

整个系统由两个核心模块组成,它们协同工作,共同完成"记忆历史、决策下一步"的任务。

第一个模块是**历史压缩器**。它的工作原理可以用"拍快照"来理解。每当智能体完成一步操作(比如点击了某个按钮),压缩器就把这一步的屏幕画面和执行的动作打包在一起,"消化"成一个极其紧凑的向量——研究团队把它称为"记忆令牌"(memory token)。这就像把一页完整的日记压缩成一个小图标,图标本身虽然看起来很小,但包含了这一页的核心要义。整个历史就由一串这样的小图标组成,数量等于已经走过的步数。

承担这项压缩工作的是一个冻结参数的视觉语言模型(研究中使用的是阿里巴巴的Qwen3-VL-2B),"冻结"意味着它的参数在训练过程中保持不变,只起到信息提取的作用,不被更新。

第二个模块是**决策策略模型**。它接收当前屏幕画面,同时还接收来自压缩器的那一串历史记忆图标,将二者合并后输出下一步的操作指令。在技术实现上,那些记忆令牌被一个可学习的线性变换投影到决策模型的"语言空间",然后拼接在当前观测的前面,作为"软前缀"输入。决策模型本身基于Qwen2.5-VL-7B,两者合计约9B(90亿)参数,因此整个系统被称为JAMEL-9B。

这个设计的精妙之处在于**极致的压缩比**。无论历史有多长——哪怕已经走了四十九步——送入决策模型的历史信息永远只是四十九个紧凑向量,而不是几十张截图加上几千字的操作记录。计算成本因此被压缩到一个极低的固定倍数,而不是随历史长度爆炸性增长。

四、新奇度信号:用代码覆盖率来量化"是否真的发现了新东西"

有了架构,还需要一种可靠的方式告诉模型"这一步有没有做出真正的新发现"。这就是所谓的"新奇度奖励"。

在一般的强化学习场景中,这类奖励很难定义,因为"什么叫新"本身就是个模糊的概念。研究团队选择的应用场景——网页应用探索——恰好提供了一个天然精准的度量标准:**代码覆盖率**。

任何一款网页应用在底层都是由JavaScript代码驱动的。每当用户(或智能体)触发某个操作,应用的某些代码路径就会被执行。通过一种叫做"代码插桩"的技术,可以精确记录哪些代码行、哪些分支、哪些函数被执行过。一旦某段代码被执行过,它就永远被标记为"已覆盖",即使下次再触发同样的操作也不会重复计分。

研究团队将覆盖的代码行数、分支数、语句数和函数数加总,形成一个累积得分C(t)。智能体每完成一步,如果这一步让累积得分增加了(也就是触发了之前从未执行过的代码),就获得奖励值1;否则奖励为0。这个机制天然满足"持久性"要求:一个地方探索过一次之后,无论重复多少次,都不再有奖励,彻底杜绝了"在原地打转刷分"的可能。

尤其值得一提的是,这套奖励机制完全不需要人工标注。只要把应用部署到一个带有覆盖率监测工具的浏览器环境(研究中使用了V8 JavaScript引擎和Istanbul覆盖率报告器),就能全自动地产生训练信号。这大幅降低了数据收集的成本。

五、训练数据是怎么来的?从自动收集到精挑细选

理解了奖励机制,再来看数据收集流程,会发现整个过程设计得相当精巧。

研究团队首先把一个通用大语言模型部署到浏览器环境中,让它自由探索各个网页应用。每一步,这个"采集模型"都会产生一段推理过程和一个具体操作,同时系统记录下这一步是否触发了新的代码覆盖。

探索是以"会话—场次"的方式组织的:一次完整会话包含多个探索场次,每个场次从应用首页出发,最多走N步,然后浏览器重置。不同场次之间,代码覆盖的基准线是共享且累积的,也就是说,越到后面的场次,已经被覆盖的代码越多,产生奖励的难度越高,形成那个自然的课程梯度。

数据筛选阶段,研究团队只保留每个场次中"最后一个产生正奖励的步骤及其之前的所有步骤"。这样做的逻辑是:一个最终触发了新发现的轨迹,其中每一步都值得被学习;而从头到尾没有任何新发现的场次则被直接丢弃。通过这种"回溯接受"的过滤机制,每一条保留下来的训练样本都属于真正有效的探索轨迹。

最终,团队在ScaleWoB基准测试平台的86个网页应用上,收集了2.4万条训练样本,涵盖电商、社交媒体、视频、旅游物流、办公协作等多个类别。

六、实验:JAMEL在陌生应用上究竟表现如何?

所有工作的最终检验,是在从未见过的应用上进行测试。研究团队把96个应用分成86个训练集和10个测试集,JAMEL完全在训练集上学习,然后直接到测试集上"上岗"。每次评估给智能体50步的预算,看它能触发多少新的代码路径。

对比的基准线覆盖了两类系统。云端闭源模型方面,研究团队把谷歌的Gemini 3.1 Flash-Lite配合ReAct框架(一种让模型边推理边行动的方法)来运行,分为纯文字版(ReAct-text)和附带截图版(ReAct-vision)。这两种方式都保留了完整的历史记录,是计算资源消耗最高的基准线。本地开源模型方面,对比了MAI-UI(基于阿里Qwen3-VL的8B参数GUI智能体,内置设备端/云端路由机制)和Mobile-Agent-v3.5(基于GUI-Owl-1.5的8B参数框架,使用滑动窗口压缩历史并配备Notetaker摘要模块)。

结果相当令人印象深刻。在50步的会话中,ReAct-text平均积累19.9分的覆盖奖励,ReAct-vision达到20.9分,而MAI-UI只有8.4分,Mobile-Agent-v3.5更低,只有5.9分。JAMEL-9B的得分是20.7分,以大约9B的总参数量、完全开源的模型,不仅将其他小模型甩出一大截,还几乎追平了使用完整历史的大型闭源商业模型。

从奖励随时间增长的曲线来看,差异更加直观。MAI-UI和Mobile-Agent-v3.5在大约20步之后明显开始停滞,曲线趋于平缓;而JAMEL的曲线始终保持稳定向上的趋势,一直延伸到第50步,走势与两个ReAct基准线高度重合。研究团队认为,本地小模型的停滞源于它们的历史压缩策略不可避免地丢弃了关键信息,导致智能体在后期逐渐"忘记"自己去过哪里,又开始重复旧路;而JAMEL通过紧凑但不丢失的潜在记忆,始终保留着完整的历史信息,所以没有这个问题。

七、算力消耗:JAMEL有多"省"?

探索深度可以媲美大型闭源模型,计算成本又如何?

研究团队统计了在10个测试应用、每应用50步(合计500步)的评估过程中,各方法消耗的输入token总数。ReAct-text累计消耗约1890万token,ReAct-vision更高达约2326万token。MAI-UI约298万token,Mobile-Agent-v3.5约293万token。JAMEL只消耗了约106万token。

换算成倍数关系:MAI-UI和Mobile-Agent-v3.5消耗的token量约为JAMEL的2.81倍和2.76倍,而两个ReAct基准线则分别是JAMEL的17.85倍和21.92倍。也就是说,JAMEL用不到ReAct-vision二十二分之一的计算开销,取得了几乎相同的探索成绩。每一步平均只需处理约2122个token,远低于其他所有方案。

这个效率差距在实际部署中意味着显著的成本节约,也意味着JAMEL这样的系统未来完全可能运行在算力受限的边缘设备上,而不必每次都依赖昂贵的云端服务。

八、不同应用,不同探索故事

除了整体数字,研究团队还详细分析了每个测试应用上的具体探索轨迹,展现出非常有趣的多样性。

在结构层次深的商业和旅游平台上,比如唯品会、Expedia和Temu,JAMEL的奖励曲线从头到尾保持持续攀升,体现出它在复杂多层界面中逐步深入的能力。阿里巴巴和淘宝这两个超大型电商平台则呈现出另一种模式:曲线中间出现了几次陡升,这说明智能体在某个时刻成功"越过"了一个界面模块的边界,突然进入了全新的功能区域,一次性触发了大量新代码——这是它真正摆脱了局部探索陷阱的证据。

媒体和生活方式类应用如优酷和Keep的情况则有所不同。在这些应用中,所有方法的曲线都在大约20步后趋于平缓。研究团队认为这不是模型的问题,而是这类应用本身可交互功能有限,本来就没有那么多新代码路径可以触发。所有方法都较早达到了"探索天花板"。

拼多多是JAMEL遇到挑战最明显的案例。这款应用以极度密集的弹窗和浮层著称,智能体经常试图点击背景中看起来可以操作的元素,却发现它们被前景弹窗遮住了,操作无效,陷入一段时间的"原地徘徊"。这说明当界面设计非常复杂、弹窗叠弹窗时,仅靠压缩历史中的视觉和交互信息,仍然难以完全应对这种干扰。

九、这项研究的未来在哪里?

研究团队在论文中专门讨论了JAMEL框架的两个最值得期待的发展方向。

第一个方向是探索的扩展规律。目前JAMEL通过监督微调(模仿优质探索轨迹)来学习,下一步可以引入强化学习,直接以新奇度奖励作为优化目标。加之新奇度奖励内置了由易到难的课程,从浅层探索到深层多步探索的过渡是自然发生的,这让强化学习训练比通常情况下更加稳定。此外,随着模型参数规模增大、训练数据增多、探索步数加深,整个系统的能力上限如何变化,仍是一个待解的开放性问题。

第二个方向被研究团队称为"先探索,后执行"范式。在很多实际场景中,用户希望AI帮助完成特定任务,比如"帮我在这款应用里找到设置语言的地方"。但完成任务的前提是对应用的功能布局有所了解。JAMEL的探索过程恰好能积累这种"结构性记忆"——它探索过的应用在记忆模块里留下了关于应用功能分布的隐式知识。如果这份记忆能够被后续的任务执行阶段复用,智能体就能在面对具体指令时更快找到目标,而不必从零开始摸索。这将构成一种"自主积累经验、按需调取应用"的智能体自进化框架,大幅减少对人工标注数据的依赖。

说到底,JAMEL做的事情并不复杂:它让AI智能体终于拥有了一种可以随着时间积累、不会随着历史增长而爆炸、又能在训练中自动被优化的记忆方式。它的核心贡献是证明了一件原本不太显然的事——探索和记忆不需要被当作两个独立的问题来解决,当你把它们放在一起,让探索的结果去训练记忆,让记忆去指导探索,整个系统就会自发地越来越聪明。

这对普通人意味着什么?短期内,这类技术可能让AI助手在使用一款新应用时,不再需要有人逐步教它怎么操作,而是能自己摸索出应用的功能分布,然后在你提出具体需求时精准地帮你完成。长远来看,"自主探索陌生环境、积累经验、按需调取"的能力,是通向真正自适应AI智能体的重要一步。

有兴趣进一步了解这项研究的读者,可以通过arXiv编号2606.01528查阅完整论文,代码和模型也已在GitHub的MobileLLM/JAMEL仓库开源,可以直接下载试用。

Q&A

Q1:JAMEL框架中的"潜在记忆令牌"和普通的文字摘要记忆有什么本质区别?

A:普通文字摘要是把历史操作压缩成人能读懂的句子,可以人为检查和修改,但生成和理解摘要本身也要消耗计算资源,而且摘要质量依赖提示词设计。JAMEL的潜在记忆令牌则是一个数学向量,没有可读的语义,每步历史都被压缩成固定大小的向量,无论历史多长,送入决策模型的记忆始终是等量的向量序列,计算开销不随历史增长而爆炸,且整个向量的"内容"是通过探索奖励信号端到端自动学出来的,不需要人为设计压缩规则。

Q2:代码覆盖率作为新奇度奖励,只适用于网页应用吗?其他场景能用吗?

A:代码覆盖率本质上是网页应用特有的便利条件。论文也指出,在其他环境中可以用类似逻辑的替代信号:比如在机器人导航场景中,可以用"发现新地点"或"遇到从未见过的物体"来充当新奇度信号;在文本游戏中,可以用"进入从未访问过的游戏状态"来衡量。核心要求是信号必须具有持久性——一旦某个状态被探索过,下次再次访问时不能重新计分,否则智能体会反复刷分而不是真正探索新领域。

Q3:JAMEL训练好之后,能直接用在从未见过的手机原生应用上吗?

A:目前JAMEL的实验是在网页应用环境下进行的,使用的是基于浏览器的操作接口(BrowserGym)。对于原生手机应用,操作接口和观测形式有所不同,需要对应的适配工作。但研究团队在论文中提出的"先探索后执行"范式与手机应用场景高度吻合,后续很可能会有针对手机应用的扩展版本。从技术原理上看,只要能定义适合手机应用的持久性新奇度信号(如触达新界面、发现新功能入口),整个训练框架是可以迁移的。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新