![]()
这项由加州大学洛杉矶分校(UCLA)团队领导的研究以预印本形式发布于2026年5月,论文编号为arXiv:2605.12493v1,有兴趣深入了解的读者可通过该编号查询完整论文。
**一段关于"老员工"的灵魂拷问**
在任何一家公司里,最值钱的员工往往不是学历最高的那位,而是在这家公司待了十年、对所有内部系统了如指掌的"老员工"。他知道公司用的是哪个版本的报销系统、知道填那张表格时第三个下拉菜单会莫名其妙跳出一个奇怪的bug、知道要打印合同必须先去跟IT部门申请权限。这些东西在任何官方文档里都找不到,只存在于他脑子里——这就是所谓的"经验"。
现在,科学家们面临的问题是:如何让AI智能体也拥有这种"老员工"的经验?
这正是这篇来自UCLA的论文想要解决的核心问题。研究团队构建了一套全新的评测基准,名为LongMemEval-V2(简称LME-V2),专门用来衡量AI智能体的"长期记忆"能力——不是记住你昨天聊过什么,而是在反复使用一个复杂的网页系统之后,真正积累出像老员工一样的环境经验。
一、为什么AI的"记忆"是个大问题
要理解这项研究的价值,先得弄清楚AI智能体平时在做什么。可以把AI智能体理解成一个被派去操作网页系统的"虚拟员工"——它可以登录一个电商后台,帮你处理订单;可以进入一个企业工单系统,帮你提交IT请求;可以在论坛里发帖回帖。这类工作已经不只是简单地回答问题,而是需要一步一步地点按钮、填表格、导航页面。
问题在于,AI每次开始新任务时,基本上就像是第一天上班的新员工——它对这个具体系统一无所知,只能凭借自己在训练时学到的通用知识来摸索。如果系统里有一个特别反人类的设计,比如某个按钮必须先点一下别的东西才会出现,新员工会踩坑,AI同样会踩坑。而且和人类不同,AI踩完坑之后,往往下次还会再踩同一个坑——因为它没有能持续积累经验的"长期记忆"系统。
这里就出现了一个技术上的空白地带。学术界确实已经有很多研究在做AI的"记忆",但这些研究大多集中在两类场景上:一类是记住用户聊天记录(比如你上周跟AI说过你不吃辣,这周它应该记住);另一类是从超长文档里检索信息。这两类场景都不够"脏"——现实中的智能体要面对的是充满噪音的操作记录、复杂的页面状态变化、偶发性的失败案例,以及那些只有反复碰壁才能总结出来的"系统潜规则"。
于是,UCLA团队决定正面迎击这个空白,造出了LME-V2这把评测利器。
二、LME-V2是什么——一套专门刁难AI"老员工"的考题
LME-V2的核心思路非常直觉化:把一大堆AI智能体操作网页的历史记录(研究者把这堆记录称为"干草堆",而藏在里面的关键信息叫"针")塞给记忆系统,然后用精心设计的问题考它,看它能不能答对。
测试用的网页环境来自两个已有的研究平台:WebArena和WorkArena。前者模拟了一个定制版的Magento购物网站、购物后台管理系统和类似Reddit的论坛;后者模拟了ServiceNow这个企业级工单管理系统。这些都不是随便搭的玩具网站,而是有大量定制化配置、和公开版本存在显著差异的专属环境——这正是考验AI"经验"的关键所在。
研究团队从这些环境里收集了1540条AI操作轨迹(599条来自WebArena,941条来自WorkArena),每条轨迹平均包含28.1个操作状态。整体成功率约为52%,意味着有将近一半的任务是以失败告终的。这个失败轨迹被特别保留下来,因为很多"踩坑"经验恰恰只能从失败案例中学到。
所有的题目全部由人工标注,共计451道,覆盖五大记忆能力维度。第一类叫"静态状态回忆",考的是对页面布局、按钮位置、表单字段的记忆,就像考你记不记得公司报销系统里"提交"按钮在页面左边还是右边。第二类叫"动态状态追踪",考的是对操作引发的状态变化的理解,比如当一个问题被标记为"重复"之后,页面上会新增什么字段、又会消失什么字段。第三类叫"流程知识",考的是完成某类任务的标准操作步骤,类似于考核一位员工是否真正掌握了某项工作的SOP。第四类叫"环境陷阱",考的是对这个特定系统里反复出现的坑的认知,就像知道"这个系统里搜索用的是大于等于匹配,所以结果会比你预期的多"这类只有吃过亏才知道的知识。第五类叫"前提意识",考的是能否识别出题目本身包含错误假设——比如有人问"创建变更请求表单右上角那个多出来的按钮叫什么?",但实际上创建变更请求表单并没有那个按钮,正确答案是指出题目前提有误。
这五类题目对应着一个"有经验的同事"在日常工作中真正需要的五种知识层次,形成了一套完整的考核体系。
三、题目有多难——连最强的AI也只能答对14%
为了验证这套题目真的在考"环境经验"而不是"通用知识",研究团队做了一个对照实验:把题目直接扔给当下最顶尖的大语言模型,不给任何操作历史,让它们凭自身知识作答。
参与测试的包括GPT-5.2、Gemini-3.1-Pro、Claude Opus 4.6、Grok-4.20等一众主流强模型。结果令人信服:表现最好的Kimi-K2.5只答对了14.1%,其他模型大多在10%上下徘徊。GPT-5.2甚至只有4.7%,Grok-4.20更惨,只有2.4%。
这个结果说明了什么?说明这些题目考的东西,确实不在这些模型的"通用知识"储备里。虽然这些模型对Magento、ServiceNow等平台的公开版本有一定了解,但定制化的WebArena和WorkArena环境有其独特的配置和行为逻辑,而这些只能从实际操作历史中习得。
研究团队还做了另一个方向的验证:给模型提供"神谕级别"的帮助——直接把包含答案的操作轨迹喂给模型,看它能答对多少。这次表现好多了:Qwen3.5-9B能答对约60%,GPT-5.4-mini能答对约65%。如果进一步只把包含答案的关键状态切片喂给模型,再加上从轨迹中总结出的策略笔记,Qwen3.5-9B能到82.5%,GPT-5.4-mini能到86.3%。而最令人眼前一亮的是:用Codex这个编程智能体,让它自己去检查轨迹文件并回答问题,准确率飙升到了89.7%。
这组数字传递出一个非常重要的信号:题目本身的设计是合理的,答案确实藏在轨迹里,只是需要一个足够聪明的"记忆系统"把它挖出来。
四、干草堆有多大——这是一个规模空前的考验
LME-V2提供了两个难度级别的"干草堆"。小号版本(LME-V2-Small)是所有问题共享一个包含100条轨迹的历史库,总共约2500个操作状态,换算成文本大概是2560万个token(token可以粗略理解为单词或字符的计量单位,1000个token大约相当于750个英文单词)。大号版本(LME-V2-Medium)则为每道题单独配备了约500条轨迹的历史库,平均含有14900个操作状态,总token量约为1.148亿。
对比一下就知道这有多夸张:目前市面上大多数主流模型的上下文窗口在10万到100万token之间,而LME-V2-Medium的单题历史量直接超过1亿token。任何想要"一口吞下"这个历史库的方案从一开始就注定失败,必须设计专门的"记忆系统"来分阶段处理、存储、检索这些信息。
与此前已有的类似基准相比,LME-V2的规模是断崖式的领先。之前最长的对话记忆基准顶多在150万token左右,而LME-V2直接干到了1.15亿token,整整高出了两个数量级。更重要的是,在它之前,几乎没有任何基准同时覆盖静态记忆、动态追踪、流程知识、环境陷阱和前提意识这五个维度,LME-V2是第一个将这些维度整合到同一套框架下进行系统评测的工作。
五、如何评测——"记忆系统"到底要做什么
为了让评测结果公平可比,研究团队设计了一套叫做"上下文收集"的评测框架,为所有参赛的记忆系统划定了统一的竞技规则。
任何记忆系统都必须提供两个接口:一个是"插入"(Insert),负责在轨迹一条一条流入时处理并存储信息;另一个是"查询"(Query),负责在接到问题时返回一段紧凑的证据内容。这段证据内容随后会被截断到20万token以内,交给一个固定的"阅读模型"(研究中使用Qwen3.5-9B)来作答。
这个设计的精妙之处在于,它把记忆系统的质量和阅读模型的能力清晰地分开了:阅读模型对所有记忆系统都是一样的,所以最终准确率的高低,直接反映了记忆系统检索到的证据是否足够精准和有用。同时,研究还记录了每次查询的耗时,因为一个实用的记忆系统不能只追求准确,还必须足够快。
六、AgentRunbook——研究团队自己设计的两套解法
面对这个挑战,UCLA团队自己提出了两套记忆方案,统称为"AgentRunbook",可以理解为"智能体的操作手册"。
第一套方案叫AgentRunbook-R,其中R代表RAG,也就是"检索增强生成"技术。这套方案的思路是:在轨迹一条条插入时,用大语言模型对每条轨迹进行处理,往三个不同的知识池里存东西。第一个池子叫"原始状态切片池",存的是围绕每个操作状态的局部快照——当前页面的无障碍树文本(相当于页面结构的文字描述)、截图、附近的操作动作,窗口大小为上下各一个状态。第二个池子叫"状态转换事件池",存的是相邻状态之间发生了什么变化——比如点击某个按钮之后,页面出现了什么、消失了什么。第三个池子叫"流程与提示笔记池",存的是从整条轨迹中提炼出的高层次知识——完成某类任务的标准步骤、需要注意的陷阱、系统特有的行为规律。
查询时,AgentRunbook-R会用一个LLM控制器分析问题,然后同时向三个池子发出针对性的检索请求:可以发出最多五个不同的状态检索问题(针对不同的页面或实体),一个事件检索问题(针对状态变化),一个笔记检索问题(针对流程知识)。三路检索结果合并后形成最终的证据包,送给阅读模型。
第二套方案叫AgentRunbook-C,其中C代表Coding Agent,也就是"编程智能体"。这套方案的出发点是:既然编程智能体很擅长操作文件系统和调用工具,为什么不直接把所有轨迹存成文件,然后让一个编程智能体去翻文件找答案?
在插入阶段,AgentRunbook-C把每条轨迹原封不动地存成一个目录,包含轨迹的JSON数据文件和所有截图。查询时,系统为编程智能体准备好一套"工作台":里面有描述当前历史库概况的两份索引文件(一份简版、一份详版),有一个专门用来高效检查单条轨迹、单个状态或在轨迹内搜索文本的辅助脚本,还有一份详细的工作流说明文档,告诉编程智能体要把自己当成一个记忆检索模块而不是最终答题者。编程智能体按照工作流,先用索引文件粗筛可能相关的轨迹,再用辅助脚本精确检验,最后把找到的证据状态片段和一段简短的分析笔记写入输出文件,由系统渲染成最终的证据包。
两套方案各有侧重:AgentRunbook-R速度快,每次查询平均只需26秒,适合对延迟敏感的场景;AgentRunbook-C精度高,但查询时间更长,在大号测试集上平均需要约140秒。
七、实验结果——数字背后的故事
在LME-V2-Small测试集上,不做任何检索直接让模型答题的准确率只有1.3%,相当于瞎猜。最简单的RAG方案(直接用问题去检索状态切片)能到42.8%,加上笔记之后提升到51.0%。AgentRunbook-R进一步达到58.6%,在每个子类上都有显著提升,尤其是静态类题目达到了66.1%。在所有方案中,AgentRunbook-C表现最佳,整体准确率74.9%,静态类更是高达82.0%,动态类72.4%,流程类72.6%。相比之下,未经改造的Codex智能体直接作答是69.9%,AgentRunbook-C提供的工作流文档、索引文件和辅助脚本让它额外提升了5个百分点。
在更难的LME-V2-Medium测试集上,所有方案的表现都有不同程度的下滑,但相对排名保持一致:AgentRunbook-C以70.1%的整体准确率领跑,Codex为68.7%,AgentRunbook-R为57.0%,简单RAG只有38.1%。
从速度与精度的权衡来看,AgentRunbook-R在约26秒的查询延迟下就能达到接近60%的准确率,而Codex需要约177-186秒才达到69-70%的准确率,AgentRunbook-C则以约108-140秒的延迟实现了更高的70-75%准确率,在速度和精度的综合表现上形成了新的最优折衷点。
通过对错误的细致分析,研究团队发现了一个有意思的模式:在所有错误类型中,检索失败(即记忆系统根本没有找到包含答案的轨迹或状态)是最主要的失分原因。从最简单的RAG到AgentRunbook-R再到AgentRunbook-C,检索失误数量逐级递减,而阅读错误(已经找到了答案所在的状态,但阅读模型仍然答错了)也相应减少,说明找到更精准的证据本身就能帮助阅读模型更好地作答。值得一提的是,AgentRunbook-R对"前提意识"题目的提升有限——因为它只是把相关证据一股脑呈给阅读模型,没有主动分析证据是否与题目前提矛盾;而AgentRunbook-C则通过工作流要求编程智能体在发现矛盾时主动标记,因此在这类题目上表现更好。
八、编程智能体的操作行为——它究竟是怎么找答案的
研究团队还专门分析了AgentRunbook-C和普通Codex在查询时的工具调用行为,想搞清楚工作流改造究竟改变了什么。
结果非常直观:在LME-V2-Medium上,普通Codex平均每次查询会执行约21.8次"原始轨迹探索"操作——也就是直接翻文件、用通用搜索命令扫描目录,属于大海捞针式的粗放检索。而AgentRunbook-C平均只执行约1.2次原始探索,绝大部分检索动作(约18次)都是通过工作流引导的"定向检索"——先读索引文件定位可能相关的轨迹,再用辅助脚本精确检验目标状态。
从时间分布来看,AgentRunbook-C在前几个操作步骤里就迅速进入"定向检索"阶段,而普通Codex会在后期越来越多地陷入原始文件探索,浪费大量时间在与答案无关的轨迹上打转。这就是AgentRunbook-C比普通Codex快约32%、同时准确率还更高的根本原因:工作流文档和索引文件帮编程智能体省去了大量无效探索,把精力集中到真正相关的证据上。
九、研究的边界与现实考量
研究团队对这项工作的局限性坦诚地做了说明,值得一提。
LME-V2目前专注于网页浏览类智能体,虽然浏览网页是一个非常广泛且实用的场景,但编程智能体、计算机操控类智能体、领域专用企业智能体等其他类型的智能体可能有完全不同的记忆需求和挑战模式,LME-V2的结论不能直接推广到这些场景。
另外,LME-V2是基于预先收集好的轨迹历史来评测记忆系统的,而不是在智能体实时工作时进行在线学习。这种离线评测方式便于分发和重现,但可能无法完全还原一个智能体在持续使用某个环境过程中产生的行为分布漂移——毕竟,智能体自己的操作历史会和它未来的行为相互影响,这个动态循环在静态测试集里是看不到的。
AgentRunbook-C虽然表现出色,但它并不是一个从头专门设计的记忆系统,而是在现有编程智能体框架(Codex)之上加了三个轻量级脚手架。未来如果能从更底层设计出真正与记忆、规划、执行深度融合的系统,或者训练出能自适应调整存储和检索策略的智能记忆控制器,很可能会带来更大的性能跃升。
说到底,LME-V2这项工作最有价值的贡献,不是它提出的那两套解法有多厉害——尽管AgentRunbook-C已经把现有基线提升了相当幅度——而是它清晰地定义了"什么叫有经验的AI同事",并构建出一套能够系统评测这种经验积累质量的工具。
当下,AI助手越来越多地被部署到各种企业系统里帮人干活。但大多数情况下,它们每次都像新入职的实习生,对系统里的门道一无所知。怎么让AI从"会操作"升级到"真的懂这个系统",是决定AI助手能不能真正减轻人类工作负担的关键问题。LME-V2把这个问题从抽象变成了可量化、可比较、可优化的具体任务,这本身就是一件推动整个领域往前走的事。
目前最好的方案AgentRunbook-C在小号测试集上达到了74.9%的准确率,听起来不错,但这意味着每四道考题里仍然有一道答错。在一个对操作准确性要求极高的企业环境里,这个错误率还远远不够低。更何况,即便是"找到了正确证据但阅读模型仍然答错"这类问题,目前的框架也还没有从根本上解决。未来的研究空间依然相当充裕。
这项来自UCLA团队的工作以预印本形式发布于2026年5月,感兴趣的读者可以通过arXiv:2605.12493v1找到完整论文,深入了解数据集构建的每一个细节和完整的实验分析。
Q&A
Q1:LongMemEval-V2测试的是什么类型的AI记忆能力?
A:LongMemEval-V2测试的是AI智能体在反复操作一个特定网页系统后积累的"环境经验",包括五类能力:对页面布局的静态记忆、对操作引发变化的动态追踪、对任务流程步骤的知识掌握、对系统特有陷阱的认知,以及识别出问题本身存在错误前提的能力。这区别于一般的"记住聊天记录"型记忆,更接近一个熟悉公司内部系统的老员工所拥有的经验。
Q2:AgentRunbook-C和普通的RAG检索方法相比优势在哪?
A:AgentRunbook-C把操作轨迹存成文件,让编程智能体借助索引文件和辅助脚本精准定位证据,避免了大量无效的文件搜索。在准确率上,它在小号测试集达到74.9%,远超最强RAG方案的58.6%。在效率上,它比未经改造的编程智能体快约32%。核心优势在于工作流文档引导智能体专注于相关轨迹,减少了漫无目的的探索。
Q3:LME-V2基准和之前的AI记忆评测有什么不同?
A:最大的不同是规模和内容深度。LME-V2-Medium单题历史库超过1亿token,比此前最长的类似基准高出约两个数量级。内容上,LME-V2是首个同时覆盖静态状态记忆、动态追踪、流程知识、环境陷阱和前提意识五大维度的基准,使用真实网页智能体的多模态操作轨迹(含截图),而非合成对话或简化游戏环境。





京公网安备 11011402013531号