![]()
这项由香港城市大学与微软亚洲研究院联合开展的研究,以arXiv预印本形式于2026年6月4日发布,编号为arXiv:2606.05922v1,研究方向归属于计算机科学的人工智能领域。感兴趣的读者可以通过该编号在arXiv平台上查阅完整论文。
**一条关于"自我成长"的核心问题**
假设你是一名刚入职的程序员,公司希望你在工作中不断进步。通常的做法是,上级会定期出题考你,根据你的答题成绩判断你有没有进步,然后给你指导。但现在公司的要求变了——考试题目太难找了,没有人整理标准答案,于是公司希望你仅凭自己过去工作中留下的任务记录,就能发现自己的弱点并自我提升。
这个看似荒诞的要求,正是当今AI智能体所面临的真实困境,也是这篇论文试图破解的核心难题。
现在的AI智能体越来越像一个多才多艺的助手——它有自己的工具箱(各种执行程序)、一套行为规范(操作指南)和一些专属技能(解决特定问题的方法)。这整套"装备"合在一起,研究团队称之为"harness",我们可以将它理解为AI的"工作套件"或"能力工具包"。工具包越好用,AI完成任务的能力就越强。
现有的提升方法大多依赖一个关键前提:需要有人提前准备好一批标准测试题目,并且每道题都配有明确的正确答案。AI尝试新的工具包配置之后,用这些题目测一测,看分数是否提高,以此决定要不要接受这次改动。这个过程就像是在参加一场有固定评分标准的考试,没有考题,整个流程就无法运转。
然而在现实中,AI被部署到真实工作环境之后,要找到这样一批"量身定制的标准考题"几乎是件奢侈的事。不同的公司有不同的需求,任务类型千变万化,而且整理标准答案本身就需要大量人力和专业知识。与此同时,AI在日常工作中会产生大量"工作日志"——它解决了哪些任务、用了什么步骤、最终输出了什么结果,这些记录被研究团队称为"轨迹"(trajectory)。这些轨迹中其实蕴含着丰富的改进线索,只是以前没有人好好利用过。
这篇论文提出的方法叫做"回顾性工具包优化"(Retrospective Harness Optimization,简称RHO),它的核心思想是:既然有标准答案的考题难以获得,不如让AI自己翻看过去的工作日志,通过对比和反思,找出自己哪里做得不好,然后自发地改进自己的工具包。整个过程不需要任何外部评判者,AI就是自己的"诊断医生"和"改造工程师"。
一、诊断自己:从"工作日志堆"里挑出最有价值的案例
AI在日常运行中会积累大量轨迹记录,这些记录的质量参差不齐。有些任务非常简单,AI轻松完成,从这些记录里几乎学不到什么;而另一些任务极具挑战性,恰恰暴露了AI工具包的薄弱之处。因此,RHO的第一步是从海量历史记录中精准挑选出最有学习价值的案例,研究团队将这个筛选出来的子集称为"核心集"(coreset)。
挑选的标准有两个:任务的难度和任务之间的多样性。只挑难题不行,因为如果所有案例都集中在同一类型的困难上,改进的方向就会过于偏窄,无法覆盖AI实际工作中的各种情形;只追求多样性也不行,因为如果选了一堆简单任务,根本找不到值得改进的地方。
为了同时满足这两个要求,研究团队引入了一种数学工具叫做"行列式点过程"(Determinantal Point Process,简称DPP)。这个名字听起来高深,但核心思想其实很直觉:当你从一堆候选案例中挑选若干个时,既要保证每个被选中的案例本身足够困难(难度高的权重更大),又要保证被选出的案例彼此之间差异足够大(不要选五个长得一模一样的任务)。这就像你在筹备一场培训课时,不仅要选那些学员普遍答错的难题,还要确保这些难题覆盖不同的知识点,而不是全部集中在同一个角落。
实验中,研究团队将难度和多样性的权重比例设置为7:3,也就是说难度因素的影响力略大于多样性,因为一道足够难但与其他案例有所重叠的题目,也比一道简单但新颖的题目更有价值。最终,系统从历史记录中选出10个核心案例,作为后续所有优化工作的基础。
这一步对最终效果至关重要。研究团队后来专门做了实验,验证了"只按难度选"和"只按多样性选"都会导致优化效果大打折扣,甚至还不如随机挑选。只有两者兼顾的DPP方法,才能稳定带来显著的性能提升。
二、重新"上场比赛":让AI对同一道题做多遍,然后比较差异
挑出核心案例之后,RHO的第二步是让AI用当前的工具包对每道核心题目重新独立解答三次。这就好比让同一个学生用同样的方法论,对同一道数学题做三遍草稿,然后把三份草稿摆在一起仔细对比。
这三次独立尝试产生的记录被研究团队称为"组内轨迹"(group trajectories)。接下来,AI需要从两个不同角度审视这些轨迹。
第一个角度叫"自我验证"(self-validation):AI检查每条轨迹的内部质量,就像一个认真的老师批改作业——这道题做对了吗?步骤有没有跳跃?工具用对了吗?有没有过早停下来?有没有做出错误假设?这个过程会精确标注出每条轨迹的具体问题所在。
第二个角度叫"自我一致性"(self-consistency):AI把三条轨迹横向对比,寻找它们之间的分歧。研究团队的逻辑是:如果AI对同一道题的三次解答差异巨大——一次用这种策略,一次用那种工具,最终答案也各不相同——那说明AI在这类问题上其实很"没把握",思路摇摆不定,这本身就是一个需要修正的信号。这和人类做选择题时的经验类似:如果你对同一道题反复改答案,说明你对这个知识点根本没掌握好。
这两个维度的分析结果会被整合成一份"改进建议书",以结构化的格式记录下来,并且每份建议书还附有一个"严重程度评分"——越严重的问题在后续优化时会获得越大的权重,就像医院里的急诊分诊,病情越重的患者越优先处理。所有核心案例的改进建议书汇总在一起,就构成了驱动下一步优化的完整指导材料。
三、动手改造工具包:同时拿出三套方案,然后选最好的那个
拿到改进建议书之后,RHO进入第三步:让AI基于这份建议书,生成三套不同的工具包改进方案。为什么是三套而不是一套?因为工具包的优化本质上是一件创造性的工作,存在相当大的随机性——同样的指导意见,AI在不同"灵感"状态下可能提出截然不同的改进思路,有的改得很好,有的改得一般,有的甚至可能改出问题。既然如此,不如同时生成多套方案,然后择优录用。
这种策略被研究团队称为"最优N候选"(Best-of-N Harness Proposal)。三套方案分别对核心案例重新解答一遍,AI随后充当评判者,将每套新方案的解答结果与最初的"原版"解答结果进行逐题比较,用一个从负10分到正10分的评分标准量化差异:正10分表示新方案把原来错的题变成了对的;0分表示两者表现相当;负10分表示新方案把原来对的题做错了。把所有核心案例上的评分平均下来,得分最高的方案就被选定为新版工具包。
这里有一个关键的保守原则:即便是得分最高的方案,也必须严格高于零分才会被采纳——也就是说,新方案必须真正比原版更好,打平的情况一律视为不合格。这是为了防止AI因为自我评判的随机误差而误判了一个其实更差的方案。如果三套方案都没有达到这个门槛,那就维持原有工具包不变,等待下次优化机会。
这个"谨慎原则"在实验中被证明是正确的。研究团队专门测量了三套候选方案在真实测试集上的得分差异,发现它们之间存在一定的方差,最差的那套有时候会明显低于最好的那套。选最好的而不是随机选一套,确实带来了持续稳定的性能保障。
四、验证效果:在三个完全不同的真实场景中测试
为了检验RHO是否真的有效,研究团队在三个性质迥异的任务场景上进行了对比实验。选择这三个场景的原因,是为了确认RHO不只是在某一类特定任务上管用,而是具有广泛的适用性。
第一个场景是SWE-Bench Pro,这是一个软件工程任务集,要求AI像真实的程序员那样修复复杂的代码错误——不是改一个函数那么简单,而是需要理解整个代码仓库的结构,跨越多个文件进行协同修改,并且修改结果必须通过严格的自动化测试。这类任务需要很长的操作链,平均要执行数十步才能完成。
第二个场景是Terminal-Bench 2,这是一个命令行操作任务集,AI需要在真实的计算机终端中完成各种系统级操作,任务完成质量由机器自动判定,没有任何模糊空间。
第三个场景是GAIA-2,这是一个"知识工作"任务集,AI需要在一个动态变化的模拟环境中处理各种真实世界的事务——比如管理邮件、处理日历、协调不同应用之间的操作。与前两个场景不同,这个环境会独立地"发生事情",AI不能假定世界是静止的,必须实时感知和响应环境变化。
实验的基准是一个原版智能体,它没有经过任何工具包优化,被称为"Vanilla Codex",使用的是OpenAI的GPT-5.5大语言模型(发布于2026年)。
RHO与三个竞争方法进行了比较。"动态备忘单"(Dynamic Cheatsheet)方法会随着任务的完成不断更新一份记录有用经验的文本清单,供AI后续参考。"推理记忆库"(ReasoningBank)则从历史轨迹中提炼可复用的推理策略,在新任务到来时检索相关策略作为参考。"预计算上下文"(Sleep-time Compute)的做法是在AI空闲时预先处理历史记录,生成简洁的笔记,在任务开始时直接注入AI的上下文。这三种方法的共同特点是:都不需要标准答案,都依赖历史轨迹,但它们的改进范围主要局限于AI的"记忆"层面——增加一些文本记录,帮AI"记住"一些有用的经验,而不改变AI的实际操作工具和执行能力。
对比结果清楚地显示出RHO的优势。在SWE-Bench Pro上,原版智能体的通过率是59%;三个竞争方法分别将其提升到62%、61%和64%,提升幅度都在5个百分点以内。而RHO一次优化就将通过率提升到78%,提升幅度达到19个百分点——差距极为悬殊。在Terminal-Bench 2上,原版通过率71%,RHO提升到76%,竞争方法最高只到73%。在GAIA-2上,原版通过率29%,RHO提升到37%,而竞争方法中甚至有一个方法(ReasoningBank)在这个任务上还出现了轻微下滑。
研究团队认为,RHO之所以能做到这一点,根本原因在于它改动的不只是AI的"记忆单元",而是AI的整个工具包——不仅可以新增知识条目,更可以创建全新的可执行脚本、修改操作规范、重构工作流程。这就好比说,竞争方法只是在给工人增加"经验笔记",而RHO是在直接给工人换上更好的工具和工作手册。
五、剖析改进后的工具包:AI究竟给自己装上了什么新东西?
为了理解RHO的工作机制,研究团队仔细查看了优化后的工具包里到底增加了哪些内容,这些内容与原版工具包的差异揭示了AI从历史失败中学到了什么。
在软件工程任务(SWE-Bench Pro)中,AI发现它在修复代码之后经常因为没有做好"最终清理"而导致测试失败——比如Python的临时缓存文件夹(`__pycache__`)如果没有在提交前删除,会干扰测试系统;比如Go语言的编译器工具链有时候不在操作系统的默认路径里,而是安装在一个不寻常的位置(`/tmp/go/bin/`),如果不主动去找,AI会误以为这个工具不存在。针对这些反复出现的问题,AI创建了一个名为`repair-verify`的新脚本,这个脚本会在任务完成前自动检查上述所有已知的"坑点",就像一个经验丰富的程序员最后再仔细审核一遍自己的工作成果。
在命令行任务(Terminal-Bench 2)中,AI意识到它处理几何图形输出时经常犯错——生成的多边形掩码(描述图像中物体轮廓的坐标序列)有时候不符合格式要求,比如没有闭合、包含矩形退化情况、或者存在像素重叠。为此,AI专门编写了一个验证脚本`validate_mask_csv.py`,在输出最终结果之前对几何数据进行全面的格式合规检查。
在知识工作任务(GAIA-2)中,AI发现自己最常犯的错误是在处理有时间要求的任务时忘了先获取"模拟当前时间",导致对"今天"、"这个月"、"截止日期"等时间概念的理解出现偏差。此外,AI有时候会忘记通过正确的用户接口发送最终回复,导致任务明明做完了却没有"交作业"。针对这些问题,AI修改了工作规范,要求每次任务开始时必须先查询当前时间,并在结束时明确通过用户接口发送确认消息。
这些改进的共同特点是:它们都不是凭空想象出来的,而是AI从自己的失败历史中归纳出的规律性问题,并且都以可执行的方式固化到了工具包中,确保未来遇到类似情况时不会再犯同样的错误。
六、行为模式的改变:不只是做对了,而且做得更"聪明"了
研究团队还专门分析了工具包优化之后,AI在完成任务时的行为模式是否发生了变化,这些变化提供了关于"性能提升来自哪里"的深层解释。
通过追踪AI在每个步骤上使用不同类型操作的频率,研究团队发现了一些有趣的规律。在软件工程任务中,优化后的AI显著增加了"验证"类操作的频率——它更频繁地在修改代码之后主动运行测试、检查格式、确认输出,而不是改完就直接提交。这种额外的自我核查行为,正是性能提升最大的源头之一。
在命令行任务和知识工作任务中,AI则增加了"执行"类操作的频率,这意味着AI更积极地使用新增的工具脚本来替代以前手动摸索的做法,效率更高,出错率更低。
从另一个角度看,优化后的AI还能够处理更长的任务序列。研究团队发现,性能提升最明显的不是那些步骤很少就能完成的简单任务,而是需要执行数十步乃至上百步的长链条任务。这说明新的工具包主要帮助AI在"马拉松式"的复杂任务中保持稳定性和准确性,而不只是让简单任务更快完成。
七、与"有答案的考试方法"相比:不依赖标准答案的RHO能赢吗?
最后一个重要的问题是:RHO完全不依赖标准答案,那它的效果能和依赖标准答案的传统方法相比吗?
研究团队专门引入了一个叫做"Meta-Harness"的对照方法,它代表了传统路线的最佳实践:同样是让AI自动生成改进方案,但每次改动之后,都用一批有标准答案的验证题目来打分,根据得分决定是否接受改动,并且可以反复迭代多轮。
在资源相当(都只运行一轮、使用三个候选方案)的条件下,Meta-Harness在SWE-Bench Pro上只达到了62%的通过率,而RHO达到78%,RHO反而更胜一筹。这个结果乍看之下似乎反直觉——有答案的方法为什么反而比没答案的方法更差?
研究团队分析认为,原因在于:RHO通过组内轨迹的比较和自我验证,获取了比单纯的"对错评分"更丰富的诊断信息。它能够精确识别出"哪一步做错了、为什么做错了、如何系统性地避免",这种信息质量远高于"这道题最终得了几分"。而Meta-Harness的评分是一个粗粒度的汇总指标,无法提供同样细致的指导。
当然,如果允许Meta-Harness运行10轮迭代(总共使用320次AI调用,而RHO只使用103次),它能够达到80%的通过率,以3倍多的计算代价换来了略高的最终成绩。但这需要大量额外资源,而且仍然依赖于需要人工准备的标准验证集。RHO在单次运行中就达到78%,在实际部署场景中的成本效益比更加优越。
说到底,这项研究做的事情可以用一句话概括:它让AI学会了从自己的工作经历中提炼教训,并且把这些教训转化成实实在在的能力工具,而不是停留在"我下次会注意"的层面。就像一个认真的工匠,在每天收工之后不是简单地休息,而是把今天遇到的各种麻烦仔细想一想,然后改良自己的工具、优化自己的工作方法,让明天的工作做得更稳更好。
这个"不需要外部评判者"的自我改进循环,对于真实部署环境中的AI系统来说意义重大。在很多实际应用场景里,没有人有精力为AI专门准备一批针对性的测试题目,但AI的工作日志却每天都在自然积累。RHO打通了从日志到提升的通道,让AI能够在持续运行的过程中悄然进化。
当然,这个方法也有它的边界。它要求任务环境是可重置的——AI能够对同一道历史题目反复尝试,这意味着那些"一次性、不可逆"的操作(比如发送了就收不回来的邮件、执行了就无法撤销的系统操作)暂时不在它的适用范围内。此外,这个方法依赖于AI工具包本身的可编辑性,如果AI的核心能力完全固化在模型权重里、没有可改动的外部工具包,RHO就失去了施展的空间。
不过从长远来看,这项研究指向了一个令人心动的可能性:AI智能体或许真的可以在没有人类持续干预的情况下,靠自己的历史积累实现持续成长。这个问题的答案如何演化,值得长期关注。有兴趣深入了解技术细节的读者,可以通过arXiv编号2606.05922查阅完整论文。
Q&A
Q1:RHO方法为什么不需要标准答案也能优化AI工具包?
A:RHO的核心逻辑是让AI对同一道历史任务独立尝试三次,然后通过比较这三次尝试之间的差异来诊断问题。如果三次结果差异很大,说明AI在这类任务上不稳定;如果某次尝试明显出错,AI可以通过自查发现错误。这两种诊断方式合在一起,给出了足够丰富的改进信号,完全不需要依赖外部提供的"正确答案"。
Q2:RHO优化AI工具包的整体流程是什么样的?
A:整个流程分三步进行。第一步是从历史工作记录里精选出最有价值的案例,要求这些案例既有难度又有多样性。第二步是让AI对选出的案例重新做三遍,从每次的表现中提炼改进建议。第三步是同时生成三套改进方案,让AI自己对比评分,选出效果最好的那套更新到工具包里,整个过程无需人工干预。
Q3:RHO与其他不需要标准答案的AI自我改进方法有什么本质区别?
A:其他方法(如动态备忘单、推理记忆库)主要只改动AI的"记忆"部分,即增加一些文本经验记录,实际执行工具和工作流程保持不变。RHO改动的是整个工具包,包括可以运行的脚本程序、操作规范和技能说明,相当于不仅给工人增加了笔记,还给工人换了更好的工具和更完善的操作手册。这种更全面的改动范围是RHO在多个任务场景上性能提升更显著的主要原因。





京公网安备 11011402013531号