香港城市大学与微软研究院联手：让AI智能体自己给自己打补丁

IP属地中国·北京 科技行者 时间：2026-06-17 18:31:31

这项由香港城市大学与微软亚洲研究院联合开展的研究，以arXiv预印本形式于2026年6月4日发布，编号为arXiv:2606.05922v1，研究方向归属于计算机科学的人工智能领域。感兴趣的读者可以通过该编号在arXiv平台上查阅完整论文。
**一条关于"自我成长"的核心问题**
假设你是一名刚入职的程序员，公司希望你在工作中不断进步。通常的做法是，上级会定期出题考你，根据你的答题成绩判断你有没有进步，然后给你指导。但现在公司的要求变了——考试题目太难找了，没有人整理标准答案，于是公司希望你仅凭自己过去工作中留下的任务记录，就能发现自己的弱点并自我提升。
这个看似荒诞的要求，正是当今AI智能体所面临的真实困境，也是这篇论文试图破解的核心难题。
现在的AI智能体越来越像一个多才多艺的助手——它有自己的工具箱（各种执行程序）、一套行为规范（操作指南）和一些专属技能（解决特定问题的方法）。这整套"装备"合在一起，研究团队称之为"harness"，我们可以将它理解为AI的"工作套件"或"能力工具包"。工具包越好用，AI完成任务的能力就越强。
现有的提升方法大多依赖一个关键前提：需要有人提前准备好一批标准测试题目，并且每道题都配有明确的正确答案。AI尝试新的工具包配置之后，用这些题目测一测，看分数是否提高，以此决定要不要接受这次改动。这个过程就像是在参加一场有固定评分标准的考试，没有考题，整个流程就无法运转。
然而在现实中，AI被部署到真实工作环境之后，要找到这样一批"量身定制的标准考题"几乎是件奢侈的事。不同的公司有不同的需求，任务类型千变万化，而且整理标准答案本身就需要大量人力和专业知识。与此同时，AI在日常工作中会产生大量"工作日志"——它解决了哪些任务、用了什么步骤、最终输出了什么结果，这些记录被研究团队称为"轨迹"（trajectory）。这些轨迹中其实蕴含着丰富的改进线索，只是以前没有人好好利用过。
这篇论文提出的方法叫做"回顾性工具包优化"（Retrospective Harness Optimization，简称RHO），它的核心思想是：既然有标准答案的考题难以获得，不如让AI自己翻看过去的工作日志，通过对比和反思，找出自己哪里做得不好，然后自发地改进自己的工具包。整个过程不需要任何外部评判者，AI就是自己的"诊断医生"和"改造工程师"。
一、诊断自己：从"工作日志堆"里挑出最有价值的案例
AI在日常运行中会积累大量轨迹记录，这些记录的质量参差不齐。有些任务非常简单，AI轻松完成，从这些记录里几乎学不到什么；而另一些任务极具挑战性，恰恰暴露了AI工具包的薄弱之处。因此，RHO的第一步是从海量历史记录中精准挑选出最有学习价值的案例，研究团队将这个筛选出来的子集称为"核心集"（coreset）。
挑选的标准有两个：任务的难度和任务之间的多样性。只挑难题不行，因为如果所有案例都集中在同一类型的困难上，改进的方向就会过于偏窄，无法覆盖AI实际工作中的各种情形；只追求多样性也不行，因为如果选了一堆简单任务，根本找不到值得改进的地方。
为了同时满足这两个要求，研究团队引入了一种数学工具叫做"行列式点过程"（Determinantal Point Process，简称DPP）。这个名字听起来高深，但核心思想其实很直觉：当你从一堆候选案例中挑选若干个时，既要保证每个被选中的案例本身足够困难（难度高的权重更大），又要保证被选出的案例彼此之间差异足够大（不要选五个长得一模一样的任务）。这就像你在筹备一场培训课时，不仅要选那些学员普遍答错的难题，还要确保这些难题覆盖不同的知识点，而不是全部集中在同一个角落。
实验中，研究团队将难度和多样性的权重比例设置为7:3，也就是说难度因素的影响力略大于多样性，因为一道足够难但与其他案例有所重叠的题目，也比一道简单但新颖的题目更有价值。最终，系统从历史记录中选出10个核心案例，作为后续所有优化工作的基础。
这一步对最终效果至关重要。研究团队后来专门做了实验，验证了"只按难度选"和"只按多样性选"都会导致优化效果大打折扣，甚至还不如随机挑选。只有两者兼顾的DPP方法，才能稳定带来显著的性能提升。
二、重新"上场比赛"：让AI对同一道题做多遍，然后比较差异
挑出核心案例之后，RHO的第二步是让AI用当前的工具包对每道核心题目重新独立解答三次。这就好比让同一个学生用同样的方法论，对同一道数学题做三遍草稿，然后把三份草稿摆在一起仔细对比。
这三次独立尝试产生的记录被研究团队称为"组内轨迹"（group trajectories）。接下来，AI需要从两个不同角度审视这些轨迹。
第一个角度叫"自我验证"（self-validation）：AI检查每条轨迹的内部质量，就像一个认真的老师批改作业——这道题做对了吗？步骤有没有跳跃？工具用对了吗？有没有过早停下来？有没有做出错误假设？这个过程会精确标注出每条轨迹的具体问题所在。
第二个角度叫"自我一致性"（self-consistency）：AI把三条轨迹横向对比，寻找它们之间的分歧。研究团队的逻辑是：如果AI对同一道题的三次解答差异巨大——一次用这种策略，一次用那种工具，最终答案也各不相同——那说明AI在这类问题上其实很"没把握"，思路摇摆不定，这本身就是一个需要修正的信号。这和人类做选择题时的经验类似：如果你对同一道题反复改答案，说明你对这个知识点根本没掌握好。
这两个维度的分析结果会被整合成一份"改进建议书"，以结构化的格式记录下来，并且每份建议书还附有一个"严重程度评分"——越严重的问题在后续优化时会获得越大的权重，就像医院里的急诊分诊，病情越重的患者越优先处理。所有核心案例的改进建议书汇总在一起，就构成了驱动下一步优化的完整指导材料。
三、动手改造工具包：同时拿出三套方案，然后选最好的那个
拿到改进建议书之后，RHO进入第三步：让AI基于这份建议书，生成三套不同的工具包改进方案。为什么是三套而不是一套？因为工具包的优化本质上是一件创造性的工作，存在相当大的随机性——同样的指导意见，AI在不同"灵感"状态下可能提出截然不同的改进思路，有的改得很好，有的改得一般，有的甚至可能改出问题。既然如此，不如同时生成多套方案，然后择优录用。
这种策略被研究团队称为"最优N候选"（Best-of-N Harness Proposal）。三套方案分别对核心案例重新解答一遍，AI随后充当评判者，将每套新方案的解答结果与最初的"原版"解答结果进行逐题比较，用一个从负10分到正10分的评分标准量化差异：正10分表示新方案把原来错的题变成了对的；0分表示两者表现相当；负10分表示新方案把原来对的题做错了。把所有核心案例上的评分平均下来，得分最高的方案就被选定为新版工具包。
这里有一个关键的保守原则：即便是得分最高的方案，也必须严格高于零分才会被采纳——也就是说，新方案必须真正比原版更好，打平的情况一律视为不合格。这是为了防止AI因为自我评判的随机误差而误判了一个其实更差的方案。如果三套方案都没有达到这个门槛，那就维持原有工具包不变，等待下次优化机会。
这个"谨慎原则"在实验中被证明是正确的。研究团队专门测量了三套候选方案在真实测试集上的得分差异，发现它们之间存在一定的方差，最差的那套有时候会明显低于最好的那套。选最好的而不是随机选一套，确实带来了持续稳定的性能保障。
四、验证效果：在三个完全不同的真实场景中测试
为了检验RHO是否真的有效，研究团队在三个性质迥异的任务场景上进行了对比实验。选择这三个场景的原因，是为了确认RHO不只是在某一类特定任务上管用，而是具有广泛的适用性。
第一个场景是SWE-Bench Pro，这是一个软件工程任务集，要求AI像真实的程序员那样修复复杂的代码错误——不是改一个函数那么简单，而是需要理解整个代码仓库的结构，跨越多个文件进行协同修改，并且修改结果必须通过严格的自动化测试。这类任务需要很长的操作链，平均要执行数十步才能完成。
第二个场景是Terminal-Bench 2，这是一个命令行操作任务集，AI需要在真实的计算机终端中完成各种系统级操作，任务完成质量由机器自动判定，没有任何模糊空间。
第三个场景是GAIA-2，这是一个"知识工作"任务集，AI需要在一个动态变化的模拟环境中处理各种真实世界的事务——比如管理邮件、处理日历、协调不同应用之间的操作。与前两个场景不同，这个环境会独立地"发生事情"，AI不能假定世界是静止的，必须实时感知和响应环境变化。
实验的基准是一个原版智能体，它没有经过任何工具包优化，被称为"Vanilla Codex"，使用的是OpenAI的GPT-5.5大语言模型（发布于2026年）。
RHO与三个竞争方法进行了比较。"动态备忘单"（Dynamic Cheatsheet）方法会随着任务的完成不断更新一份记录有用经验的文本清单，供AI后续参考。"推理记忆库"（ReasoningBank）则从历史轨迹中提炼可复用的推理策略，在新任务到来时检索相关策略作为参考。"预计算上下文"（Sleep-time Compute）的做法是在AI空闲时预先处理历史记录，生成简洁的笔记，在任务开始时直接注入AI的上下文。这三种方法的共同特点是：都不需要标准答案，都依赖历史轨迹，但它们的改进范围主要局限于AI的"记忆"层面——增加一些文本记录，帮AI"记住"一些有用的经验，而不改变AI的实际操作工具和执行能力。
对比结果清楚地显示出RHO的优势。在SWE-Bench Pro上，原版智能体的通过率是59%；三个竞争方法分别将其提升到62%、61%和64%，提升幅度都在5个百分点以内。而RHO一次优化就将通过率提升到78%，提升幅度达到19个百分点——差距极为悬殊。在Terminal-Bench 2上，原版通过率71%，RHO提升到76%，竞争方法最高只到73%。在GAIA-2上，原版通过率29%，RHO提升到37%，而竞争方法中甚至有一个方法（ReasoningBank）在这个任务上还出现了轻微下滑。
研究团队认为，RHO之所以能做到这一点，根本原因在于它改动的不只是AI的"记忆单元"，而是AI的整个工具包——不仅可以新增知识条目，更可以创建全新的可执行脚本、修改操作规范、重构工作流程。这就好比说，竞争方法只是在给工人增加"经验笔记"，而RHO是在直接给工人换上更好的工具和工作手册。
五、剖析改进后的工具包：AI究竟给自己装上了什么新东西？
为了理解RHO的工作机制，研究团队仔细查看了优化后的工具包里到底增加了哪些内容，这些内容与原版工具包的差异揭示了AI从历史失败中学到了什么。
在软件工程任务（SWE-Bench Pro）中，AI发现它在修复代码之后经常因为没有做好"最终清理"而导致测试失败——比如Python的临时缓存文件夹（`__pycache__`）如果没有在提交前删除，会干扰测试系统；比如Go语言的编译器工具链有时候不在操作系统的默认路径里，而是安装在一个不寻常的位置（`/tmp/go/bin/`），如果不主动去找，AI会误以为这个工具不存在。针对这些反复出现的问题，AI创建了一个名为`repair-verify`的新脚本，这个脚本会在任务完成前自动检查上述所有已知的"坑点"，就像一个经验丰富的程序员最后再仔细审核一遍自己的工作成果。
在命令行任务（Terminal-Bench 2）中，AI意识到它处理几何图形输出时经常犯错——生成的多边形掩码（描述图像中物体轮廓的坐标序列）有时候不符合格式要求，比如没有闭合、包含矩形退化情况、或者存在像素重叠。为此，AI专门编写了一个验证脚本`validate_mask_csv.py`，在输出最终结果之前对几何数据进行全面的格式合规检查。
在知识工作任务（GAIA-2）中，AI发现自己最常犯的错误是在处理有时间要求的任务时忘了先获取"模拟当前时间"，导致对"今天"、"这个月"、"截止日期"等时间概念的理解出现偏差。此外，AI有时候会忘记通过正确的用户接口发送最终回复，导致任务明明做完了却没有"交作业"。针对这些问题，AI修改了工作规范，要求每次任务开始时必须先查询当前时间，并在结束时明确通过用户接口发送确认消息。
这些改进的共同特点是：它们都不是凭空想象出来的，而是AI从自己的失败历史中归纳出的规律性问题，并且都以可执行的方式固化到了工具包中，确保未来遇到类似情况时不会再犯同样的错误。
六、行为模式的改变：不只是做对了，而且做得更"聪明"了
研究团队还专门分析了工具包优化之后，AI在完成任务时的行为模式是否发生了变化，这些变化提供了关于"性能提升来自哪里"的深层解释。
通过追踪AI在每个步骤上使用不同类型操作的频率，研究团队发现了一些有趣的规律。在软件工程任务中，优化后的AI显著增加了"验证"类操作的频率——它更频繁地在修改代码之后主动运行测试、检查格式、确认输出，而不是改完就直接提交。这种额外的自我核查行为，正是性能提升最大的源头之一。
在命令行任务和知识工作任务中，AI则增加了"执行"类操作的频率，这意味着AI更积极地使用新增的工具脚本来替代以前手动摸索的做法，效率更高，出错率更低。
从另一个角度看，优化后的AI还能够处理更长的任务序列。研究团队发现，性能提升最明显的不是那些步骤很少就能完成的简单任务，而是需要执行数十步乃至上百步的长链条任务。这说明新的工具包主要帮助AI在"马拉松式"的复杂任务中保持稳定性和准确性，而不只是让简单任务更快完成。
七、与"有答案的考试方法"相比：不依赖标准答案的RHO能赢吗？
最后一个重要的问题是：RHO完全不依赖标准答案，那它的效果能和依赖标准答案的传统方法相比吗？
研究团队专门引入了一个叫做"Meta-Harness"的对照方法，它代表了传统路线的最佳实践：同样是让AI自动生成改进方案，但每次改动之后，都用一批有标准答案的验证题目来打分，根据得分决定是否接受改动，并且可以反复迭代多轮。
在资源相当（都只运行一轮、使用三个候选方案）的条件下，Meta-Harness在SWE-Bench Pro上只达到了62%的通过率，而RHO达到78%，RHO反而更胜一筹。这个结果乍看之下似乎反直觉——有答案的方法为什么反而比没答案的方法更差？
研究团队分析认为，原因在于：RHO通过组内轨迹的比较和自我验证，获取了比单纯的"对错评分"更丰富的诊断信息。它能够精确识别出"哪一步做错了、为什么做错了、如何系统性地避免"，这种信息质量远高于"这道题最终得了几分"。而Meta-Harness的评分是一个粗粒度的汇总指标，无法提供同样细致的指导。
当然，如果允许Meta-Harness运行10轮迭代（总共使用320次AI调用，而RHO只使用103次），它能够达到80%的通过率，以3倍多的计算代价换来了略高的最终成绩。但这需要大量额外资源，而且仍然依赖于需要人工准备的标准验证集。RHO在单次运行中就达到78%，在实际部署场景中的成本效益比更加优越。
说到底，这项研究做的事情可以用一句话概括：它让AI学会了从自己的工作经历中提炼教训，并且把这些教训转化成实实在在的能力工具，而不是停留在"我下次会注意"的层面。就像一个认真的工匠，在每天收工之后不是简单地休息，而是把今天遇到的各种麻烦仔细想一想，然后改良自己的工具、优化自己的工作方法，让明天的工作做得更稳更好。
这个"不需要外部评判者"的自我改进循环，对于真实部署环境中的AI系统来说意义重大。在很多实际应用场景里，没有人有精力为AI专门准备一批针对性的测试题目，但AI的工作日志却每天都在自然积累。RHO打通了从日志到提升的通道，让AI能够在持续运行的过程中悄然进化。
当然，这个方法也有它的边界。它要求任务环境是可重置的——AI能够对同一道历史题目反复尝试，这意味着那些"一次性、不可逆"的操作（比如发送了就收不回来的邮件、执行了就无法撤销的系统操作）暂时不在它的适用范围内。此外，这个方法依赖于AI工具包本身的可编辑性，如果AI的核心能力完全固化在模型权重里、没有可改动的外部工具包，RHO就失去了施展的空间。
不过从长远来看，这项研究指向了一个令人心动的可能性：AI智能体或许真的可以在没有人类持续干预的情况下，靠自己的历史积累实现持续成长。这个问题的答案如何演化，值得长期关注。有兴趣深入了解技术细节的读者，可以通过arXiv编号2606.05922查阅完整论文。
Q&A
Q1：RHO方法为什么不需要标准答案也能优化AI工具包？
A：RHO的核心逻辑是让AI对同一道历史任务独立尝试三次，然后通过比较这三次尝试之间的差异来诊断问题。如果三次结果差异很大，说明AI在这类任务上不稳定；如果某次尝试明显出错，AI可以通过自查发现错误。这两种诊断方式合在一起，给出了足够丰富的改进信号，完全不需要依赖外部提供的"正确答案"。
Q2：RHO优化AI工具包的整体流程是什么样的？
A：整个流程分三步进行。第一步是从历史工作记录里精选出最有价值的案例，要求这些案例既有难度又有多样性。第二步是让AI对选出的案例重新做三遍，从每次的表现中提炼改进建议。第三步是同时生成三套改进方案，让AI自己对比评分，选出效果最好的那套更新到工具包里，整个过程无需人工干预。
Q3：RHO与其他不需要标准答案的AI自我改进方法有什么本质区别？
A：其他方法（如动态备忘单、推理记忆库）主要只改动AI的"记忆"部分，即增加一些文本经验记录，实际执行工具和工作流程保持不变。RHO改动的是整个工具包，包括可以运行的脚本程序、操作规范和技能说明，相当于不仅给工人增加了笔记，还给工人换了更好的工具和更完善的操作手册。这种更全面的改动范围是RHO在多个任务场景上性能提升更显著的主要原因。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

vivo X500首发索尼全新传感器：1/1.28英寸超大底+LOFIC技术

南大移动团队提出TNT，破解「假装不思考」骗奖励

电厂 | 拼多多去雄安做什么？

2026世界人工智能大会30天后上海开幕，300款AI产品全球首发

SpaceX收购Cursor，DeepSeek完成约510亿元首轮融资，OpenAI财报显示2025年亏损385亿美元

从红薯粉到读书声拼多多“免费送货入村”让乡村生活热闹起来

全站最新

vivo X500首发索尼全新传感器：1/1.28英寸超大底+LOFIC技术

南大移动团队提出TNT，破解「假装不思考」骗奖励

电厂 | 拼多多去雄安做什么？

2026世界人工智能大会30天后上海开幕，300款AI产品全球首发

热门推荐

「组织更新」正在成为大厂AI业务的核心挑战

vivo X500首发索尼全新传感器：1/1.28英寸超大底+LOFIC技术

南大移动团队提出TNT，破解「假装不思考」骗奖励

电厂 | 拼多多去雄安做什么？

2026世界人工智能大会30天后上海开幕，300款AI产品全球首发

SpaceX收购Cursor，DeepSeek完成约510亿元首轮融资，OpenAI财报显示2025年亏损385亿美元

从红薯粉到读书声拼多多“免费送货入村”让乡村生活热闹起来

华为、美的、优必选同台背后：广东竞逐“新型机电一体化”赛道

长三角聚劲科创大赛·神经科技专赛在沪举行

复旦“祖泉研究院”，如何让“好论文”变成“好产品”

大空头想空SpaceX被劝退：期权太贵，3万亿估值太离谱

XREAL发布空间计算眼镜XREAL AURA，定于秋季上市

受益于算力需求，浪潮计算机预计AI服务器规模今年将大幅提升

英国监管机构出台谷歌(GOOGL.US)搜索新规意在促进市场竞争

理想、小鹏辅助驾驶升级直接对标特斯拉FSD V14