![]()
这项由亚马逊、Emory大学、宾夕法尼亚州立大学、伊利诺伊大学香槟分校和东北大学联合完成的研究,以预印本形式发布于2026年6月1日,论文编号为arXiv:2606.01770,有兴趣深入阅读的朋友可以通过这个编号找到完整论文。
**一个让人意外的发现**
你有没有见过这样的员工:刚入职的前几个月表现亮眼,凭着一腔热情迅速积累经验,可随着时间推移,他反而开始犯越来越奇怪的错误——因为早期养成的一些坏习惯和错误的"肌肉记忆"越来越难以甩掉?
这个让人哭笑不得的现象,正在AI系统里悄悄上演。研究团队用一套叫做A-Evolve的AI自我进化系统做了一个实验,让它持续在市场预测任务上"学习成长",记录在第3、7、15、30、51个学习周期时分别停止的情况。结果令人大跌眼镜:停在第7个周期时表现最好,但如果让它一直学到第51个周期,它的表现反而不如刚开始的时候。更荒唐的是,它的技能库从12个膨胀到了34个,提示词从2KB暴涨到了68KB,学了一大堆,却越来越差。
这就像是一个厨师,从开始做菜到后来把每一道菜的食谱都抄满了三本笔记本,结果因为每次做饭前要翻那三本笔记翻半小时,做出来的菜反而越来越难吃。这项研究的核心任务,就是搞清楚为什么会这样,以及怎么解决。
**一、什么是"AI代理的装备系统",为什么它会出问题**
要理解这项研究,先得搞清楚一个概念:什么是"harness"(可以译为"套件"或"装备")。
一个AI代理就像一个员工,它自身的核心能力(也就是大语言模型,比如ChatGPT背后的那个核心大脑)是相对固定的。而围绕在这个大脑外面的一切辅助工具,包括它被告知"你应该怎么做事"的那段说明文字(提示词)、它能调用的各种技能脚本、它记住的重要信息,以及它能使用的外部工具,这整套东西就叫做"装备套件",也就是论文里的harness。
这套装备在很大程度上决定了这个AI员工的工作表现。于是就有了一类叫做"自动装备系统"(auto-harness system)的研究方向,思路是:让AI在完成任务之后,自动分析自己哪里做得不好,然后自动更新和升级自己的装备。A-Evolve、GEPA、Meta-Harness都是这类系统的代表。
这个思路听起来相当聪明。事实上,在那些有明确终点的标准测试题库(静态基准测试)上,这类系统确实表现出色。但问题在于,真实世界里的AI部署根本不是"做一套卷子交卷走人"——它更像是一个永不停歇的流水线工人,每天都有新任务涌进来,任务类型五花八门,而且任务的性质会随着时间推移而改变。
研究团队把这种真实部署场景称为"开放性任务流",并归纳出它独有的三重压力。
第一重压力叫做"无边界的任务流"。这个AI员工永远不会下班,任务一直来,历史记录越积越多。现有的自动装备系统只有一个"大脑"来负责分析这些堆积如山的历史记录,而任何AI都有自己的上下文窗口上限,就像一个人的工作记忆容量是有限的。随着任务流越来越长,这个单一大脑就会被撑爆,无法再有效地从历史中学习真正有用的经验。
第二重压力叫做"任务的多样性"。一个预测市场平台在同一个小时里,可能既有关于超级碗冠军的问题,又有关于美国政府是否停摆的问题,还有关于股票涨跌的问题。这三类问题需要截然不同的信息来源、分析工具和思考方式。但传统的自动装备系统给AI配备的是同一套装备去应对所有任务,一套万能装备的结果往往是什么都做得马马虎虎。
第三重压力叫做"分布漂移"。随着时间推移,任务的内在规律会发生变化。一个在早期任务上总结出来的经验,到了后期可能已经不再适用。那个news_from_future.md技能就是个活生生的例子:它在138次正确预测中帮过大忙,但在政治类任务上却频频误判——因为体育赛事有结果、有可验证的历史数据可以参考,而政治事件的逻辑完全不同。
**二、把问题说清楚:两种亏损,两个根源**
研究团队没有停留在"这个问题很复杂"的层面,而是建立了一套数学框架,把问题的根源精确拆解开来。这套框架的思路类似于一家餐厅的老板分析为什么营业额不理想。
先定义"理想上限":假设有一个全知全能的完美厨师,他在接到每一道点单之前,就已经基于这个餐厅所有的历史数据,为这道菜量身定制了最优的食谱。这个完美厨师的表现,就是理论上限,论文里叫做V(H_t, x_t),即在拥有全部历史信息的条件下,对任务x_t所能达到的最好成绩。
而实际部署中的AI,跟这个理论上限之间的差距,就是"遗憾值"(Regret)。这个差距可以精确地拆成两部分。
第一部分叫"进化亏损"(Evolution Loss,论文用L_evo表示)。这是系统的能力天花板问题。一个只会修改提示词的系统,永远无法自己写出复杂的多文件代码工具,这不是努力多少的问题,而是这类系统的能力上限就在那里。要缩小这部分亏损,需要从根本上提升进化系统的能力,让它能构建更复杂、更多样的装备。
第二部分叫"适配亏损"(Adaptation Loss,论文用L_adapt表示)。这是任务适配问题。即便进化系统的能力已经足够强,但它在任务到来之前就把装备固定下来了,没有办法根据每一道具体的题目来调整配置。任务多样性存在一天,这部分亏损就无法消除——除非系统能在接到任务的瞬间,动态地为这个任务挑选最合适的装备。
这个框架的价值在于,它把一个模糊的"这个系统不够好"的感受,变成了两个可以分别攻关的具体工程问题。研究团队随即提出了Adaptive Auto-Harness系统,分别对应地解决这两个问题,同时引入了第三个机制来处理框架之外的特殊情况。
**三、多智能体进化:用一个专业团队替代一个全能员工**
针对进化亏损,研究团队的解法是把原来的"单人作战"模式,改造成一个分工明确的专业团队。
原有系统的工作方式类似于让一个人同时担任分析师、调研员、程序员和测试员——而且这四个角色的所有历史记录、所有思考过程,都必须塞进同一个人的脑子里同时处理。任务流越长,这个人就越容易"脑子不够用"。
新系统把进化过程拆分为四个依次执行的阶段,每个阶段由专门的智能体负责,并且拥有完整的上下文预算,不需要跟其他阶段抢"脑容量"。
第一阶段是分析师的工作:翻查历史失败记录,找出规律,生成一份"任务看板",列明哪些方向需要重点攻关,并且还要做一项特别重要的审计——检查历史上积累下来的那些技能和规则,有没有哪些是"对A类任务有帮助但会伤害B类任务"的"有毒文物"。这个反向清查的步骤,专门针对前文提到的"越学越差"问题,防止系统在错误的路上越走越远。
第二阶段是研究员团队的工作:多个研究员智能体并行运作,每人负责一个失败方向,独立搜索解决方案、测试API、验证假设,并把测试结果记入研究日志。并行的好处是多个方向同时探索,不会因为某个方向失败而浪费整个周期,也不会因为一个智能体的先入之见而过早放弃其他可能性。
第三阶段是工程师的工作:读取研究员们整理好的、经过验证的解决方案,把它们实现成实际可运行的代码、工具或提示词修改。
第四阶段是验证员的工作:在新代码上线之前,运行测试用例,把关质量。如果测试不过,工程师可以重新修改,最多重试三次。
除了分工之外,还有两项配套机制同样关键。其一是"时间延迟反馈"机制:在预测市场这类场景里,一个问题的答案可能要几天后才会揭晓。系统严格按照"揭晓时间"来决定把哪些反馈交给进化系统,确保AI学到的是真实结果,而不是把未来的信息提前"偷看"了。其二是"跨周期持久记忆":进化系统有一个专属工作区,里面存着任务看板、研究日志、架构说明文档和测试用例,这些内容在每个进化周期之间持续保留,进化系统不需要在每次学习时从零开始,而是可以站在之前积累的肩膀上继续工作。
**四、装备树与智能路由:为每道题配一套专属装备**
多智能体进化解决了"能力天花板"的问题,但适配亏损还没有解决——系统在看到任务之前就把装备锁定了,面对不同类型的任务却用同一套配置。
研究团队的解法是引入"装备树"(harness tree):不再只维护一套通用装备,而是培育一棵装备树,树上的每根分支代表一类任务的专属配置。
具体实现上,整套系统用一个Git代码仓库来管理装备树。每个分支(branch)对应一种任务类型,拥有自己独立的提示词、技能库和工具注册表。比如在CTF网络安全挑战赛的场景里,会有专门负责密码学的branch/crypto-classical分支,以及专门负责二进制漏洞挖掘的branch/binary-reversing分支。在预测市场场景里,则会有branch/sports、branch/politics、branch/finance、branch/culture等不同分支。
分支不是手动指定的,而是由进化系统在积累了足够的失败证据之后,自动决定是否需要开辟一个新的专属分支来处理某类任务。分析师阶段会明确地给每个修复建议标注"这个改动是通用的,应该放到主干上",还是"这个改动是特定领域的,应该放到某个专属分支上,以免污染其他类别"。
到了解题时,路由智能体登场。它读取每个分支的README文档,找出里面"什么情况下应该路由到这里"的说明,然后与当前任务的描述进行匹配,为每个分支打一个置信度分数,选出最合适的那个分支,让解题系统"切换"到那个配置下去工作。整个路由过程是实时的,每道新题到来时都会独立执行。
这套机制在实验中表现出了清晰的价值。研究团队做了一个专门的实验来量化"适配亏损"到底有多大:在每类任务都预先准备了对应分支的情况下,比较"每道题都用最佳分支"(Oracle上限)和"每道题都用主干分支"(Naive基准)之间的差距。在CTF安全挑战场景里,这个差距高达37.5个百分点;在预测市场场景里,差距也有8.8个百分点。这意味着光是把"用正确的装备配置"这件事做好,就能带来非常可观的性能提升,跟模型本身的能力没有关系。
**五、人类介入的钩子:当历史记录无法回答的问题出现时**
上述两项机制处理了理论框架内的两类亏损。但研究团队还发现了一种框架之外的情况:有些时候,历史记录里根本没有相关信号,无论多么强大的进化系统,都无法从空气中变出它没有见过的知识。
这种情况在真实部署中并不罕见。比如,AI需要访问某个需要API密钥的数据源,但密钥没有提供;或者某个新兴领域的问题需要特定的中文数据平台,但进化系统从没见过那些平台的任何线索。
研究团队的解法是引入两个"人类介入钩子",让人类在特定的结构化时机介入,而不是随时随地乱插手。
第一个钩子挂在分析师完成任务看板之后。这时候人类可以翻阅任务看板,补充进化系统看不到的方向、提供领域知识或告知系统可以访问哪些数据源。这是主动预判式的干预,在进化开始之前就把方向导正。第二个钩子挂在研究员执行阶段遇到障碍的时刻。当研究员在测试某个方案时撞上了需要人工处理的墙(比如需要认证的API),系统会实时提示人类介入,而不是让这个探索方向就此夭折。
在FutureX事件预测数据集上的实验展示了这个机制的精准效果。研究团队只在第1个周期提供了两个API密钥(研究阶段钩子),然后在第3个周期补充了一份关于西方和中文专业数据端点的方向指引(任务看板钩子)。结果是:对于宽泛的预测市场类问题,提升为零,因为这类问题本来就不需要这些资源;对于依赖网页搜索的宽泛问题,提升了5个百分点;直接指向的金融科技类任务提升了20个百分点;周边的西方专项问题也提升了15个百分点。这个梯度分布说明人类干预起效的机制是精确的:它提供了历史记录里缺失的外部信号,而不是笼统地给AI一些泛泛的建议。
**六、在三条真实赛道上的全面测试**
研究团队在三个完全不同类型的"开放性任务流"上进行了系统测试,这三个赛道分别代表不同的挑战维度。
PolyBench是一个包含5075道题的预测市场任务流,时间跨度从2026年2月6日到22日,覆盖政治、体育、金融、加密货币和娱乐等多个市场。这个赛道的非平稳性体现在:早期市场中有97%是可交易的(有足够流动性),到了晚期只剩31%;早期有44%的市场已经有明显的倾向性结果,晚期只有29%;势均力敌的模糊市场从18%上升到了35%。也就是说,越到后来,问题越模糊,越难判断。
CTF-Dojo是一个包含261道题的网络安全挑战流,时间跨度从2011年到2024年,横跨密码学、二进制漏洞、网页安全、逆向工程和取证分析等类型。这个赛道的非平稳性来自竞赛风格的演化:到了任务流后期,有100%的题目来自于在任务流前三分之一期间完全没有出现过的竞赛,每场竞赛都有自己独特的题目规范和风格。
FutureX是一个包含503道题的事件预测流,时间跨度为2026年1月至4月,包含英文和中文题目,涵盖金融、科技、地缘政治和娱乐等领域,其中还有一部分题目需要访问中文专属平台才能找到相关信息。
研究团队同时与多个对照组进行了比较,包括不做任何进化、直接用原始模型求解的版本(分别测试了Sonnet 4.6、DeepSeek V3.2、Claude Haiku 4.5、GLM 4.7、Kimi K2.5五个模型),以及五个现有的自动装备基准系统(A-Evolve、GEPA、Meta-Harness、Continual Harness、SkillOS),还有一个由人类专家手工设计的OctoTools系统。
结果显示,现有系统都有各自的偏科问题。A-Evolve在CTF和FutureX的通过率上表现最好,但在PolyBench上只覆盖了21.1%的市场,大量题目直接跳过。Meta-Harness在PolyBench的三个指标上全面领先(覆盖率55.3%、准确率50.8%、回报率+320%),但在FutureX上的表现还不如不进化的原始Sonnet基准(29.4% vs 31.0%)。没有一个现有系统能同时在三条赛道上都处于领先地位。
Adaptive Auto-Harness的三个变体共同覆盖了全部指标。其中,完整系统(多智能体进化+路由)在PolyBench上达到了97.9%的市场覆盖率、80.9%的准确率和+330%的回报,在CTF-Dojo上达到了50.2%的通过率。多智能体变体在FutureX上以49.5%的通过率领先,因为在这个赛道上构建出正确的搜索工具比针对每道题做路由更重要。适配变体在PolyBench回报率上以+352%略微领先,因为把每道市场题精准匹配到对应的分析策略带来了更高的交易质量。
**七、各个赛道的具体瓶颈是什么**
研究团队没有停留在总体数字上,而是深入分析了每个赛道的关键瓶颈所在,这部分分析为理解整套系统的工作逻辑提供了重要的细节。
PolyBench的核心瓶颈是"置信度校准"能力。研究团队画出了一张图:横轴是市场共识(从市场价格反推出来的多数人预期概率),纵轴是AI系统给出的置信度。一个理想的系统,这两者应该基本对齐,形成一条对角线。单智能体变体的结果是一条几乎水平的线,也就是说无论市场共识如何,它给出的置信度都差不多高;而多智能体变体的结果则更接近那条对角线——当市场共识低(大家都不确定)的时候,它也会相应地降低自己的置信度。这说明多智能体系统进化出了"读懂市场在说什么"的能力,这是原始单智能体系统根本没有的。
FutureX的核心瓶颈是"信息获取"能力,而不是推理能力。研究团队把题目按信息获取难度分成三档:只用离线数据、用筛选过的网络数据(维基百科+DuckDuckGo)、用不受限制的网络搜索。三档对应的通过率分别是34.0%、47.6%和57.1%,单调递增,差距相当显著。这意味着模型本身的推理能力并不是瓶颈,能不能找到相关信息才是。所以FutureX上的进化任务本质上是"帮AI配备更好的信息获取工具",而不是"让AI想得更深"。
CTF-Dojo的核心瓶颈是"负载处理"能力。研究团队把题目按最大挑战文件大小分成五档,从无文件到超过1MB。随着文件规模增大,通过率急剧下降:单智能体从81.8%跌到30.4%,多智能体从90.9%跌到39.1%。多智能体系统在每个档次上大约保持了9个百分点的优势,说明多智能体进化系统确实帮助构建了更强的基础设施,但面对极大文件时的处理能力天花板依然存在,这是一个尚未完全解决的工程难题。
逐类别分析进一步印证了这些发现。在CTF按类别统计时,完整系统在网页安全类(+27个百分点,相对于原始Sonnet)和密码学类(+19个百分点)获益最多,而二进制漏洞利用类即便经过进化和路由之后,通过率也只有14.8%,与文件大小瓶颈一脉相承。在FutureX按语言和领域细分时,英文题目的各个领域普遍受益明显,但中文题目几乎没有提升,中文金融类零提升,中文娱乐类同样零提升,这恰好是那批需要专门中文数据平台才能找到信息的题目,也就是"信息获取工具不到位"问题的直接体现。
**八、装备树路由的真实价值,以及它的局限**
为了严谨地量化"路由机制"到底贡献了多少价值,研究团队做了一个专门设计的对照实验:给每类任务预先准备一个对应分支,在任务流上进化完装备树,然后用三种不同的方式来"使用"这棵树。Oracle代表每道题都用事后评估出的最佳分支;Adapt代表用路由智能体实时决策;Naive代表永远只用主干分支。
在CTF-Dojo场景里,Oracle通过率为55%,Adapt为35%,Naive只有17.5%。这说明分支专化带来的理论价值是真实存在的(55% vs 17.5%),路由机制确实把这部分价值转化成了现实收益(35% vs 17.5%),但距离Oracle还有20个百分点的差距,说明路由决策本身还有提升空间。在PolyBench里,三者的收益率分别为+12%、+5.9%和+3.2%,路由比不路由好,但仍远未到最优。
在FutureX里出现了一个耐人寻味的例外:Naive(主干)的通过率(39.7%)反而略高于Adapt路由(34.5%)。这并不意味着路由在这里是有害的,而是因为FutureX的瓶颈在于信息获取工具,而不在于选哪个分支。FutureX的分支是按题目难度级别划分的,而那些难度级别高的题本身就更难,路由把难题送到对应分支,通过率当然低——但低的原因是题目难,不是分支不对。从批次级别的分析也可以看到,在第3批次里,FutureX的Oracle与Adapt之间有最大的差距(57.9% vs 26.3%),说明那一批的分支选择本身就很有难度,路由决策质量还有提升空间。
装备树里每个分支的路由量也值得关注。在100道PolyBench题里,路由智能体把71道题发给了branch/sports,14道给了branch/finance,12道给了branch/culture,3道给了branch/politics-world。路由智能体从来没有触发过"回退到主干"的选项,说明它总是能找到一个它认为匹配的分支,尽管匹配质量参差不齐。
**九、系统的边界与尚未解决的难题**
研究团队在论文中坦诚地指出了这项工作的局限性,这部分内容同样值得关注。
其一,基准测试的覆盖范围仍然有限。三条赛道(预测市场、安全挑战、事件预测)提供了相当多样的挑战,但真实世界的AI部署场景远不止于此。在空间和时间维度上更大规模的任务流(比如跨越数年的持续部署、覆盖更多语言和文化的任务)还没有被测试到。
其二,论文中提出的进化亏损L_evo和适配亏损L_adapt是分析性的理论量,并不是可以直接测量的实际数字。研究团队通过各种设计好的对照实验来间接诊断这两种亏损,但并没有一个能直接估算Oracle装备价值的形式化方法。换句话说,"理论上限到底有多高"这个问题,目前只能间接回答。
其三,CTF-Dojo里二进制漏洞利用类的表现依然低迷,面对大文件时的基础设施瓶颈还没有被攻克。这不是算法设计的问题,而是底层工程能力的问题,需要在工具层面继续突破。
其四,FutureX的中文任务几乎没有从进化中获益,核心原因是缺乏对中文专属平台的访问能力,这是一个在信息获取层面的现实工程壁垒,需要人工介入补充,自动进化系统本身无法从零凭空解决。
说到底,这项研究用一种清晰的方式回答了"为什么AI助手越学越笨"这个问题,并且提出了一套系统性的应对框架。核心洞察是:把"学得更好"和"用得更准"这两件事区分开来,前者靠多智能体进化系统来积累高质量的专项能力,后者靠装备树路由在答题时动态匹配最合适的配置。这两件事同等重要,缺一不可——只学不选,等于攒了一大堆工具但每次都随机拿一把;只选不学,等于把几把质量一般的工具分类摆放得井井有条。
当AI系统从"考试模式"走向"永不下班的持续工作模式",它面对的挑战跟一个静态测试环境里的挑战根本不是一类问题。这项研究是朝这个方向迈出的一步,而它揭示的那些尚未解决的难题,也许比它解决的问题更值得继续追问。对这个话题感兴趣的读者,可以通过arXiv编号2606.01770找到完整论文,里面包含了大量实验细节和系统提示词的完整文本。
Q&A
Q1:Adaptive Auto-Harness系统是如何防止AI"越学越笨"的?
A:Adaptive Auto-Harness通过两个机制共同对抗这一问题。分析师智能体在每个学习周期开始时会主动审查历史上积累的技能和规则,找出那些对某类任务有帮助但会损害其他类任务的"有毒文物"并标记清理。同时,装备树机制把不同类型任务的专属配置隔离在不同的分支里,防止某个领域的经验干扰其他领域,避免一套膨胀的通用配置越来越难以维护。
Q2:装备树里的分支是怎么决定要不要新建的?
A:分支的创建不是手动指定的,而是由分析师智能体根据失败证据来决定。分析师会给每个修复建议打上标签:如果一项改动对所有类型的任务都有好处,就放到主干分支上;如果一项改动只对某类任务有帮助、对其他类任务没有影响甚至有损害,才会开辟一个新的专属分支。此外,系统设有硬性规则,少于两道题或只在单个周期内出现过的问题,不允许新建分支,以防止过度碎片化。
Q3:FutureX预测任务上的中文题目为什么没有从进化中获益?
A:FutureX的中文题目普遍需要访问中国本土的专属数据平台(如猫眼票房、东方财富证券数据等),而进化系统在历史记录里根本没有接触过这些平台的任何信息,无法自己推断出它们的存在和访问方式。这是一种"历史信号缺失"的情况,自动进化系统无能为力。在引入人类介入钩子、由人工提供这些平台的名称和访问指引之后,金融科技类任务提升了20个百分点,说明瓶颈确实在信息获取而非模型推理。





京公网安备 11011402013531号