当前位置: 首页 » 资讯 » 科技头条 » 正文

卡内基梅隆大学等机构研究:让AI团队在解题过程中"自我进化"

IP属地 中国·北京 科技行者 时间:2026-05-20 00:30:07


这项由卡内基梅隆大学、中国科学技术大学、新加坡国立大学和上海人工智能实验室联合开展的研究,以预印本形式于2026年5月发布在arXiv平台,编号为arXiv:2605.09539。感兴趣的读者可通过该编号查阅完整论文。

一、当AI也需要"团队协作"

你有没有遇到过这样的情况:一个人搞不定的事情,找来几个专业人士组成团队,效果就好多了?程序出了bug,一个人又写代码又查文档又测试,很容易顾此失彼;但如果一个人负责写代码,另一个人专门查资料,还有一个人专门测试,整体效率就大幅提升。大型语言模型(就是ChatGPT这类AI)在解决复杂问题时,面临的正是同样的困境。

于是,研究人员想出了"多智能体系统"——不是一个AI独自工作,而是让多个AI分工合作,每个AI承担不同角色,比如规划者、搜索者、核查者等等。这就像一家公司不同部门的分工协作。

然而,这种团队协作也面临一个现实问题:团队的组织架构和每个成员的能力,到底应该由谁来决定,又应该在什么时候调整?过去的做法要么是提前设计好团队架构然后固定下来,要么只在解题过程中调整某一方面。这篇论文提出的TacoMAS系统,则走出了一条新路:让AI团队的架构和每位成员的能力,在解决每一道题的过程中同时动态演化——而且两者的演化节奏是不一样的,一快一慢,相互配合。

二、固定架构的局限:一套西装穿不了所有场合

先来聊聊现有方法的问题在哪里。

过去的多智能体研究大致分为两类。第一类是"训练时优化":研究人员在大量任务上反复试验,找出一套最优的团队架构,然后把这套架构固定下来,之后所有的新任务都用同一套架构来解决。这就像一家公司把部门设置和人员配置写进规章制度,之后不管接什么业务都用同一套组织架构。当新业务和当初设计架构时的业务类型差异很大时,固定的架构就会显得格格不入,处处掣肘。

第二类方法稍微灵活一些,会针对每道题单独生成一套团队架构,但一旦生成就不再改变,整个解题过程中架构保持不动。这就像每次接新项目前先开个会商量好分工,然后整个项目执行过程中再也不调整,哪怕中途发现分工有问题也不管。

更接近理想状态的是"解题过程中实时调整"的方法,但现有的此类方法只盯着一个维度:要么只调整团队架构(谁和谁通信、谁负责什么),要么只提升每个成员的个人能力,两者无法同步演化。

研究团队通过大量实验和理论推导发现,只调一个维度往往是不够的。架构和能力之间有深度耦合:一个成员能力提升了,但如果和他协作的成员没有相应变化,信息流通的通道没有跟上,这种局部提升可能无法转化为团队整体表现的提升,甚至会带来混乱。这就像一个部门的某位员工突然变得极为高效,但其他部门的接口没有调整,大量工作就会堵在这个人手里而无法顺畅流动。

三、快慢两个节拍:为什么不能同时调整所有东西

研究团队在设计TacoMAS时发现了一个反直觉但又合乎逻辑的关键原则:架构和能力不能按同样的节奏更新,必须一快一慢。

可以用一支乐队的排练来理解这件事。乐队在演奏过程中,每位乐手可以随时微调自己的演奏技巧和对曲子的理解(这对应"能力快速更新")。但整个乐队的编制——谁负责主旋律、谁负责和弦、要不要加一个吉他手——不可能每隔几分钟就重新决定一次,这需要在一个相对稳定的时间窗口内观察整体效果之后,才做出有依据的调整(这对应"架构慢速更新")。

如果乐手还在调整自己的演奏方式,同时乐队编制也在频繁变动,整个乐队就会陷入混乱——每个人都不知道该配合谁、用什么风格演奏。TacoMAS中的研究者把这个道理用数学语言表达出来,并通过实验验证:当架构更新频率和能力更新频率相同时,系统性能明显下降,产生不稳定性;而当架构更新比能力更新慢得多时,两者才能形成良性配合,系统收敛到更好的状态。

这个"快慢分离"的设计思想,在生物学和经济学领域其实早有类似的理论依据。研究团队借鉴了进化博弈论中的相关概念:快节拍的能力更新对应生物进化中的"选择压力"——表现好的行为模式被强化,表现差的被淘汰;慢节拍的架构更新则像物种的"变异"——在现有策略达到局部最优之后,通过结构性变化跳出瓶颈。两种机制的结合,让系统有机会找到更好的全局解。

四、TacoMAS的设计:一支能自我重组的AI球队

在理解了"快慢双循环"的核心原则之后,来看看TacoMAS具体是怎么运作的。

整个系统把多智能体团队表示为一张"图"——每个AI成员是图上的一个节点,节点之间的连线(边)代表它们之间的通信关系,某个成员的输出可以传递给哪些成员由这些连线决定。与此同时,每个节点上还存储着该成员的"能力状态":它的角色职责、记忆中积累的经验、可以使用的工具等等。

系统的运行由一个"元LLM"(可以理解为团队的总教练)来主导。总教练在最开始根据任务特点初始化一支5人团队,包括规划者、搜索者、计算者、核查者和反思者,并设定初始的通信连线。

接下来,每一轮解题都会触发快速的能力更新。每个成员执行自己的任务之后,会产生一份执行记录——用了哪些工具、得出了什么结论、向其他成员传递了什么信息。一个"元裁判"会评估每位成员这一轮的贡献程度,给出一个0到1之间的分数。然后,总教练根据这份贡献评分和每位成员的执行记录,为每位成员生成具体的改进建议:你这轮犯了什么错误、下一轮应该怎么调整思路、应该关注哪些遗漏的信息点。这些建议会被写入成员的"记忆",成为下一轮执行时的行为指导。分数高的成员,其行为模式被进一步强化;分数低的成员,被推动做出调整。这个过程在每一轮都发生,反应非常及时,就像足球比赛中教练在场边不断向球员喊话,让每个人随时微调自己的打法。

而架构更新的发生频率要低得多,每隔K轮才触发一次(论文默认设置K=2)。当触发慢更新时,总教练会回顾过去几轮的完整执行轨迹,对团队架构做出结构性调整,包括三类操作:第一,修改通信连线,比如让搜索者直接把结果传给核查者,而不是绕道经过规划者;第二,引入新成员,当系统发现某类任务没有合适的角色覆盖时,可以"诞生"一个新的专职成员;第三,移除表现持续低迷的成员,释放资源。为了防止一次架构调整幅度过大引发混乱,系统设置了硬性限制:每次慢更新最多增删2个成员,最多修改4条通信连线。这个约束确保架构变化是渐进的,不会把之前通过快速能力更新积累的进步一次性抹掉。

五、数学支撑:为什么这样设计是有理论保证的

研究团队不满足于仅仅说"实验效果好",还给出了一套严谨的数学证明,说明为什么TacoMAS的快慢双循环设计会收敛到稳定的高性能状态,而不是越跑越乱。

核心的数学工具来自进化博弈论中的"复制动力学"。可以把每个AI成员的能力状态理解为一种"策略",贡献分数理解为这种策略的"适应度"。快速能力更新的数学形式就是标准的复制动力学方程:适应度高于团队平均水平的策略被放大,适应度低于平均水平的策略被抑制。在固定的团队架构下,这个过程会单调地提升团队的平均表现,就像自然选择会让种群越来越适应当前环境一样。

但关键在于,仅靠复制动力学,团队只能在当前架构下找到局部最优点——当每个成员的策略都已经适应了当前通信结构时,整体表现会停滞不前,即使这个停滞点并不是全局最优。慢速架构更新充当了跳出局部最优的"突变"机制:通过改变通信图,整个系统的"适应度地形"发生改变,原来的局部最优点不再是新地形下的最优点,快速能力更新就会再次启动,将系统推向新的更高点。

研究团队将快慢双循环合并为一个"复制-突变系统",并证明了一个关键定理:在适当的假设条件下(主要是慢更新的方向是有利的,以及贡献评分的噪声有界),整个系统的"距离最优配置的远近"会以几何级数收缩,最终稳定在一个由噪声决定的邻域内。这用大白话说就是:系统不会越跑越差,而是有保证地越来越好,直到受随机扰动限制而停在一个相当不错的地方。

六、实验结果:和20个竞争对手的较量

研究团队在四个覆盖不同任务类型的测试集上评估了TacoMAS,分别是:金融分析任务(需要从SEC监管文件中检索并分析大量数字)、网页搜索任务(需要在大量网页中进行多跳推理找到答案)、《我的世界》风格的合成规划任务(判断给定材料能否合成目标物品)、以及职场任务执行(模拟真实办公室场景中的多工具协作任务)。这四类任务分别考验检索能力、推理能力、规划能力和工具协作能力,覆盖面相当广。

TacoMAS在所有四个测试集上均取得了最高分,超过了20个对比方法。最具可比性的是其他同样在解题过程中进行动态调整的方法:只调整通信架构的SelfOrg和ChatDev-Puppeteer,以及只更新成员能力的CORAL。TacoMAS相比这三个方法的提升幅度分别相当显著。而相比所有20个方法中表现最强的那个,TacoMAS平均提升了13.3个百分点。具体来看,在金融分析任务上的准确率从0.539提升到0.767,提升幅度高达22.8个百分点;在职场任务上从0.651提升到0.824,提升了17.3个百分点;在《我的世界》规划任务上从0.812提升到0.887,提升了7.5个百分点;在网页搜索任务上从0.688提升到0.745,提升了5.7个百分点。

七、细节分析:架构真的在演化吗

除了整体指标之外,研究团队还通过几组分析来揭示TacoMAS内部发生了什么。

通过追踪具体案例中团队架构的变化轨迹,可以清楚看到系统在做真实有意义的调整,而不只是随机改变。以金融分析任务为例,初始的5人团队经过三轮慢更新之后,删除了用处不大的"链接研究"角色,引入了专门的"数据研究"角色,并重新组织了搜索者和核查者之间的信息传递路径,最终形成了一条搜索—研究—核查的专业流水线,专门针对这道题所需的从SEC文件中提取数字这一核心需求。

快慢节奏的比例对性能影响很大。当架构和能力按同样的节奏更新时(K=1),性能明显下降,且轨迹不稳定;当架构完全冻结时,能力更新的收益也会很快见顶。只有在K=2的默认设置下,两者才达到最佳配合。

系统还表现出自适应的计算分配特性。在金融任务中,研究团队根据"专家预计所需时间"将题目分为简单题和困难题。系统对简单题平均只触发1次慢更新就停下来了,而对困难题平均需要8次慢更新。关键在于,系统本身从未看过这个"专家时间"标签,这说明它完全靠自己的执行轨迹反馈来判断当前题目的难度,并据此分配演化资源,而不是无差别地对所有题目都跑满10轮。这种自适应性让TacoMAS的额外计算成本花得物有所值。

与之形成对比的是,SelfOrg虽然也需要大量LLM调用,但随着调用次数增加,性能很快遇到平台期,再多的计算也没有明显收益。TacoMAS则不同,随着演化轮数增加,性能持续提升,表现出真正的"推理时算力扩展"特性——投入更多计算,就能得到更好的结果。

此外,团队规模的设置也有讲究。初始团队过小时,角色多样性不够,遇到需要多类专业知识的任务时捉襟见肘;初始团队过大时,协调成本上升,每次有限的架构编辑能产生的效果也被稀释,整体性能反而下降。5个人的初始规模在多数任务上是一个较好的平衡点。

不同底层模型的效果验证显示,无论把Gemini 2.5 Flash-Lite换成Claude Haiku-3.5还是GPT-4o mini作为成员LLM,TacoMAS演化后的性能相对演化前的提升都保持一致。换元LLM(总教练用的模型)的测试同样如此。这说明性能提升主要来自协同演化的机制本身,而不是依赖特定模型的特殊能力。

八、这套框架的局限与未来方向

研究团队对TacoMAS的局限性也持坦诚态度。当前的设计依赖单个元LLM总教练观察全部执行轨迹并做出所有决策。当任务非常复杂、天然分解为多个相互独立的子任务时,单个总教练需要消化的信息量可能过大,容易遗漏局部的协调问题。一个自然的扩展方向是引入层级化的总教练结构,每个子任务集群由局部教练负责,再由更高层的总教练协调各局部教练的提案。

另一个局限是,每道题解完之后,系统会清空工作记忆,下一道题从零开始演化。这避免了题目间互相污染,但也意味着系统无法积累可复用的结构性经验。比如,系统可能在不同题目上反复发现"核查者需要直接连接到搜索者"这一有用的通信模式,却每次都重新发现,而不是把这个经验记录下来供后续题目复用。如何在跨题记忆复用和防止信息污染之间取得平衡,是一个值得深入探索的方向。

说到底,这篇论文做的事情,是把人类团队中早已存在的管理智慧——成员技能要随时优化,但组织架构的调整要慎重且有节奏——迁移到了AI多智能体系统的设计当中,并给了它严格的数学保证和充分的实验验证。这对思考如何让AI系统在面对未知的新问题时保持稳定而又灵活的能力,提供了一个有实际参考价值的框架。

当然,TacoMAS并不是终点。它揭示了一个更广泛的问题:在AI解决问题的过程中,"花时间想怎么组织团队"本身就是解题的一部分,而不是可以一次性固定下来的前期工作。这个认识本身,或许比任何具体的性能数字都更值得细细品味。

Q&A

Q1:TacoMAS中的"快慢双循环"是指什么?

A:TacoMAS中的快循环是指每一轮解题后立即更新每个AI成员的能力,比如给它补充经验、调整行为策略;慢循环是指每隔若干轮才触发一次,对整个团队的架构进行调整,比如增减成员或改变谁和谁通信。两者节奏不同,快的保证每个成员随时在学习,慢的保证整体架构在稳定的基础上有序演化,防止频繁的结构变化破坏已有的协作成果。

Q2:多智能体系统中只更新架构或只更新能力为什么不够?

A:只更新架构而不更新成员能力,成员的实际执行水平跟不上新架构的需求,协作效果有限;只更新成员能力而架构固定,成员能力的提升可能因为通信路径不合理而无法传递到整个团队,最终遇到天花板。TacoMAS的实验和理论分析都表明,两者必须协同演化才能释放多智能体系统的完整潜力,且同步演化时两者的节奏必须错开,一快一慢。

Q3:TacoMAS相比其他多智能体方法在实验中表现如何?

A:TacoMAS在金融分析、网页搜索、规划和职场任务四个测试集上均排名第一,相比所有20个对比方法中最强的那个平均提升了13.3个百分点。在金融任务上提升幅度最大,达到22.8个百分点,在职场任务上提升了17.3个百分点。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。