卡内基梅隆大学等机构研究：让AI团队在解题过程中"自我进化"

IP属地中国·北京 科技行者 时间：2026-05-20 00:30:07

这项由卡内基梅隆大学、中国科学技术大学、新加坡国立大学和上海人工智能实验室联合开展的研究，以预印本形式于2026年5月发布在arXiv平台，编号为arXiv:2605.09539。感兴趣的读者可通过该编号查阅完整论文。
一、当AI也需要"团队协作"
你有没有遇到过这样的情况：一个人搞不定的事情，找来几个专业人士组成团队，效果就好多了？程序出了bug，一个人又写代码又查文档又测试，很容易顾此失彼；但如果一个人负责写代码，另一个人专门查资料，还有一个人专门测试，整体效率就大幅提升。大型语言模型（就是ChatGPT这类AI）在解决复杂问题时，面临的正是同样的困境。
于是，研究人员想出了"多智能体系统"——不是一个AI独自工作，而是让多个AI分工合作，每个AI承担不同角色，比如规划者、搜索者、核查者等等。这就像一家公司不同部门的分工协作。
然而，这种团队协作也面临一个现实问题：团队的组织架构和每个成员的能力，到底应该由谁来决定，又应该在什么时候调整？过去的做法要么是提前设计好团队架构然后固定下来，要么只在解题过程中调整某一方面。这篇论文提出的TacoMAS系统，则走出了一条新路：让AI团队的架构和每位成员的能力，在解决每一道题的过程中同时动态演化——而且两者的演化节奏是不一样的，一快一慢，相互配合。
二、固定架构的局限：一套西装穿不了所有场合
先来聊聊现有方法的问题在哪里。
过去的多智能体研究大致分为两类。第一类是"训练时优化"：研究人员在大量任务上反复试验，找出一套最优的团队架构，然后把这套架构固定下来，之后所有的新任务都用同一套架构来解决。这就像一家公司把部门设置和人员配置写进规章制度，之后不管接什么业务都用同一套组织架构。当新业务和当初设计架构时的业务类型差异很大时，固定的架构就会显得格格不入，处处掣肘。
第二类方法稍微灵活一些，会针对每道题单独生成一套团队架构，但一旦生成就不再改变，整个解题过程中架构保持不动。这就像每次接新项目前先开个会商量好分工，然后整个项目执行过程中再也不调整，哪怕中途发现分工有问题也不管。
更接近理想状态的是"解题过程中实时调整"的方法，但现有的此类方法只盯着一个维度：要么只调整团队架构（谁和谁通信、谁负责什么），要么只提升每个成员的个人能力，两者无法同步演化。
研究团队通过大量实验和理论推导发现，只调一个维度往往是不够的。架构和能力之间有深度耦合：一个成员能力提升了，但如果和他协作的成员没有相应变化，信息流通的通道没有跟上，这种局部提升可能无法转化为团队整体表现的提升，甚至会带来混乱。这就像一个部门的某位员工突然变得极为高效，但其他部门的接口没有调整，大量工作就会堵在这个人手里而无法顺畅流动。
三、快慢两个节拍：为什么不能同时调整所有东西
研究团队在设计TacoMAS时发现了一个反直觉但又合乎逻辑的关键原则：架构和能力不能按同样的节奏更新，必须一快一慢。
可以用一支乐队的排练来理解这件事。乐队在演奏过程中，每位乐手可以随时微调自己的演奏技巧和对曲子的理解（这对应"能力快速更新"）。但整个乐队的编制——谁负责主旋律、谁负责和弦、要不要加一个吉他手——不可能每隔几分钟就重新决定一次，这需要在一个相对稳定的时间窗口内观察整体效果之后，才做出有依据的调整（这对应"架构慢速更新"）。
如果乐手还在调整自己的演奏方式，同时乐队编制也在频繁变动，整个乐队就会陷入混乱——每个人都不知道该配合谁、用什么风格演奏。TacoMAS中的研究者把这个道理用数学语言表达出来，并通过实验验证：当架构更新频率和能力更新频率相同时，系统性能明显下降，产生不稳定性；而当架构更新比能力更新慢得多时，两者才能形成良性配合，系统收敛到更好的状态。
这个"快慢分离"的设计思想，在生物学和经济学领域其实早有类似的理论依据。研究团队借鉴了进化博弈论中的相关概念：快节拍的能力更新对应生物进化中的"选择压力"——表现好的行为模式被强化，表现差的被淘汰；慢节拍的架构更新则像物种的"变异"——在现有策略达到局部最优之后，通过结构性变化跳出瓶颈。两种机制的结合，让系统有机会找到更好的全局解。
四、TacoMAS的设计：一支能自我重组的AI球队
在理解了"快慢双循环"的核心原则之后，来看看TacoMAS具体是怎么运作的。
整个系统把多智能体团队表示为一张"图"——每个AI成员是图上的一个节点，节点之间的连线（边）代表它们之间的通信关系，某个成员的输出可以传递给哪些成员由这些连线决定。与此同时，每个节点上还存储着该成员的"能力状态"：它的角色职责、记忆中积累的经验、可以使用的工具等等。
系统的运行由一个"元LLM"（可以理解为团队的总教练）来主导。总教练在最开始根据任务特点初始化一支5人团队，包括规划者、搜索者、计算者、核查者和反思者，并设定初始的通信连线。
接下来，每一轮解题都会触发快速的能力更新。每个成员执行自己的任务之后，会产生一份执行记录——用了哪些工具、得出了什么结论、向其他成员传递了什么信息。一个"元裁判"会评估每位成员这一轮的贡献程度，给出一个0到1之间的分数。然后，总教练根据这份贡献评分和每位成员的执行记录，为每位成员生成具体的改进建议：你这轮犯了什么错误、下一轮应该怎么调整思路、应该关注哪些遗漏的信息点。这些建议会被写入成员的"记忆"，成为下一轮执行时的行为指导。分数高的成员，其行为模式被进一步强化；分数低的成员，被推动做出调整。这个过程在每一轮都发生，反应非常及时，就像足球比赛中教练在场边不断向球员喊话，让每个人随时微调自己的打法。
而架构更新的发生频率要低得多，每隔K轮才触发一次（论文默认设置K=2）。当触发慢更新时，总教练会回顾过去几轮的完整执行轨迹，对团队架构做出结构性调整，包括三类操作：第一，修改通信连线，比如让搜索者直接把结果传给核查者，而不是绕道经过规划者；第二，引入新成员，当系统发现某类任务没有合适的角色覆盖时，可以"诞生"一个新的专职成员；第三，移除表现持续低迷的成员，释放资源。为了防止一次架构调整幅度过大引发混乱，系统设置了硬性限制：每次慢更新最多增删2个成员，最多修改4条通信连线。这个约束确保架构变化是渐进的，不会把之前通过快速能力更新积累的进步一次性抹掉。
五、数学支撑：为什么这样设计是有理论保证的
研究团队不满足于仅仅说"实验效果好"，还给出了一套严谨的数学证明，说明为什么TacoMAS的快慢双循环设计会收敛到稳定的高性能状态，而不是越跑越乱。
核心的数学工具来自进化博弈论中的"复制动力学"。可以把每个AI成员的能力状态理解为一种"策略"，贡献分数理解为这种策略的"适应度"。快速能力更新的数学形式就是标准的复制动力学方程：适应度高于团队平均水平的策略被放大，适应度低于平均水平的策略被抑制。在固定的团队架构下，这个过程会单调地提升团队的平均表现，就像自然选择会让种群越来越适应当前环境一样。
但关键在于，仅靠复制动力学，团队只能在当前架构下找到局部最优点——当每个成员的策略都已经适应了当前通信结构时，整体表现会停滞不前，即使这个停滞点并不是全局最优。慢速架构更新充当了跳出局部最优的"突变"机制：通过改变通信图，整个系统的"适应度地形"发生改变，原来的局部最优点不再是新地形下的最优点，快速能力更新就会再次启动，将系统推向新的更高点。
研究团队将快慢双循环合并为一个"复制-突变系统"，并证明了一个关键定理：在适当的假设条件下（主要是慢更新的方向是有利的，以及贡献评分的噪声有界），整个系统的"距离最优配置的远近"会以几何级数收缩，最终稳定在一个由噪声决定的邻域内。这用大白话说就是：系统不会越跑越差，而是有保证地越来越好，直到受随机扰动限制而停在一个相当不错的地方。
六、实验结果：和20个竞争对手的较量
研究团队在四个覆盖不同任务类型的测试集上评估了TacoMAS，分别是：金融分析任务（需要从SEC监管文件中检索并分析大量数字）、网页搜索任务（需要在大量网页中进行多跳推理找到答案）、《我的世界》风格的合成规划任务（判断给定材料能否合成目标物品）、以及职场任务执行（模拟真实办公室场景中的多工具协作任务）。这四类任务分别考验检索能力、推理能力、规划能力和工具协作能力，覆盖面相当广。
TacoMAS在所有四个测试集上均取得了最高分，超过了20个对比方法。最具可比性的是其他同样在解题过程中进行动态调整的方法：只调整通信架构的SelfOrg和ChatDev-Puppeteer，以及只更新成员能力的CORAL。TacoMAS相比这三个方法的提升幅度分别相当显著。而相比所有20个方法中表现最强的那个，TacoMAS平均提升了13.3个百分点。具体来看，在金融分析任务上的准确率从0.539提升到0.767，提升幅度高达22.8个百分点；在职场任务上从0.651提升到0.824，提升了17.3个百分点；在《我的世界》规划任务上从0.812提升到0.887，提升了7.5个百分点；在网页搜索任务上从0.688提升到0.745，提升了5.7个百分点。
七、细节分析：架构真的在演化吗
除了整体指标之外，研究团队还通过几组分析来揭示TacoMAS内部发生了什么。
通过追踪具体案例中团队架构的变化轨迹，可以清楚看到系统在做真实有意义的调整，而不只是随机改变。以金融分析任务为例，初始的5人团队经过三轮慢更新之后，删除了用处不大的"链接研究"角色，引入了专门的"数据研究"角色，并重新组织了搜索者和核查者之间的信息传递路径，最终形成了一条搜索—研究—核查的专业流水线，专门针对这道题所需的从SEC文件中提取数字这一核心需求。
快慢节奏的比例对性能影响很大。当架构和能力按同样的节奏更新时（K=1），性能明显下降，且轨迹不稳定；当架构完全冻结时，能力更新的收益也会很快见顶。只有在K=2的默认设置下，两者才达到最佳配合。
系统还表现出自适应的计算分配特性。在金融任务中，研究团队根据"专家预计所需时间"将题目分为简单题和困难题。系统对简单题平均只触发1次慢更新就停下来了，而对困难题平均需要8次慢更新。关键在于，系统本身从未看过这个"专家时间"标签，这说明它完全靠自己的执行轨迹反馈来判断当前题目的难度，并据此分配演化资源，而不是无差别地对所有题目都跑满10轮。这种自适应性让TacoMAS的额外计算成本花得物有所值。
与之形成对比的是，SelfOrg虽然也需要大量LLM调用，但随着调用次数增加，性能很快遇到平台期，再多的计算也没有明显收益。TacoMAS则不同，随着演化轮数增加，性能持续提升，表现出真正的"推理时算力扩展"特性——投入更多计算，就能得到更好的结果。
此外，团队规模的设置也有讲究。初始团队过小时，角色多样性不够，遇到需要多类专业知识的任务时捉襟见肘；初始团队过大时，协调成本上升，每次有限的架构编辑能产生的效果也被稀释，整体性能反而下降。5个人的初始规模在多数任务上是一个较好的平衡点。
不同底层模型的效果验证显示，无论把Gemini 2.5 Flash-Lite换成Claude Haiku-3.5还是GPT-4o mini作为成员LLM，TacoMAS演化后的性能相对演化前的提升都保持一致。换元LLM（总教练用的模型）的测试同样如此。这说明性能提升主要来自协同演化的机制本身，而不是依赖特定模型的特殊能力。
八、这套框架的局限与未来方向
研究团队对TacoMAS的局限性也持坦诚态度。当前的设计依赖单个元LLM总教练观察全部执行轨迹并做出所有决策。当任务非常复杂、天然分解为多个相互独立的子任务时，单个总教练需要消化的信息量可能过大，容易遗漏局部的协调问题。一个自然的扩展方向是引入层级化的总教练结构，每个子任务集群由局部教练负责，再由更高层的总教练协调各局部教练的提案。
另一个局限是，每道题解完之后，系统会清空工作记忆，下一道题从零开始演化。这避免了题目间互相污染，但也意味着系统无法积累可复用的结构性经验。比如，系统可能在不同题目上反复发现"核查者需要直接连接到搜索者"这一有用的通信模式，却每次都重新发现，而不是把这个经验记录下来供后续题目复用。如何在跨题记忆复用和防止信息污染之间取得平衡，是一个值得深入探索的方向。
说到底，这篇论文做的事情，是把人类团队中早已存在的管理智慧——成员技能要随时优化，但组织架构的调整要慎重且有节奏——迁移到了AI多智能体系统的设计当中，并给了它严格的数学保证和充分的实验验证。这对思考如何让AI系统在面对未知的新问题时保持稳定而又灵活的能力，提供了一个有实际参考价值的框架。
当然，TacoMAS并不是终点。它揭示了一个更广泛的问题：在AI解决问题的过程中，"花时间想怎么组织团队"本身就是解题的一部分，而不是可以一次性固定下来的前期工作。这个认识本身，或许比任何具体的性能数字都更值得细细品味。
Q&A
Q1：TacoMAS中的"快慢双循环"是指什么？
A：TacoMAS中的快循环是指每一轮解题后立即更新每个AI成员的能力，比如给它补充经验、调整行为策略；慢循环是指每隔若干轮才触发一次，对整个团队的架构进行调整，比如增减成员或改变谁和谁通信。两者节奏不同，快的保证每个成员随时在学习，慢的保证整体架构在稳定的基础上有序演化，防止频繁的结构变化破坏已有的协作成果。
Q2：多智能体系统中只更新架构或只更新能力为什么不够？
A：只更新架构而不更新成员能力，成员的实际执行水平跟不上新架构的需求，协作效果有限；只更新成员能力而架构固定，成员能力的提升可能因为通信路径不合理而无法传递到整个团队，最终遇到天花板。TacoMAS的实验和理论分析都表明，两者必须协同演化才能释放多智能体系统的完整潜力，且同步演化时两者的节奏必须错开，一快一慢。
Q3：TacoMAS相比其他多智能体方法在实验中表现如何？
A：TacoMAS在金融分析、网页搜索、规划和职场任务四个测试集上均排名第一，相比所有20个对比方法中最强的那个平均提升了13.3个百分点。在金融任务上提升幅度最大，达到22.8个百分点，在职场任务上提升了17.3个百分点。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

“我一行代码都没读就发布了”，被OpenAI收购后，uv工具创始人开始反思AI编程

各大车企上半年KPI完成率

Meta也来卖铲子了！小扎：模型可以慢，GPU必须赚

华为在苏州有新布局！

芯片涨破天，报价半日废，华强北囤货陷两难

天下苦DRAM久矣

全站最新

“我一行代码都没读就发布了”，被OpenAI收购后，uv工具创始人开始反思AI编程

各大车企上半年KPI完成率

Meta也来卖铲子了！小扎：模型可以慢，GPU必须赚

华为在苏州有新布局！

热门推荐

“我一行代码都没读就发布了”，被OpenAI收购后，uv工具创始人开始反思AI编程

乘联分会崔东树：车船税调整是油电同权改革落地标志性一步

鸿蒙智行享界MPV新车谍照再曝，支持后轮转向

李飞飞、Jim Fan、徐丹飞联手，给具身智能指了一条新路

创维光伏在清远成立新公司

各大车企上半年KPI完成率

Meta也来卖铲子了！小扎：模型可以慢，GPU必须赚

华为在苏州有新布局！

2026年中国空间站迎转折：首位外籍航天员将首飞，桂海潮期待再征太空

上亿用户真实选择！餐饮行业“真心动”成新竞争护城河

山姆中国被约谈当日变更董事长

北京信息光电子芯片平台在经开区通线投产，降低对外进口依赖

投资 25 万亿韩元，三星 SDI 扩产全固态、钠电池

芯片涨破天，报价半日废，华强北囤货陷两难

天下苦DRAM久矣