当前位置: 首页 » 资讯 » 科技头条 » 正文

俄勒冈州立大学等联合研发:让AI团队像真正的团队一样"进化"

IP属地 中国·北京 科技行者 时间:2026-05-19 22:17:50


这项由俄勒冈州立大学、威斯康星大学麦迪逊分校、强生公司和宾夕法尼亚州立大学联合开展的研究,以预印本形式于2026年5月发布在arXiv平台上,论文编号为arXiv:2605.11136。感兴趣的读者可以通过该编号查阅完整原文。

**一、一个关于"团队合作"的根本性问题**

假设你管理着一支由五位顾问组成的团队,每当遇到难题时,你可以选择让他们各自独立工作然后汇总答案,也可以让他们真正协作——强项互补、经验共享、分工明确。大多数人都知道后者更有效,但在人工智能领域,长期以来的做法恰恰是前者:把好几个AI模型并排摆在一起,各自做各自的事,充其量是"多数投票"——哪个答案出现次数多就用哪个。

这个问题深深困扰着来自多所顶尖高校的研究团队。他们观察到一个奇怪的现象:当任务非常困难,每个AI单独解决的成功率只有20%时,"多数投票"这种策略会彻底失效——因为正确答案恰恰是少数,反而会被错误答案"淹没"。数学上可以验证:五个AI各有20%的成功率,多数投票后得到正确答案的概率只剩下约5.8%,比单个AI还差。

正是这个矛盾促使研究团队提出了一个更根本的问题:能否让多个AI真正像一支有机的团队那样持续进化,而不是把N个AI进化的过程简单重复N遍?他们的答案是EVOCHAMBER——一个让AI团队在完全不需要重新训练的情况下,随着任务经验的积累自发进化的框架。

**二、进化的三个层次:为什么"多个AI各自学习"还不够**

要理解EVOCHAMBER的核心思想,可以用一家咨询公司来做类比。公司里有几十位顾问,每次接到项目时,公司需要决定:派哪几个人去负责这个项目?这几个人怎么分工协作?一个顾问在某个项目上学到的东西,怎么传给其他人?公司本身的人员结构,是否需要随着业务变化而调整?

这四个问题对应着EVOCHAMBER所定义的三个进化层次。

第一个层次是"个人层次",每个AI维护属于自己的私有经验记忆。每次完成任务后,AI会反思自己的中间过程、团队最终答案和任务结果,提炼出两类知识:一类是针对特定领域的专项策略(比如解代数题的技巧),另一类是跨领域通用的元认知洞见(比如"遇到复杂问题先把它分解成小问题")。这两类知识分开存储,下次遇到类似任务时,AI会从自己的记忆库里检索最相关的条目,作为解题背景。同时,每个AI还维护一个"能力评分",记录自己在每类任务上的历史表现,这个评分会随着经验不断更新,近期表现比远期表现权重更高。

第二个层次是"团队层次",决定谁去参与某个任务以及这几个人怎么合作。这里的关键是:不能简单地每次都派"最强的三个人",因为那样最强的人会把所有经验都揽走,其他人永远无法成长,整个团队的多样性也会消失。研究团队设计了三个互补角色:锚定者是当前该类任务中表现最佳的AI,负责把握主体方向;补充者是从剩余AI中选出来的,选择标准是既要在该任务类型上有一定能力,又要在过去和锚定者合作时配合得好,同时风格要与锚定者有所不同;探索者则专门从没怎么接触过这类任务的AI中选出,确保经验积累的覆盖面足够广。

确定了团队成员之后,锚定者还需要从四种协作结构中选一种:投票(各自独立作答然后取多数)、辩论(各自给出答案然后互相质疑)、生成-评审(一个人先给出详细方案,其他人专职找漏洞)、分解(把问题切分成模块各自负责)。具体选哪种,由锚定者根据以往经验判断,这个判断能力本身也会随着时间学习改进。

第三个层次是"种群层次",管理整个AI池子的知识流动和成员结构。这是EVOCHAMBER与所有前辈方法最本质的区别所在,也是接下来要重点讲述的部分。

**三、CODREAM:让知识从强者流向弱者,而不是均匀广播**

种群层次最核心的机制叫做CODREAM,全称"协作梦境"。这个名字听起来有些神秘,但原理其实直观:当团队失败或者成员之间意见不一致时,就触发一次深度反思会议,把强者的经验以精确的方式传递给弱者。

为什么要叫"梦境"?因为这个过程发生在任务完成之后,是一种"回顾性学习"——就像你白天遇到了挫折,晚上睡觉时大脑会在梦里整理和消化这些经验。

这次反思会议分五个步骤进行。第一步"反思",每个成员私下审视自己这次哪里做对了、哪里做错了。第二步"对比",把失败者和成功者放在一起比较,提炼出"成功者到底做了什么不一样的事情"。第三步"想象",把这些差异转化成可以应用于未来类似情境的策略性假设,并标注这个洞见适用于哪类问题。第四步"辩论",团队成员互相批评对方提出的策略,淘汰那些站不住脚的。第五步"结晶",把通过辩论考验的洞见整理成结构化条目,每条都标注适用级别(是只适用于这个具体问题、还是适用于某个子领域、还是跨领域通用)和适用范围。

最关键的一步发生在这之后:这些知识不是广播给所有人,而是精准地写入那些在该类任务上表现低于团队中位数的AI。换句话说,知识从强者流向弱者,而不是稀释给每个人一点。这个区别至关重要——把专门针对代数题的技巧灌输给一个已经非常擅长代数的AI,只会制造噪声;但把同样的技巧给到一个在代数上还有明显短板的AI,才能真正弥补差距。

研究团队在对照实验中用数据证明了这一点:完整保留20个AI加上完整的团队组建机制和生命周期管理,但把CODREAM这一个环节关掉,整体表现和单个AI完全一样——多个AI在没有跨智能体知识传递的情况下,无论怎么精心组队,效果都不比一个人强。只有加上CODREAM,团队才真正超越了个人之和。

**四、生命周期管理:AI团队的"新陈代谢"**

种群层次的另一半是生命周期管理,每隔固定任务数检查一次整个AI池子的状态,根据情况执行四种操作。

第一种操作是"分裂",针对某类任务中表现持续优秀的AI,克隆一个副本并赋予略微不同的专注方向。克隆体继承原来AI的全部记忆,但从此独立积累经验,可能会发现相邻的新能力方向。第二种操作是"合并",当两个AI的能力分布几乎完全重叠时,把它们合并成一个,同时继承两者的全部记忆,避免资源浪费。第三种操作是"修剪",当某个AI连续多次表现明显低于团队平均水平时,直接淘汰。第四种操作是"创生",当遇到某类新任务而池子里没有任何AI在这类任务上有积累时,孵化一个专门针对这类任务的新AI,从零开始积累经验。

此外还有第五种操作"专化",不改变AI的数量,而是调整某个高表现AI的性格定位,使其在未来的团队组建中更容易被正确地识别为对应领域的专家。

这套生命周期机制解决了一个重要问题:随着任务流不断变化,团队的结构也应该跟着变化。就像一家真正运转良好的公司,不会在业务转型时依然维持过时的部门结构,而是会招聘新人才、整合重叠职能、让跟不上节奏的员工离开。

**五、实验验证:在三条不同难度的赛道上测试**

研究团队设计了三条任务流来全面测试EVOCHAMBER的性能,覆盖了数学、编程和综合推理三个领域。

第一条是"困难数学流",包含262道高难度数学题(来自MATH数据集的4/5级题目)和四年AIME竞赛题(每年30道),共382道题。AIME是面向高中生的美国邀请赛数学竞赛,题目难度对AI来说相当高,单个AI的成功率通常在10%到17%之间。

第二条是"困难编程流",包含257道MBPP+题目(中等难度编程题)和165道CodeContests题目(竞赛级编程题),共422道题。这条流的设计目的是测试在较容易任务上学到的调试技巧能否迁移到更难的题目上。

第三条是"AFlow综合流",把六个不同领域的100道题依次排成600道题的任务流:数学应用题、多跳问答、编程、高难数学、代码评估、复杂推理。这条流专门测试AI在领域切换时能否保持性能。

主要用于测试的AI骨架是Qwen3-8B(一个在单块GPU上运行的模型),同时用GPT-4.1-mini做跨模型验证。

在困难数学流上,EVOCHAMBER整体达到63.9%,比最强基线MemCollab高出32%的相对幅度,比单个AI高出一倍以上。在最难的AIME 2022题上,EVOCHAMBER达到40%,而前面提到的"多数投票"方法只有3.3%——这完美印证了开头提到的"多数投票在低成功率下会适得其反"的问题。

在困难编程流上,所有方法在相对容易的MBPP+题上都趋向于差不多的高分,真正拉开差距的是竞赛级编程题CodeContests。EVOCHAMBER在这个子集上达到35.2%,是单个AI的5倍多,而另外两个有记忆机制的对比方法EvoMem和MemCollab在这个子集上的表现竟然比单个AI还差,研究团队分析认为这是因为它们的记忆机制引入了噪声,在没有精准筛选和路由的情况下反而造成了干扰。

在综合流上,EVOCHAMBER以87.1%的总体准确率超过所有基线,尤其在高难数学(82%)和编程(84.3%)这两个需要跨任务知识迁移的领域优势最为明显。

换用GPT-4.1-mini做测试时,由于这个更强的模型在很多任务上本身就表现较好,提升空间较小,但EVOCHAMBER依然保持领先。在AIME题上,GPT-4.1-mini版本的EVOCHAMBER达到了79.6%的整体准确率,比单个GPT-4.1-mini高出10.7个百分点。

**六、消融实验:拆解每一块贡献**

为了确认每个设计模块各自起了多大作用,研究团队逐一"拆除"各个组件,在综合流上观察性能变化。

把精细的团队组建(基于能力评分和互补性选择)换成随机组队,整体性能下降2.4个百分点。把智能的协作结构选择换成强制使用投票,下降3.0个百分点。这两个数字表明团队层面的设计确实有效,但效果是有限的。

然后把CODREAM整体关掉,性能骤降10.8个百分点,而且这个下降在依赖多步推理的任务上尤为剧烈——多跳问答从89.5%跌到57.2%,复杂推理从86.0%跌到48.0%,差距极为悬殊。这强有力地确认了跨智能体的非对称知识传递是整个框架里最核心的机制。

研究团队还专门做了一个更干净的对照实验:取出综合流中30道数学题,比较三种配置——单个AI、保留20个AI的全部结构框架但关掉CODREAM、保留全套完整方案。结果第一种和第二种得分相同,第三种高出10.5%。这说明多个AI的框架本身不产生任何效果,产生效果的是知识在AI之间流动的机制。

此外,把任务顺序随机打乱,用两个不同随机种子重新运行实验,EVOCHAMBER的优势非但没有下降,反而略有提升(从63.9%涨到65.5%和66.2%),彻底排除了"任务顺序恰好有利"的偶然因素解释。池子大小从3个AI变到20个AI,最终整体性能只差1.1个百分点,说明生命周期机制会自动调节到合适的有效规模。

**七、最令人印象深刻的发现:专家从零自发涌现**

除了性能数字,研究团队还详细分析了整个382题运行过程中AI池子的变化轨迹,发现了一些用数字难以概括的有趣现象。

20个完全相同的AI从空白开始,没有预先指定任何人去负责哪类任务。随着任务流推进,一个稳定的分工格局自发形成了:每个任务类别都逐渐汇聚出一个主力专家,而且不同类别的主力专家不同。更有意思的是,AIME 2023的专家在AIME 2022阶段毫无存在感,直到AIME 2023题目开始出现才突然激活;AIME 2024的专家在此之前也几乎没有参与任何任务,直到对应题目出现。专家化不是预设的,而是按需涌现的。

知识的传递轨迹也不是均匀扩散的,而是沿着特定通道流动——几个固定的"贡献者"反复给几个固定的"接收者"传递洞见,形成了清晰的结构化网络,而不是随机的点对点联系。领导力也在随着任务难度变化:在较容易的高难数学阶段,领导权在几个AI之间交替轮换;进入最难的AIME阶段,越来越集中在最适合的那个AI身上,团队专化指数随难度上升而攀升。

用不同随机种子重复三次实验,这些结构性规律每次都复现,但具体哪个AI成为哪类任务的专家则每次不同。模式是稳定的,身份是随机的——这正是真正的涌现现象的标志:不是编程进去的,而是从规则中自发生长出来的。这种现象用一个单独的AI永远无法复现,因为它本质上是多个智能体之间相互作用的产物。

**八、CODREAM产出了哪些真实知识**

研究团队从实验日志中摘录了一些AI实际生成的洞见条目,这些内容很直观地展示了这套机制在做什么。

在数学方向,一条从编号为math_hard_10的任务中提炼出的洞见这样描述:"计算某范围内能被多个数整除的整数数量时,需要将模运算约束整合进序列的结构定义中,而不是当作外部条件处理。这样才能准确建模那些模数影响递归或周期行为的序列。"另一条关于几何的洞见强调了求梯形面积时识别平行边和精确测量垂直高度两步缺一不可,并提出了一套结构化的分析流程。

在编程方向,一条从竞赛题中提炼的洞见建议:当涉及数值范围和潜在溢出时,应当使用显式饱和的有界算术,把中间值限制在合法范围内。另一条建议:当符号计算验证数学逻辑可能有边界情况时,应在具体测试点上用数值计算进行交叉验证,以捕捉化简错误。

这些洞见的特点是可操作的跨任务模式,而不是针对某道具体题目的提示,因此能够被有效地迁移到后续类似任务中,也能够被有意义地路由给在对应方向上有欠缺的AI。

**九、这项研究的局限与下一步方向**

研究团队对框架的局限性也有坦诚的说明。测试只覆盖了两个模型家族,更多不同架构的验证还需要后续补充,不过由于整套机制完全通过提示词实现,不依赖任何特定的模型内部结构,理论上应当可以迁移。在计算成本上,EVOCHAMBER大约需要单个AI的3.6倍算力,但与使用5个AI进行多数投票相比,只需要后者72%的算力,同时准确率更高,这个权衡在很多场景下是合理的。生命周期管理中的阈值参数目前是固定的,跨所有任务流统一使用,通过元优化自动学习这些参数是一个有价值的未来方向。

更长的任务流(超过1000道题)能让研究者观察到专家化的长期稳定性、洞见过时和更新的机制,以及极难任务对整个框架性能上限的影响。更精细的团队贡献归因也是一个值得深入的问题——目前系统将团队结果作为共享奖励分配给所有成员,但每个成员实际贡献了多少,理论上可以被更精确地建模。

说到底,这项研究想回答的是一个最朴素的问题:如果你有一群AI,怎样让它们真正像一支越来越厉害的团队一样工作,而不只是把同一件事重复做N遍?答案是,你需要让它们之间有真实的知识流动,有基于能力分工的协作,有随任务结构动态调整的团队构成,还有能够随着经验涌现的专家化分工。这些都不是预设好的,而是从规则和反馈中自发生长出来的。这个思路对于未来如何设计和部署多AI系统,提供了一个值得认真对待的参照框架。有兴趣深入了解技术细节的读者可以通过arXiv编号2605.11136查阅完整论文。

Q&A

Q1:CODREAM机制是如何决定把知识传给哪个AI的?

A:CODREAM在团队失败或意见分歧时触发,经过五步反思流程(反思、对比、想象、辩论、结晶)提炼出结构化洞见后,会查看每个AI在该类任务上的近期表现评分,只将洞见写入表现低于团队中位数的AI。也就是说,强者产出知识,弱者接收知识,而不是均匀广播给所有人,这样既弥补了短板,又保留了专家的独特性。

Q2:EVOCHAMBER在多数投票失效的困难任务上为什么能表现更好?

A:多数投票在每个AI成功率很低时会主动覆盖掉少数正确答案。EVOCHAMBER通过锚定者(当前最强AI担任领导)根据经验选择合适的协作结构来规避这个问题——在低成功率情境下,领导者会倾向于选择辩论、生成-评审或分解等结构,而不是投票,从而让偶尔出现的正确思路有机会被识别和保留,而不是被淹没在错误答案中。

Q3:EVOCHAMBER运行需要对AI模型重新训练吗?

A:不需要。EVOCHAMBER完全通过提示词(即给AI的文字指令)来实现所有机制,包括经验存储、团队组建、协作结构选择、洞见提炼和生命周期管理。所有AI知识的积累和传递都发生在上下文和记忆库层面,无需对底层模型做任何参数调整,因此可以直接套用在现有的AI模型上。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。