当前位置: 首页 » 资讯 » 科技头条 » 正文

俄勒冈州立大学等揭秘:多智能体AI团队一起练习,成绩反而变差?

IP属地 中国·北京 科技行者 时间:2026-06-06 22:19:50


这项由俄勒冈州立大学、宾夕法尼亚州立大学与Adobe公司联合开展的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2605.24202,有兴趣深入了解的读者可通过该编号查询完整原文。

当AI也开始"组团刷题"

假设你要准备一场重要的数学考试。一个聪明的方法是找几个同学一起练习:一个人先解题,另一个人检查答案并指出错误,然后大家讨论修改。这种分工合作的方式,直觉上比一个人闷头苦练应该更有效。

大型语言模型(也就是我们常说的AI大模型,比如ChatGPT背后的技术)也面临同样的问题:单个AI在完成数学推理、代码编写等高难度任务时存在上限,于是研究者们搭建起了"多智能体工作流"——把任务拆分给多个扮演不同角色的AI来协作完成。更进一步,研究者们还尝试用强化学习(一种通过"做对了有奖励、做错了没奖励"来训练AI的方法)来让这个AI团队越练越强。

然而,一个令人困惑的现实摆在面前:这些AI团队在联合训练时,有时确实表现得更好,但有时反而会崩溃,甚至越练越差。更棘手的是,没有人能说清楚,到底在什么情况下联合训练有帮助,失败的原因究竟是什么。

这项研究的目标,正是系统性地回答这个问题。研究团队搭建了一个庞大的实验矩阵,横跨三种不同的AI团队协作模式、三种模型规模,以及数学和代码两种任务类型,同时比较了两种不同的训练策略。研究的核心发现颠覆了许多人的直觉:训练的成败不取决于某一个单一因素,而是由团队结构、任务类型和规模共同决定的。而且,所谓"更安全"的训练方式,只是把失败的形式换了一种,并没有真正消除问题。

一、研究的实验舞台:三种AI团队,两种训练策略

要理解这项研究,先得熟悉它搭建的实验舞台。研究团队设计了三种不同结构的AI协作团队,每种团队都有各自独特的分工方式。

第一种叫"评估-优化"工作流。顾名思义,这个团队里有两个角色:一个负责生成答案的"生成者",以及一个负责评审和提出批评意见的"评估者"。生成者先给出初稿,评估者审查后决定接受还是打回去修改,如果打回去,生成者就根据批评意见重新来过,如此反复几轮。这就好比一篇文章的作者和编辑的关系——作者写稿,编辑审稿并提意见,作者再修改,直到编辑满意为止。

第二种叫"投票"工作流。这里有三个独立的"投票者"和一个"汇总者"。三个投票者各自独立地对同一道题给出解答,然后汇总者从三份答案中选出最好的或者综合它们得出最终答案。可以把这理解成三个律师分别为同一个案子准备辩护词,然后一位主任律师选出最有力的版本。

第三种叫"编排者-工作者"工作流,是最复杂的一种。这里有一个"编排者"负责规划思路和拆解任务,三个"工作者"并行处理具体任务,最后一个"综合者"把三个工作者的成果整合成最终答案。用一个生活化的比喻来描述:编排者像是项目经理,制定计划并分配工作;三个工作者像是具体执行的员工;综合者则像是负责汇报和收尾的产品经理。

搭建好团队之后,研究团队还比较了两种截然不同的训练策略,这是整个研究的核心对比维度。第一种叫"独立策略"训练,意思是每个角色都有自己独立的"大脑"(技术上称为独立的参数适配器),生成者的训练经验只更新生成者自己的大脑,评估者的训练经验只更新评估者自己的大脑,各不相干。第二种叫"共享策略"训练,整个团队共用同一个"大脑",不管是生成者、评估者还是汇总者,所有人的经验都会更新这同一个共享大脑。

为了让对比更有意义,研究团队还为每个实验配备了两个参照基准:一个是完全没有训练过的基础模型,另一个是只有单个AI(而非团队)在同样条件下训练的结果。有了这两个参照,研究者就能判断:多智能体团队训练带来的提升,到底有多少是因为"团队协作"本身,又有多少其实只是"AI训练本身"就能带来的普通效果。

整个实验矩阵横跨三种模型规模(参数量分别为0.6B、1.7B和4B,可以粗略理解为小号、中号和大号的AI)、两种任务(数学推理和代码生成),再乘以三种工作流和两种训练策略,构成了一个相当庞大的测试体系。训练方法采用的是业内流行的GRPO算法——一种根据最终答案对错来给整个团队打分并反向优化每个角色的方法,不需要对每一步中间过程单独评分。

二、多智能体团队训练究竟有没有用?

拿到这么大的实验结果,第一个要回答的问题很直接:多个AI组成团队一起训练,和不训练相比,到底有没有进步?

答案是:大多数情况下有用,而且效果明显。在研究覆盖的绝大多数实验格子里,团队训练后的准确率都高于没有经过任何训练的基础模型。以数学任务为例,基础模型在1.7B规模下的准确率大约在28%到32%之间,而经过团队训练后,各种工作流的准确率能攀升到50%到60%,提升幅度相当可观。代码任务同样如此,从不足15%的基础水平提升到20%以上。

不过,这里有一个关键的细节:很多时候,把多智能体团队训练的成绩和"单个AI单独训练"的成绩对比,多智能体的优势就缩小甚至消失了。研究者用"残差"这个概念来衡量这一点——也就是多智能体训练的准确率减去单个AI训练的准确率。从研究的数据表格来看,独立策略训练在"评估-优化"工作流上相对于单个AI训练的优势最为稳定,在1.7B规模的数学任务上能额外多出10.1个百分点;而"投票"工作流在共享策略训练下,有时甚至不如单个AI训练,出现负的残差值,比如在4B规模的数学任务上,共享策略的投票工作流比单个AI训练低了整整10.3个百分点。

这意味着,当我们说"多智能体训练有效果"时,必须追问:是相比什么而言有效?相比没有任何训练的基础模型,答案几乎总是肯定的。但相比单个AI认真训练一番,多智能体的额外价值就因情况而异,有时有,有时反而是负的。

三、独立策略与共享策略:高天花板与低地板的取舍

如果从上千个实验数据格子里抽取出一个最核心的对比模式,那就是:独立策略训练的AI团队峰值更高,但也更容易崩溃;共享策略训练的AI团队峰值更保守,但同样存在悄悄"跑偏"的问题。

从"谁能达到更高的准确率"这个维度看,独立策略几乎在所有的工作流和任务组合里都占优势。研究者画了一张散点图,横轴是共享策略的准确率,纵轴是独立策略的准确率,图中大多数的点都位于对角线的上方,代表独立策略表现更好。这背后的逻辑其实不难理解:每个角色有自己专属的"大脑",训练时可以专心致志地向自己的方向优化,不用担心自己的学习经验被其他角色的经验稀释或覆盖。

然而,独立策略训练存在一个严重的隐患:训练到后期,准确率可能突然急剧下滑,像是从悬崖上掉落一样。研究者把这种现象称为"终端准确率悬崖"。在1.7B规模的数学任务上,三种工作流的独立策略训练都呈现出同一个规律:准确率先快速爬升,超过共享策略,然后在某个时刻开始急速下坠,最终跌回到甚至低于共享策略的水平。比如投票工作流的独立策略训练,准确率曲线在中期达到峰值约50.9%,随后便一路滑落。

共享策略训练则不同,它更像是"稳健但不出彩"的选手:爬升速度相对较慢,峰值也较低,但达到峰值后能保持一段时间的平稳。然而,研究的后续分析揭示,这种"平稳"其实是一种假象——共享策略训练同样会出问题,只不过问题藏得更深,普通的训练监控指标看不出来。

为了度量两种训练策略在训练过程中的"不稳定程度",研究团队追踪了三个技术性指标:策略比率(可以理解为AI的输出和初始状态相差多远,偏差越大说明训练越激进)、梯度范数(训练信号的强度,类似于学习时用力的大小)以及熵崩塌深度(AI的"词汇多样性"下降了多少,类似于一个本来会说很多种话的人突然只会说几句固定短语了)。数据显示,独立策略训练在前两个指标上都系统性地高于共享策略训练,尤其是梯度范数,独立策略几乎在所有实验组合里都更高。这在一定程度上解释了为什么独立策略更容易出现剧烈的训练崩溃。

四、工作流结构和任务类型才是真正的关键变量

如果把整个实验矩阵像一张地图一样摊开来看,会发现一个更深层的规律:训练成败不能仅仅归因于"用了独立策略还是共享策略",不同的工作流结构和不同的任务类型,才是影响结果的更根本因素。

以数学任务为例,"评估-优化"工作流在独立策略下的表现在三种工作流里一直是最亮眼的,0.6B、1.7B和4B三个规模都能超越单个AI训练。"编排者-工作者"工作流紧随其后,同样表现稳健。而"投票"工作流在独立策略下的表现相对更不稳定,在某些规模下甚至低于单个AI基准。

切换到代码任务,格局就变了。整体上,代码任务的提升幅度普遍低于数学任务,各工作流之间的差距也不那么悬殊。更值得注意的是,同一个训练策略在数学任务上管用,在代码任务上未必管用——比如共享策略的"评估-优化"工作流在代码任务上的1.7B规模表现,比单个AI训练差了0.4个百分点,而在数学任务的同等规模上则高出0.6个百分点。

这就像同一套管理制度在销售团队和研发团队里效果不同——工作性质本身就决定了哪种协作方式更有效。数学任务有清晰的对错标准,答案要么对要么错,训练信号非常明确;代码任务虽然也有测试用例来判断对错,但解题路径的多样性更高,任务本身也更复杂。这种任务特性的差异,会通过奖励信号传导到每个角色的训练过程中,造成不同的结果。

五、共享策略的"安静崩溃":藏在准确率背后的角色漂移

共享策略训练不是没有问题,而是问题更难被察觉。研究团队发现了一种他们称之为"共享策略角色捕获"的现象——通俗来说,就是团队里戏份最重或者"嗓门最大"的角色,会逐渐把整个团队共用的那个"大脑"拉向自己的行为方式,导致其他角色开始产出不符合自己本职工作的内容。

这种现象在研究中出现了几种不同的形态。第一种形态出现在代码任务的"评估-优化"工作流的0.6B模型上。在这个组合里,生成者的任务是产出代码,评估者的任务是用自然语言判断答案对不对并给出"正确/错误"的结论。然而训练到后期,评估者角色开始直接输出Python代码块,而不是应有的判断意见。到了训练的第390步,几乎99%的评估者输出都变成了Python代码,完全失去了"评估"的功能。这就好比你雇了一个代码审查员,结果他越干越偏,最后自己开始写代码了,连审查工作都不做了。

第二种形态出现在数学任务的"评估-优化"工作流的1.7B模型上。这次评估者不是变成了代码生成机器,而是变成了另一种形式的解题机器——本来应该给出简短判断意见的评估者,开始产出越来越长的重新推导过程,把整道题从头到尾再算一遍,俨然成为了第二个生成者。训练到第320步时,评估者的输出中位数长度从最初的131个词暴涨到986个词,而生成者本身的答案质量也在下滑(从能找到正确答案的82%下降到57.9%)。两个角色都在向同一个方向漂移,共用的"大脑"已经不知道自己应该做什么了。

第三种形态出现在数学任务的"投票"工作流的4B模型上,属于最隐蔽的一种。这里的三个投票者和一个汇总者共用一个大脑。正常情况下,三个投票者各自解题,汇总者只需要选出最好的那个答案,输出一个简短的选择结论。但训练到后期,汇总者的角色开始发生变化:它不再输出短短几个词的选择结论,而是开始产出越来越长的推导过程,越来越像投票者的风格。有意思的是,从训练监控指标来看,这个时候整体的"不稳定信号"并不明显,三个投票者的各项指标都很平稳——问题完全藏在汇总者的输出行为变化里,只有当你去仔细检查汇总者到底在说什么时才会发现。这意味着,如果只盯着总体准确率或者全局训练统计数据,完全可能错过这种角色漂移。

六、为什么独立策略会导致训练崩溃?梯度放大效应

理解了现象之后,研究团队进一步追问:为什么独立策略训练更容易导致准确率的急剧崩溃?背后的机制是什么?

核心原因在于研究者称之为"梯度放大"的机制。在"投票"工作流里,有三个独立的投票者,它们共用同一个"投票者角色的大脑"(但和其他角色是独立的)。每次训练时,这三个投票者都在处理同一道题,接受同一个结果奖励,因此它们传回来的训练信号方向是高度一致的。一次训练迭代里,这个投票者的大脑实际上接收到了三份指向同一方向的"更新请求",等效于单个AI训练时三倍的强度。

用一个生活化的比喻来理解:假设你在健身,每天做一组引体向上,久而久之会逐渐变强。但如果突然改成每天做三组引体向上,而且每组之间没有足够的恢复时间,肌肉反而会过度疲劳,甚至拉伤。梯度放大对AI训练的效果类似:训练信号太强、更新太猛,反而让模型偏离正轨、越来越差。

从实验数据上可以非常清晰地看到这个效应。在投票工作流的1.7B数学任务中,投票者角色的策略偏离程度(χ?比率)从训练开始到结束放大了将近30倍,而汇总者角色则几乎纹丝未动,比率仅为1.18。训练困难、准确率崩溃的元凶,完全集中在那个被三份相同方向的训练信号不断轰炸的投票者角色上。"编排者-工作者"工作流里,同样的逻辑让三个工作者角色承受了类似的压力,其策略偏离程度放大到了21倍,而编排者和综合者则相对平稳。

七、为什么共享策略会导致角色漂移?梯度不对称效应

共享策略训练的问题则来自另一个方向。研究者把这个机制称为"共享策略角色捕获"。

当团队中不同角色共用同一个大脑时,每个角色在每一轮训练里对这个大脑贡献的"更新量"是不同的。有些角色产出的文本很长、很有特色,自然就贡献了更大份额的训练信号;有些角色只需要输出几个词的简短结论,贡献的信号就很微弱。结果就是,信号更强的角色会逐渐"主导"共享大脑的更新方向,让大脑越来越向那个角色的行为模式靠拢。而其他角色的输出,也会在这个逐渐偏向的大脑指导下,越来越像主导角色的样子。

在"投票"工作流里,三个投票者加起来每轮训练贡献的是三个长篇解题过程的更新量,而汇总者只贡献一个简短结论的更新量。长此以往,共享大脑被"投票者模式"占据,汇总者的输出也开始变长、变成推导过程的样子——不是因为汇总者本身出了问题,而是它们用的那个大脑已经被投票者的风格给"染色"了。

在"编排者-工作者"工作流里,三个工作者对应三个任务槽,编排者和综合者各占一个槽,工作者天然在每轮训练中占据三分之三的信号份额。随着训练推进,共享大脑越来越向工作者的行为模式漂移,综合者的输出长度从中位数369词急剧缩减到19词(因为大脑已经不擅长产出综合性的长文本了),p95分位数却暴涨到5120词——出现了极端的两极分化,有时极短,有时又极长,完全失去了稳定输出综合性结论的能力。

这与"梯度放大"机制的根本区别在于:梯度放大是因为太多相同方向的信号推着同一个角色跑偏;而角色捕获是因为不同角色之间信号强弱不均,强的角色慢慢"蚕食"了弱角色的参数空间。两种机制都会导致角色功能的退化,但出现的场合不同,对应的工作流和训练策略也不同。

八、从实验结论到实践建议

研究团队在理清这些机制后,进一步提炼出了一套实践建议,告诉AI系统的开发者在设计多智能体训练时该如何规避这些陷阱。

在选择训练策略时,核心原则是"因工作流制宜,而非一刀切"。独立策略训练适合那些角色分工本身就有价值、而且同类角色的数量不多(或者不怕那个多人角色后期崩溃)的情况。当工作流里存在多个相同角色同时处理同一个问题时,要格外谨慎,因为这正是梯度放大效应的温床。共享策略训练适合那些不同角色之间允许一定程度的"混同",或者想在初期降低训练风险的情况——但必须接受它有自己的漂移风险,而且这种风险更难被普通监控指标发现。

监控方面,研究者明确指出:只看总体准确率是远远不够的。需要追踪每个角色各自的训练指标,尤其是困惑度(可以理解为模型对自己输出的"自信程度")、输出长度分布和输出内容的风格特征。在独立策略训练中,如果某一个角色的困惑度突然大幅上升而总体准确率还没有明显下滑,这往往是梯度放大效应早期的预警信号,需要提前干预。在共享策略的投票工作流中,要专门监控汇总者的输出是不是越来越长、越来越像投票者的风格——因为这种角色漂移完全可以在总体准确率没有明显异常的情况下悄悄发生。

研究者的结论是发人深省的:选择共享策略还是独立策略,不是在"稳定"和"高效"之间选一个,而是在两种不同的失败模式之间做一个权衡。没有哪种策略是一劳永逸的"安全选项",每种策略都把训练压力导向不同的通道,呈现出不同形式的风险。理解这些风险的来源——工作流结构、任务特性、角色分工——才是做出正确设计选择的基础。

说到底,这项研究告诉我们的,不是"多智能体AI团队不值得做",而是"做之前要把地图看清楚"。AI团队协作训练就像真实的团队管理一样,没有放之四海而皆准的最优解。三个人一起刷数学题,不见得就比一个人认真学更有效——关键在于三个人是怎么分工的、用什么方式反馈和总结经验、哪个人承担了最多的"练习量"。AI团队训练面临的本质问题,和人类团队管理出奇地相似。

对于想深入了解这项研究的读者,可以通过arXiv编号2605.24202获取完整原文,研究团队也在GitHub上开放了代码库(XHMY/marl-llm-workflows),所有实验可以复现验证。

Q&A

Q1:多智能体LLM工作流的独立策略训练为什么会出现准确率崩溃?

A:独立策略训练中,"投票"或"编排者-工作者"等工作流包含多个相同角色(比如三个投票者),这些角色共用一个角色专属参数,每轮训练时三份指向同一方向的信号同时更新这组参数,等于以三倍强度推动角色偏移,最终导致模型越来越偏离正常状态,准确率急剧下跌,这就是论文中所说的梯度放大效应。

Q2:共享策略训练为什么不能根本上解决多智能体训练的不稳定问题?

A:共享策略让所有角色共用一套参数,但不同角色每轮产出的文本长度和特征差异很大,贡献的训练信号量也不均等。产出越多越有特色的角色会逐渐"主导"共用参数的更新方向,导致其他角色的输出也被拉向主导角色的风格,这种角色漂移往往不会在总体准确率或全局训练指标上留下明显痕迹,只有逐角色检查输出内容才能发现。

Q3:如何判断多智能体RL训练时应该选独立策略还是共享策略?

A:没有普遍适用的最优选择。如果工作流中相同角色的数量不多、且角色分工明确有价值,可以优先考虑独立策略,但需要密切监控同类角色的困惑度是否异常升高。如果工作流中存在多个相同角色同时处理同一任务,共享策略可以缓解梯度放大风险,但必须额外追踪每个角色的输出长度和风格是否出现漂移,尤其是汇总类角色。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新