当前位置: 首页 » 资讯 » 科技头条 » 正文

南洋理工大学团队破解多智能体大语言模型训练难题

IP属地 中国·北京 科技行者 时间:2026-02-12 00:03:36


当多个AI智能体需要像团队一样协作完成复杂任务时,如何让它们学会更好地配合一直是个棘手问题。来自新加坡南洋理工大学的研究团队最近在这个领域取得了重要突破,他们开发了一套名为Dr. MAS的训练方法,专门解决多智能体大语言模型系统的训练不稳定问题。这项研究发表于2026年2月9日的arXiv预印本平台,论文编号为arXiv:2602.08847v1,为那些希望构建更强大AI协作系统的研究者们提供了全新的解决方案。

想象一下,如果你要组织一个团队来解决复杂的数学问题,可能需要一个专门负责解题的"解题专家"和一个负责检查答案的"验证专家"。在AI的世界里,这种多智能体协作系统正变得越来越重要,因为单个AI模型往往难以胜任需要多种专业技能的复杂任务。然而,就像训练一支真实的团队一样,让这些AI智能体学会有效协作并非易事。

传统的训练方法在面对多智能体系统时会遇到一个关键问题:不同的AI智能体往往扮演着不同的角色,它们的表现和奖励分布可能存在很大差异。这就好比在一个篮球队中,后卫和中锋的评价标准完全不同,如果用同一套标准来评判所有球员的表现,就会导致训练过程变得混乱不堪。研究团队发现,当使用现有的群体相对政策优化(GRPO)方法训练多智能体系统时,经常会出现梯度爆炸的问题,导致整个训练过程变得不稳定。

研究团队深入分析了这个问题的数学根源。他们发现,当使用全局基准来标准化所有智能体的优势函数时,那些奖励分布与全局平均值相差较大的智能体会产生异常大的梯度,就像一个跑得特别快的运动员在以团队平均速度为基准的评价体系中会得到过高的评分一样。这种不平衡会导致训练过程中出现严重的数值不稳定性,让整个多智能体系统的学习效果大打折扣。

为了解决这个问题,研究团队提出了Dr. MAS这一创新解决方案。这个方法的核心思想非常直观:既然不同智能体的表现标准不同,那就让每个智能体都使用自己专属的评价标准。具体来说,Dr. MAS为每个智能体单独计算其奖励的均值和标准差,然后用这些个体化的统计数据来标准化该智能体的优势函数。这就像为每个球员制定符合其位置特点的个人评价标准,让后卫按后卫的标准评判,让中锋按中锋的标准评判。

这种看似简单的改进实际上解决了一个深层次的数学问题。研究团队通过严格的理论分析证明,使用智能体特定的标准化方法可以将每个智能体梯度的二阶矩控制在合理范围内,从根本上消除了梯度爆炸的风险。这种方法不仅在理论上站得住脚,更重要的是它在实践中表现出色。

除了算法层面的创新,Dr. MAS还提供了一个完整的端到端训练框架。这个框架支持灵活的多智能体编排,可以处理智能体与模型的各种分配方式,包括多个智能体共享同一个大语言模型,或者每个智能体使用独立的模型。框架还提供了高效的资源调度和共享机制,能够在保证训练稳定性的同时最大化硬件利用效率。

研究团队在两个不同的任务场景中测试了Dr. MAS的效果。第一个场景是数学推理任务,使用了一个双智能体循环系统,其中解题智能体负责提出候选解答,验证智能体负责检查解答的正确性并决定是否需要进一步改进。第二个场景是多轮搜索任务,采用了三智能体分层架构,包括负责决策的验证智能体、负责信息检索的搜索智能体和负责综合答案的回答智能体。

在数学任务上,Dr. MAS在各个基准测试中都表现出色。以Qwen3-4B模型为例,在非共享设置下,Dr. MAS将平均成功率从57.5%提升到了61.1%,将通过率从74.4%提升到了77.7%。特别是在难度较高的AIME竞赛题目上,改进效果更加显著。对于Qwen3-8B模型,在某些具有挑战性的数学竞赛问题上,Dr. MAS甚至实现了超过10%的性能提升。

在多轮搜索任务中,Dr. MAS的优势更加明显。传统的GRPO方法在这种复杂的多智能体协作场景中经常出现严重问题,有时甚至会导致智能体完全停止调用搜索功能,从而导致性能大幅下降。而Dr. MAS成功解决了这些问题,在Qwen2.5-7B非共享设置下,将平均成功率从28.0%大幅提升到了43.8%,将通过率从40.5%提升到了58.3%。这种改进不仅体现在最终性能上,更重要的是整个训练过程变得更加稳定可靠。

为了深入理解Dr. MAS的工作机制,研究团队还进行了详细的梯度分析实验。结果显示,传统GRPO方法在训练过程中经常出现梯度范数的剧烈波动,有时甚至导致数值溢出。相比之下,Dr. MAS能够将所有智能体的梯度范数维持在稳定的水平,确保训练过程的平滑进行。这种稳定性对于需要长时间训练的复杂多智能体系统来说至关重要。

研究团队还通过消融实验验证了Dr. MAS各个组件的贡献。他们发现,仅使用智能体特定的均值而保持全局标准差已经能带来显著改进,而仅使用智能体特定的标准差而保持全局均值的效果更佳。最终,同时使用智能体特定的均值和标准差的完整Dr. MAS方法实现了最优性能,证明了这种全面个性化标准化策略的必要性。

在实际应用方面,Dr. MAS还展现出了出色的灵活性。研究团队测试了异构模型分配的效果,即让不同智能体使用不同规模的语言模型。结果表明,在分层多智能体系统中,可以为高级决策智能体分配更大的模型(如7B参数),为执行层智能体分配较小的模型(如3B参数),这样既能保持系统性能,又能显著降低计算成本和延迟。具体来说,这种异构配置在保持性能基本不变的情况下,实现了31.6%的延迟减少和41.8%的成本降低。

Dr. MAS的技术框架还具有良好的扩展性和实用性。它采用了模块化设计,支持各种不同的多智能体编排方式,从简单的双智能体循环到复杂的多层次决策架构都能很好地适应。框架使用了先进的推理引擎和资源调度技术,能够高效地处理大规模并发的智能体交互。

这项研究的意义远不止于技术层面的改进。随着AI系统变得越来越复杂,多智能体协作将成为实现高级AI应用的关键技术。无论是复杂的软件开发、设备控制,还是需要多种专业技能的综合性任务,都需要多个AI智能体的有效协作。Dr. MAS提供的稳定训练方法为这些应用的实现铺平了道路。

值得注意的是,研究团队也坦诚地指出了当前方法的一些局限性。Dr. MAS虽然解决了梯度不稳定的问题,但在多智能体系统中仍然存在其他挑战,比如如何在智能体之间进行更好的信用分配,以及如何处理更大规模的智能体协作等。此外,当前的实验主要集中在相对较小的智能体团队上,对于包含大量智能体的系统,资源分配和异步执行等问题还需要进一步研究。

从更广阔的视角来看,这项研究反映了AI领域的一个重要趋势:从单一模型的优化转向多智能体系统的协同。就像人类社会中专业化分工能够带来效率提升一样,让不同的AI智能体专门负责不同的子任务,然后通过有效的协作机制整合它们的能力,很可能是实现更强大AI系统的关键路径。Dr. MAS在这个方向上迈出了重要的一步,为未来的多智能体AI系统开发提供了宝贵的经验和工具。

说到底,Dr. MAS解决的是一个看似技术性但实际上具有深远影响的问题。通过让每个AI智能体都能在适合自己的标准下稳定学习,这项技术为构建更复杂、更强大的AI协作系统打下了坚实基础。随着这类技术的不断成熟,我们有理由期待在不久的将来看到更多令人印象深刻的AI团队协作应用。对于那些希望深入了解这项技术细节的读者,可以通过论文编号arXiv:2602.08847v1在相关学术平台上查阅完整的研究报告。

Q&A

Q1:Dr. MAS是什么?

A:Dr. MAS是南洋理工大学开发的一种多智能体大语言模型训练方法。它的核心创新是为每个AI智能体使用专属的评价标准,而不是用同一套全局标准评判所有智能体,这样可以避免训练过程中的梯度爆炸问题,让多个AI智能体的协作学习变得更加稳定。

Q2:多智能体AI系统为什么需要特殊的训练方法?

A:因为不同的AI智能体往往扮演不同角色,就像篮球队中后卫和中锋的职责不同一样。如果用同一套标准评判所有智能体的表现,会导致那些表现与平均水平差异较大的智能体产生异常大的训练梯度,从而让整个训练过程变得不稳定,影响最终的协作效果。

Q3:Dr. MAS在实际应用中效果如何?

A:在数学推理任务中,Dr. MAS将成功率提升了3-4个百分点,在多轮搜索任务中的改进更显著,成功率从28%提升到43.8%。更重要的是,它彻底解决了传统方法中经常出现的梯度爆炸问题,让训练过程变得稳定可靠,这对需要长时间训练的复杂AI协作系统来说至关重要。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。