![]()
这项由哈佛大学、麻省理工学院及2077AI联合开展的研究,以预印本形式发布于2026年6月1日,论文编号为arXiv:2606.02859,感兴趣的读者可通过该编号查阅完整原文。
在人工智能的世界里,有一个一直让研究者头疼的问题:一个再强大的AI,也有它力所不及的地方。它的记忆有限,视野有限,计算资源有限。当任务变得足够复杂——比如完整地解决一道奥赛级数学题、从头到尾做一份上市公司的财务研究报告,或者设计一块性能卓越的芯片——单打独斗几乎注定会碰壁。
于是,研究者们自然而然地想到了一个方向:让多个AI协作。但问题接着来了:怎么协作?谁来指挥?谁做什么?
目前最常见的做法是设置一个"总指挥官"——一个中央调度系统负责分配任务、协调各方。这个方案听起来合情合理,但实际上暗藏两个根本性的隐患。第一,所有的信息和决策都必须流经这个总指挥官,一旦它出了问题,整个系统就会瘫痪,这就像一家公司所有邮件都必须由CEO亲自批复才能发出去一样,既低效又脆弱。第二,随着AI数量的增加,总指挥官需要处理的协调工作呈线性增长,系统规模越大,指挥官就越不堪重负。
这支来自哈佛与MIT的研究团队换了一种思路。他们不再问"怎么设计一个更好的总指挥官",而是问了一个截然不同的问题:能不能根本就不要总指挥官,让AI群体自己管理自己?
这个灵感来自一位1974年诺贝尔经济学奖得主——弗里德里希·哈耶克。哈耶克在他著名的文章《知识在社会中的运用》里提出,市场经济面对的核心难题不是"在已知信息下做最优决策",而是"如何利用分散在每个个体手中、无法被任何中央机构汇总的碎片知识"。他的答案是:价格机制。价格作为一种信号,把无数分散的信息聚合起来,让每个人无需了解全局就能做出合理决策,从而涌现出整体上的秩序与效率。
研究团队将这套逻辑搬进了AI的世界,创造了一个他们称之为"智能经济体"的系统(Economy of Minds,简称EOM)。在这个系统里,AI们不再听从统一指挥,而是像市场中的参与者一样:竞标、交易、积累财富、优胜劣汰。结果出人意料——一群能力残缺的"弱AI",在这套经济机制的驱动下,自发组织成了超越单个强大AI的集体智慧。
一、每个AI都是一个"市场参与者"
要理解这套系统,可以把它想象成一场无休止的拍卖会,拍卖的标的是"谁来做下一步动作"的权利。
在EOM中,每个AI都有三个基本属性:一个"触发条件"(决定自己在什么情况下举手参与竞争)、一套行动策略(决定自己被选中后做什么),以及一个固定的"出价"(决定自己参与竞标时愿意出多少钱)。此外,每个AI还有一个"账户",记录着它目前积累的财富。
当系统面对一个任务的某个时间节点时,所有满足触发条件的AI都会举手,说"我来!我来!",然后出价最高的那个赢得本次行动权,去执行它的策略,推动任务向前走一步。
这就是拍卖机制的运作方式——完全去中心化,没有任何一个AI知道全局情况,也没有任何一个AI在发号施令。
但光有拍卖还不够。拍卖结束后,还有一套"交易结算"规则。赢得本次行动的AI,需要把它的出价金额支付给上一步赢家;同时,如果这一步从环境中获得了实际奖励(比如正确解答了一道题),这笔奖励就归这一步的赢家所有。
这套支付规则有一个精妙之处:它制造了一种"价值向前传播"的效应。如果某个AI做出了一步好棋,让系统进入了一个有利的状态,那么下一步的竞争者会愿意出高价来争夺行动权——因为下一步很可能拿到大奖励。于是,上一步的AI就因为"创造了好局面"而收到了丰厚的回报。反过来,如果某个AI把局面搞砸了,后续竞争者会出低价甚至没人参与,上一步AI就亏损了。
这种机制在学术上被称为"桶链传递"(bucket-brigade transfer),本质上是一种不需要中央监督的信用分配系统。一步行动的价值,会通过"下家愿意出多少钱"来自动体现,并逐步向前传导。
二、"适者生存":经济选择如何塑造AI群体
拍卖机制解决了"每步谁来做"的问题,但系统还需要解决另一个问题:随着时间推移,哪些AI应该留下来,哪些应该被淘汰,以及如何产生更好的新AI?
答案依然来自经济学逻辑。每个AI都要缴纳"房租"——每隔一段时间,系统会从每个AI的账户里扣除一笔固定费用。如果一个AI的账户余额跌为负数,它就宣告"破产",被从系统中移除。
这个机制非常残酷但也非常公平:一个AI如果长期无所作为,或者每次行动都帮倒忙,它的财富就会被房租一点一点耗尽,最终消失。相反,那些能真正推动任务向好的方向发展的AI,会持续积累财富,存活下去。
存活下来的"富有"AI还会被系统当作"父代"进行繁殖——通过修改它的触发条件或行动策略,产生略有变化的"子代"AI投入系统。这个过程叫做"剥削"(exploitation),目的是放大成功经验。与此同时,对于那些破产的AI,系统也不会简单丢弃,而是分析它们失败的原因,生成经过修正的新版本重新投入运行,这叫做"探索"(exploration),目的是从失败中学习、发现新的可能性。
这种机制使得整个AI群体像一个真实的市场生态:有竞争,有淘汰,有繁殖,有进化,但没有任何一个外部力量在主导这一切——驱动一切的只是经济信号。
三、理论基础:为什么这套机制从数学上是"说得通的"
研究团队不只是做了实验,他们还为这套机制提供了严谨的理论支撑,并用数学语言证明了几个关键命题。
第一个命题关于"出价会趋向价值"。从长期来看,在某个特定场景下反复赢得竞标的AI,其出价会收敛到一个合理区间——既不会高得让自己亏本(因为亏本就会破产),也不会低到让更好的竞争者轻易挤进来。换句话说,市场选择会自动把存活的出价校准到"最优专家的真实价值"附近,误差不超过新人AI的出价扰动量。
第二个命题关于"只靠最终结果奖励就够了"。在强化学习领域,一个经典难题是"稀疏奖励"——如果只有任务完成时才有奖励,而过程中没有任何反馈,AI很难知道哪些步骤是有价值的。EOM的桶链支付机制提供了一种优雅的解决方案:即使环境只在最后给一个奖励,前面每一步的AI都能通过"下一步愿意出多少钱"来感知自己这一步是否有价值。理论证明,只要系统已经进化出了足够好的AI群体,仅凭最终结果奖励就足以维持系统的高性能,不需要设计复杂的过程奖励。
第三个命题关于"相对于集中式最优调度的遗憾量"。假设存在一个全知全能的中央调度员,每一步都能挑选出最佳AI来执行——这是理论上的性能上限。研究证明,EOM这套去中心化拍卖机制与这个假想上限之间的差距会随着时间推移以O(E??/?)的速度收缩,也就是说,运行的任务越多,系统越接近理论最优,平均遗憾量趋向于零。
四、五个战场上的实战检验
理论再漂亮,也需要真实任务的检验。研究团队选择了五个差异极大的领域来测试EOM,而且每次都刻意给EOM配备"能力残缺"的局部AI(只能访问部分工具、只有短输出预算、只负责特定角色),然后与使用完整能力的单一AI基准进行比较。
在数学推理方面,测试用的是MATH数据集——一个涵盖从初级到竞赛级难度的数学题库。EOM的AI群体初始化时使用了Llama-3.1-8B这个相对较小的模型,每个AI只负责"计划下一步"、"执行计算"或"验证结果"之一,且每次输出被限制在平均128个词以内。就是这样一群"残缺"的AI,经过经济机制的训练后,准确率从最初的15.9%飞跃到57.0%,超越了使用同款模型、拥有完整能力的单一AI基准(51.9%)。用Gemma-2-9B模型时,同样的现象复现了:从4.2%提升到45.1%,同样超过了单一AI基准的44.3%。
在金融研究方面,测试用的是Finance-Agent-Bench基准,任务是根据上市公司财务文件回答专业问题,环境提供四个工具。EOM的每个局部AI只能访问其中一个工具,但整个群体在经历30个训练任务后,准确率从初始的45.0%提升到60.0%,超越了多智能体辩论基准(50.0%)、REACT单智能体基准(45.0%)以及另一个自进化系统GEA(50.0%)。
在科学研究方面,测试使用FrontierScience-Research基准,任务是解答需要专业知识的开放式科学问题。EOM的平均准确率达到8.5%,最佳单次准确率达到20.0%,而对照系统GEA在同款模型下的平均准确率仅有1.8%,最佳单次仅5.0%——提升幅度非常显著。
在芯片加速器设计方面,任务是为24个不同规格的卷积计算核心找到最优的硬件映射方案,以最小化能量与延迟的乘积(EDP,越低越好)。EOM的平均EDP达到39.3,优于使用相同模型的单一REACT智能体(43.1),更大幅优于一个专门设计的非AI方法DOSA(80.2)。在最难啃的那几个卷积核上,EOM比DOSA分别好了37.5倍、26.3倍、17.3倍和12.0倍。
在分布式系统优化方面,任务是迭代地优化一个多云广播路由程序,最小化总数据传输成本。EOM在三次尝试中的平均总成本为673,最优单次为657,而对照系统OpenEvolve的最优成本为930——EOM在使用更少优化轮次的情况下,实现了28%的成本降低。
五、经济机制的解剖:去掉哪个零件会怎样
研究团队还做了一系列"拆零件"实验,验证每个经济机制组件的必要性。
在MATH任务上,原始系统的平均准确率为43.9%,最佳单次57.0%。当把房租调高10倍时,性能降到均值41.8%、最佳47.0%;把奖励缩小到原来的20%时,降到39.0%和44.0%;把奖励放大4倍也同样有害,降到40.9%和47.0%。这说明系统对经济参数的平衡非常敏感——奖励太小激励不足,奖励太大或房租太高则会造成AI过早破产,破坏了生态的稳定性。
在金融研究任务上,拆掉"探索"机制(不再引入修正失败AI的新版本),均值暴跌到26.0%、最佳40.0%;拆掉"剥削"机制(不再繁殖成功AI的后代),均值降到33.5%;拆掉拍卖机制(取而代之以随机选择),均值降到48.0%、最佳58.5%。而保留所有机制的完整系统,均值52.5%、最佳65.0%——均为最高。
更有说服力的对比来自分布式系统优化任务:EOM的最优成本是673,而一个使用同等数量AI但不经过市场选择进化的"最优N样本"基准,最优成本只能达到999。多AI采样本身并不能解释性能提升——必须有市场选择驱动的进化,才能真正改变游戏规则。
六、内部发生了什么:经济如何塑造AI的思维和协作方式
实验结果只是表面现象,研究团队还深入到系统内部,追踪了经济机制究竟如何一步步改变AI群体的行为模式。
在科学研究任务中,研究团队追踪了一个名为"执行者"(EXECUTER)角色的AI家族的演化轨迹。最初的执行者只是一个通用的推导模块,让它"展示中间代数过程,追踪符号和单位"。随着训练的进行,这个AI家族经历了五代进化。第一代学会了把抽象关系拆成可逐一核查的标量方程,这一改变源于一次处理宇宙微波背景辐射参数推断任务时发现的技巧。第二、三代学会了在开始代数推导之前先识别核心物理原理、检验极限情况和约束条件。第四代学会了在动手之前先数方程个数和未知数个数,发现问题是否有定解。第五代学会了利用对称性,并将最终结果代回原方程验证正确性——把原本需要外部"验证者"AI来做的事情内化到了自己的策略里。
这套进化出来的推理程序,最令人惊叹的特点是它的可迁移性。它被物理任务磨砺出来,却可以直接用于化学、药理学、核磁共振光谱学和生物学任务,因为它学到的不是某个领域的具体知识,而是一套通用的科学推理操作程序。在40个训练轮次中,成功轮次里有9/11都由这个家族的后代承担,而这些成功案例横跨了从Josephson结到α4β2 nAChR受体再到钯催化C-N键反应的广泛科学领域。
执行者策略的进化还带来了一个意想不到的宏观效果:AI群体的协作拓扑(即每次任务中各角色按什么顺序参与)也随之改变了。在训练早期,成功的任务轨迹往往需要10步、涉及全部5个角色,形成"文献→计划→执行→验证→执行→验证→计划→执行→验证→回答"这样繁复的链条,因为执行者自身还不够可靠,需要频繁借助验证者来检查错误。到了训练后期,一个关于蛋白质纯化的任务只需要3步就能完美解决:"计划→执行→回答"。这不是因为群体里的AI变少了——实际上此时群体里有14个AI,包括活着的文献查阅者和验证者——而是因为验证者在评估当前状态后判断"执行者已经足够可靠,我的介入没有额外价值",于是主动不参与竞标。拓扑结构的简化是内生的,而非被设计出来的。
在芯片设计任务中,财富轨迹图展示了另一种维度的经济动态。研究团队观察到,来自"历史者"(Historian)角色的某个子代AI,在诞生后财富迅速下降并宣告破产——说明继承来的偏见在市场压力下站不住脚。另一个案例中,一个"规划者"(Planner)家族成功繁殖出两个优质子代并持续主导竞标,而一个来自历史者的"探索型"子代最终也走向了破产。财富集中在那些反复推动EDP记录刷新的AI上,市场选择在没有任何外部标签的情况下,自动识别出了哪些AI真正有价值。
更值得关注的是,EOM在没有被告知任何芯片设计原则的情况下,在最难的那批卷积核上反复收敛到了同一种设计模式——"输出驻留"(output-stationary)数据流,把每个输出值保留在最快的片上存储里,沿输入通道维度累积计算。这是业界已知的对ResNet-50瓶颈层1×1卷积最有效的设计模式,但EOM完全是通过经济奖励自主发现的,没有人告诉它应该这样做。
七、通才会垄断市场吗?专家的秘密武器
研究团队还测试了一个有趣的场景:如果在局部专家AI之外,再加入一个拥有全部工具访问权限的"全能通才"AI,会怎样?
按照直觉,通才应该会主导市场,把专家们都挤出去。但实验结果恰恰相反。通才在任务第11-12轮附近短暂扩张,随后收缩回单个AI的规模,而专家族群——尤其是专门负责SEC财务文件检索的EDGAR组和负责网络搜索的Tavily组——反而持续扩张,到训练后期各自达到5-8个AI的规模。
为什么通才打不过专家?研究团队追踪了通才AI的提示词进化轨迹,发现了一个有趣的现象:通才的提示词越来越长、越来越谨慎,但并没有变得越来越锋利。它学会了"分解问题、覆盖每个时间段、优先选择合并总数而非分部数据、核查数值来源……"——每一条都是合理的,但每一条也都是通用的。与此同时,专家AI的提示词进化方向截然不同:它们变得越来越窄、越来越精确。EDGAR专家学会了精确识别实体、报告类型和财务年度,区分聚合数值与分部数值,核查文件日期,在最新文件内定位前瞻性预测……这是一套专门针对SEC文件检索的、反复经过失败修正的精确规则集。
在EOM的经济逻辑里,拍卖奖励的是"在当前特定状态下最有价值的局部行动"。通才的优势是覆盖面广,但它的局部精确度被稀释了。专家的触发条件、工具使用习惯和证据标准都调校到了一个极窄的子问题上,在那个子问题出现时,它的竞标价值远高于通才。过于通用反而成了劣势——在这个市场里,赢得控制权的是局部最精确的那个,而不是全局最全面的那个。
八、迁移和鲁棒性:学到的东西能用多久
EOM学到的东西有多稳定?研究团队从三个角度测试了这一点。
在MATH任务上,训练采用"从易到难"的课程顺序,从最简单的Level 1一路推进到最难的Level 5。结果显示,两个测试模型在每个难度级别上都持续提升,其中Level 1到Level 3的提升最为显著(Llama-3.1-8B最终达到55-70%,Gemma-2-9B达到45-65%)。即使是初始几乎做不对的Level 5,到训练结束时两个模型的准确率都从约10%提升到了约20%——简单问题上磨炼出来的推理子程序,真的能被重新组合用于更难的问题。
研究团队还测试了反向课程——先上最难的,再学最简单的。两种课程最终都在提升,但"先易后难"明显更高效:最终准确率约57%对47%,且"先难后易"的课程在中间很长一段时间里都停滞在40%出头。这说明局部专家确实受益于先掌握可复用的基础技能,再去面对高难度挑战。
研究团队还测试了通才AI的加入是否会破坏专家的生存空间。答案是否定的——即使有通才竞争,专家族群仍然持续繁荣,这说明去中心化的特性来自市场本身的运作逻辑,而不是靠"把通才排除在外"来人为维持的。
归根结底,这篇论文想告诉我们的是:复杂的协调不必被设计出来,它可以从简单的激励结构中涌现出来。就像真实的市场经济不需要有人告诉每个企业应该生产什么、雇多少人、定什么价格——只要竞争、交易和淘汰的基本规则存在,整体秩序就会自动形成——EOM中的AI群体也不需要有人告诉它们应该如何分工、谁负责什么阶段、何时应该验证何时应该执行。经济信号把这一切都安排好了。
这对我们理解AI的未来发展路径有一些有趣的启示。目前大多数多AI系统的设计思路是"先设计好流程,再让AI执行"。EOM的思路反过来了:先设计激励,让AI自己进化出流程。这两种思路孰优孰劣,在不同任务类型上可能有不同答案,但EOM的实验至少证明了第二种思路在多个真实场景中是可行的,且往往能产生令人意外的有效解法——比如AI自己发现的芯片设计原则,没有人教它,但它就是找到了。
当然,这套方法目前有一个明确的局限:所有进化都发生在"提示词空间"里,模型的底层权重是冻结不变的。对于那些需要模型真正学会新技能的任务,仅靠改写系统提示词能走多远,还是未知数。研究团队也坦承这一点,并将扩展到参数空间训练和多模态系统列为未来方向。
对于普通读者来说,不妨思考一个问题:在你自己工作或生活中的团队里,是靠中央指挥协调更有效,还是靠每个人清晰的激励机制自发协作更有效?EOM的故事,或许能给你一点不一样的参考角度。有兴趣深入研究的读者,可以通过arXiv编号2606.02859查阅完整论文。
Q&A
Q1:EOM中AI的"财富"和"房租"是真实存在的货币吗?
A:不是真实货币,而是系统内部的虚拟数值,用来追踪每个AI对任务成功的贡献程度。AI通过帮助任务推进来赚取财富(从下一步AI处获得支付,或直接获得环境奖励),通过无效行动或长期闲置而消耗财富(支付给上一步AI以及周期性扣除的"房租")。当财富降为负数,这个AI就被移除,这纯粹是系统内部的选择压力机制,与真实金融毫无关系。
Q2:EOM框架里的AI出价是怎么确定的,会随时间学习调整吗?
A:出价是在AI被引入系统时就固定下来的,之后不会主动学习调整。新加入的AI会自动获得一个比当前竞争者略高的出价,保证它至少有一次被系统测试的机会。存活下来的AI保持其固定出价。调整的不是出价本身,而是哪些AI存活下来——表现好的AI活下来并繁殖后代,表现差的AI破产并被替换。从长期来看,市场选择会使存活AI的出价收敛到合理的价值区间,但这是通过"淘汰定价错误的AI"而非"让单个AI学习出价"来实现的。
Q3:EOM和目前流行的AutoGen、MetaGPT等多AI框架有什么本质区别?
A:AutoGen、MetaGPT等框架依赖预先设计好的AI角色分工和消息传递协议,由人工或中央调度模块决定谁在什么时候说话做什么。EOM的根本区别在于没有这种预先设计的工作流:谁来行动完全由实时拍卖决定,哪些AI存活由经济结果决定,AI的策略如何进化由成功失败轨迹自动引导。换句话说,前者是把人类设计的流程交给AI执行,后者是给AI一套激励规则,让工作流自己从市场竞争中涌现出来。





京公网安备 11011402013531号