普林斯顿大学研发AI"调度员"：让大模型同时学多件事不再顾此失彼

IP属地中国·北京 科技行者 时间：2026-06-17 18:31:21

这项由上海交通大学与普林斯顿大学联合完成的研究，于2026年6月以预印本形式发布，编号为arXiv:2606.11182，感兴趣的读者可通过该编号查阅完整论文。
**当AI助手试图同时学会所有事情时，会发生什么？**
假设你雇了一位私人助理，第一天你让他学着帮你处理法律文书，第二天又让他去学炒股分析，第三天再去学写代码，第四天还得懂医学诊断。没过多久，你会发现他越学越乱——学新的东西时，把之前学的内容忘得七七八八，或者把不同领域的经验混在一起，做出各种离谱的判断。这个令人头疼的现象，在人工智能领域同样存在，而且可以说是当前AI应用落地时最棘手的障碍之一。
这篇论文提出了一个名为Eevee（读作"依依"，正是那只经典的多形态精灵宝可梦）的框架，专门来解决这个问题。这个名字取得颇有意味——就像那只可以进化成多种形态的小精灵，Eevee框架也能根据不同任务"变形"，灵活应对来自各个领域的挑战。研究团队来自上海交通大学和普林斯顿大学，核心贡献者在普林斯顿AI实验室完成了这项工作。
**一、问题的根源：一个提示词打天下行不通**
在正式讲清楚Eevee是什么之前，需要先理解它在解决什么问题。现代大语言模型，比如大家熟悉的各类AI对话助手，在部署上线之后，研究人员还可以通过调整"提示词"（可以理解为给AI的一段说明书或者使用指南）来让它的表现越来越好。这个过程不需要重新训练整个模型，只是在每次提问之前，先附加一段精心设计的说明，告诉AI应该用什么方式思考问题、给出什么格式的答案。这种技术被称为"测试时提示词学习"，它像是在不更换发动机的情况下，给汽车升级了操作手册。
这种技术在只针对单一任务时效果很好。比如，专门教AI做数学题，或者专门教AI写代码，都能通过不断优化提示词取得显著进步。然而，现实世界中的AI助手不可能只干一件事。用户一会儿问医学问题，一会儿让它写程序，一会儿又需要它分析金融数据。这就要求同一套提示词能同时适应多个截然不同的任务领域。
问题恰恰出在这里。当AI同时接收来自不同领域的训练信号时，为了适应某个领域做出的调整，往往会干扰甚至破坏对另一个领域的适应。研究团队称这种现象为"跨数据集干扰"——就像那位什么都想学的私人助理，学新东西的代价是忘掉旧东西。
论文里有一组对比数据非常直观。研究团队设计了一个渐进式实验：先让AI学第一个任务（高中到研究生级别的科学问答），然后加入第二个任务（金融公式计算），再加第三个任务（定理解题），最后加第四个任务（编程）。随着任务增加，主流方法GEPA和ACE的总体表现分数急剧下滑——加入两个任务后，GEPA的综合改善值就跌到了-31.6分，意味着不但没有进步，反而还不如什么都不学；到四个任务时，GEPA和ACE都深陷负分区间，分别停在-15.36和-18.58。与此同时，Eevee在整个过程中始终保持正向增长，最终以+41.53分收尾。这个差距，用"天壤之别"来描述毫不夸张。
**二、核心思路：一个调度员，多位专才**
Eevee的设计思路用一句话来概括就是：与其培训一个什么都懂但什么都不精的全能选手，不如培养一批各有专长的专才，再配备一个聪明的调度员。
具体来说，Eevee维护着一组专用提示词（论文中称为"提示词池"），每个提示词都擅长处理某一类任务。同时，系统中还有一个"路由器"，负责判断每道进来的问题属于哪种类型，然后把它分配给最合适的那个提示词来处理。
这个设计的优雅之处在于，当AI在学习做代码题时积累的经验，只会影响专门负责代码的提示词，不会污染负责科学问答或金融计算的提示词。各司其职，互不干扰。
打一个生活中的比方：这就像一家大型律师事务所的运作方式。有专门做刑事案件的律师，有专门做商业合同的律师，有专门处理知识产权的律师。当客户走进大门，前台接待（也就是"路由器"）先判断客户的需求，然后把他带到最合适的律师那里。这样每位律师可以专注深耕自己的领域，而不是要求所有人样样精通。
然而，设计这个调度员本身就是一件难事。一个设计得太死板的调度员，遇到边界模糊的问题就会手足无措；一个不稳定的调度员，会让各位专才的训练乱成一锅粥。更棘手的是，调度员和专才之间存在"先有鸡还是先有蛋"的依赖关系：调度员的好坏取决于专才的水平（只有专才之间的能力差异足够明显，调度员才能做出有意义的分配），而专才的训练质量又取决于调度员（只有被分配到正确任务的训练样本，专才才能朝正确方向进步）。
这个相互依赖的难题，正是Eevee最核心的技术贡献所在。
**三、联合进化：调度员与专才一起成长**
Eevee解决"先有鸡还是先有蛋"问题的方案，叫做"路由器-提示词协同进化"。与其先训练好调度员再去训练专才，或者反过来先把专才培训好再设计调度员，Eevee让两者在交替迭代中相互促进、共同成长。
整个训练过程被分为两类交替进行的阶段：调度员进化阶段和专才进化阶段。在调度员进化阶段，各位专才保持不动，系统专注于优化调度员的分类判断能力；在专才进化阶段，调度员保持不动，每位专才在被分配给自己的训练数据上磨练自身的专业能力。如此循环往复，每一轮结束后调度员变得更聪明，专才变得更专业，两者的进步相辅相成。
在调度员进化阶段，系统不会随机挑选训练题目来评估调度员的好坏。它只会选那些"至少有一位专才能答对"的题目——因为只有这样，如果某位专才答错了，才能合理地认为是调度员的分配失误，而不是那道题本身太难。这个细节设计避免了把专才能力的不足错误归咎于调度员。
评估一位候选调度员的好坏，Eevee综合考察三个维度：一是下游准确率，也就是被分配到各专才手中的题目最终答对了多少；二是一致性，衡量调度员的分类是否把相似的题目归到一起、把不同类型的题目分开；三是均衡性，确保每位专才都有足够的任务可做，不会出现某个专才被闲置的情况。随着训练的推进，评估中准确率的权重会逐渐上升，而一致性和均衡性的权重则慢慢降低——这背后的逻辑是：早期需要保持多样性以探索更广的可能性空间，后期则需要锁定在真正有效的方案上。
每当系统产生一个候选调度员，还会进一步触发一轮"反思"：系统分析那些"被分配的专才答错但换一位专才能答对"的案例，尝试总结出更好的分类规则。这就好像律师事务所的前台接待在每次分配失误后，都认真复盘并更新自己的判断标准。
在专才进化阶段，机制类似但更加简洁。每位专才的提示词也会经历"变异"（产生新的候选提示词）和"反思"（从答错的案例中总结改进方向）两个步骤。优秀的新提示词才能被保留——判定标准是它在验证集上的表现必须超过"空白提示词"（即不给AI任何额外指示时的表现），且必须进入帕累托前沿池（即与已有的优秀提示词相比各有千秋，能在不同类型的题目上互补覆盖）。帕累托前沿这个概念来自经济学，简单说就是：只有当一个方案"在至少某些方面比其他方案更好，且没有方面更差"时，才有资格留下来。这样的机制确保了保留的提示词集合既多样又高效。
**四、三阶段培训：从零到专家的成长路径**
理解了协同进化的机制，还需要知道整个系统是如何从零开始启动的。Eevee的训练被设计为三个明确的阶段，就像培训一批新员工的完整流程。
第一阶段叫做"初始化"。这个阶段的任务是，在还没有调度员的情况下，先用所有混合任务的训练数据，为每位候选专才积累一批提示词，从中筛选出覆盖不同题型的K个优质提示词，构成初始专才团队。筛选方法采用贪心覆盖算法：依次挑选每次能覆盖最多"之前方案没有覆盖到的题目"的提示词，直到选满K个为止。这样选出来的专才团队，能够在不同类型的题目上各显神通，为后续调度员的学习提供有意义的区分依据。
第二阶段叫做"探索"。此时系统进入调度员和专才的交替进化，但每个阶段的训练预算都比较轻量。频繁切换而不是深度优化，是这个阶段的设计逻辑——因为调度员还不稳定时，为某个调度员深度优化专才是在浪费资源；而用还不成熟的专才来深度优化调度员，则容易让调度员陷入局部最优。轻量级的反复交替，是在不确定性中高效探索的最佳策略。
第三阶段叫做"收敛"。当探索阶段的交替迭代让调度员趋于稳定后，系统将调度员固定下来，给每位专才分配更大的训练预算，让他们在稳定的分工格局下精益求精。这就像公司组织架构稳定之后，每个部门终于可以心无旁骛地专注于提升自身业务能力。
**五、实验数据：成绩单上的惊人数字**
研究团队在四个来自不同领域的基准测试上验证了Eevee的效果，包括GPQA Diamond（涵盖生物、物理、化学等研究生级别的科学问答）、Formula（基于金融公式的计算题）、TheoremQA（涉及数学定理的推理题）和HumanEval（编程题）。实验使用了两个主流大语言模型：Qwen3-4B-Instruct和DeepSeek-V3.2。
以Qwen3-4B-Instruct为基础模型，在没有任何提示词优化的情况下，四个测试的平均分是41.37分。引入GEPA方法后，平均分反而下滑到37.73分；ACE方法下降更多，只有34.92分。而Eevee将平均分提升到了51.75分，比基线高出10.38分。具体来看，编程题的分数从49.46分飞跃到72.63分，金融公式题从45.22提升到54.55，定理推理题从14.79提升到25.27。唯一有小幅下滑的是科学问答题，从56.00降至54.55——这个下滑是有原因的，后文会详细解释。
换成更大的DeepSeek-V3.2模型，效果更加显著。基线平均分39.75，Eevee提升到64.07，增幅高达24.32分。其中编程题从42.82飞升至92.82，接近满分；金融公式题从30.00提升到60.55，整整翻倍；定理推理题从21.21提升到39.84。
三次独立运行的结果稳定性也相当好。Qwen3-4B-Instruct下，Eevee的平均分标准差仅为1.62分；DeepSeek-V3.2下更低，只有1.08分。相比之下，GEPA在DeepSeek-V3.2上的标准差高达4.48分，波动明显更大。
**六、为什么科学问答反而下降了——一个耐人寻味的发现**
研究团队专门做了一组诊断性实验，深入分析了提示词学习究竟"学到了什么"。他们比较了在六次完整实验前后，模型在测试题上的答题变化情况，统计了题目答对变错（简称"R→W"翻转）和答错变对（简称"W→R"翻转）的次数。
结论非常清晰地呈现出一种与任务性质高度相关的规律。编程题（HumanEval）共有193道题从错变对，只有16道从对变错；金融公式题（Formula）从错变对268道，从对变错21道；定理推理题（TheoremQA）从错变对632道，从对变错166道。而科学问答题（GPQA Diamond）却是一个例外：从对变错有89道，从错变对只有55道，得不偿失。
这个反差揭示了一个深刻的规律：提示词学习在"有章可循"的任务上大放异彩，在"需要独特知识积累"的任务上却可能帮倒忙。对于编程题，可以总结出通用规则，比如"不要输出多余的注释"、"确保函数体完整可执行"；对于金融公式题，可以总结出"注意单位换算"、"只输出数字不加符号"等规则。这些规则一旦被提炼出来，就能像操作手册一样稳定地提升答题质量。
然而，科学问答题的本质是"你知不知道这个事实"。提示词学习可以让AI的推理过程更加系统化，但它无法凭空给AI注入原本不知道的物理常数或生物分类知识。更糟糕的是，学来的推理模板有时还会干扰正确的直觉判断。论文中举了一个具体例子：一道关于系外行星密度的题目，目标是选出密度最大的类地行星。没有额外提示词时，模型凭借"大质量岩石行星因重力自压缩会更致密"这一天体物理直觉，正确选出了答案。但加入了强化系统化推理的提示词后，模型用"密度等于质量除以体积"开始逐步计算，并错误地假设"相同成分意味着相同密度"，最终选错了答案——推理更周密了，结果却错了，因为用来推理的前提本身就不对。
这个发现对AI应用有实际指导意义：提示词学习是磨炼解题程序的利器，但它补不了知识的空白。
**七、消融实验：每个零件都有用**
为了验证Eevee各个核心组件的必要性，研究团队做了一组拆解实验，逐一移除不同的关键设计，看看成绩如何变化。
完整版Eevee在Qwen3-4B-Instruct上的平均分是51.75分。如果把"可学习的调度员"换成一个简单的默认路由（不做任何分类，随机或者按固定规则分配），分数降到43.58分，下降了8.17分。如果把调度员换成一次性用GPT-5.4写好、然后固定不变的手写调度员（不再学习更新），分数更低，只有37.18分，甚至低于什么都不学的基线41.37分——这说明一个设计不当的固定分类方案，不但没有帮助，反而是一种拖累。如果把协同进化去掉，改为先独立训练完调度员、再独立训练专才的两阶段串行方案，分数是42.88分，也远低于完整版的51.75分。这些数据清楚地表明：可学习的调度员、以及调度员与专才之间的协同进化，缺一不可，共同构成了Eevee效果的基石。
**八、单一任务与多任务：灵活切换的调度员不会拖累专心致志的专才**
一个合理的疑虑是：引入调度员和多专才架构，会不会在只需要做一件事时反而比原本的单一提示词学习更慢、更差？
实验给出了令人放心的答案。在只针对单个基准测试的学习场景下，Eevee的表现与GEPA和ACE基本持平，在编程题和金融公式题上还略有领先。这说明额外的调度架构并没有带来显著的额外负担。在单任务场景下，调度员会把几乎所有题目分配给同一组提示词，退化为接近单专才的工作模式，因此不会有明显损耗。
随着任务种类增加，两者的差距才开始凸显。正如前文提到的，在四个任务全部加入后，Eevee的综合保留改善值稳定在+41.53，而竞争方法已经沦陷在深度负分区间。多任务场景正是Eevee的主战场，也是它被设计出来的核心动机所在。
**九、跨模型与跨任务的迁移：学到的经验是否普适？**
研究团队还测试了一个更大胆的问题：用一个模型学出来的提示词，能不能直接用在另一个完全不同的模型上？答案是肯定的，而且效果相当好。
将Qwen3-4B-Instruct上学出的提示词直接搬到DeepSeek-V3.2上使用，DeepSeek的平均分从39.75提升到54.10，增幅14.35分。其中编程题提升34.22分，金融公式题提升12.28分，定理推理题提升11.68分。虽然这个成绩略低于DeepSeek直接自己学习的64.07分，但考虑到完全没有针对DeepSeek做任何专项训练，这个迁移效果已经相当可观。这意味着提示词中学到的任务规则具有一定普适性，不完全依赖于特定模型的内部机制。
跨任务迁移方面，研究团队将在四个核心基准上学到的提示词，用于测试两个从未出现过的任务：MBPP（另一个编程测试）和MMLU-Pro（覆盖更广泛知识领域的综合问答）。在MBPP上，Eevee将分数从69.29提升到70.42，而GEPA和ACE分别降到68.20和67.47。在MMLU-Pro上，三个方法都有小幅下滑，Eevee下降1.82分，略多于ACE的1.42分但少于GEPA的1.89分。这个结果与前面发现的规律吻合：对于与训练任务性质相似的编程类题目，经验可以迁移；对于知识密集型的宽泛问答，提示词迁移的帮助有限，甚至可能带来轻微干扰。
**十、花销对比：用最少的钱，办最多的事**
在实际部署AI系统时，每次调用模型都需要花费计算资源（以"token使用量"衡量，可以理解为AI思考和回答所消耗的字数）。研究团队统计了在测试阶段，每道题平均需要消耗多少token。
Eevee每道题平均用4320个token，其中输入3000个、输出1320个。GEPA每道题平均用3470个token，比Eevee少，因为它没有调度分类的额外步骤。而ACE每道题平均高达21300个token，是Eevee的近五倍。ACE的高消耗来自它的设计方式——它把积累的经验以追加条目的形式写入越来越长的"操作手册"，随着任务增多手册越来越长，每次调用都要把整本手册塞进输入。Eevee只需要在每道题前加上对应专才的提示词（通常较短），以及调度员的分类判断，额外开销很有限。
换句话说，Eevee在取得最佳综合成绩的同时，花费大约只有ACE的五分之一，和GEPA处于同一数量级。这种"高性价比"特性，对于真实商业部署来说非常重要。
**十一、超参数稳定性：结果不是调参调出来的**
学术界有一个常见质疑：一个方法的好成绩，是否是靠精心调整超参数"调"出来的，换了参数就会崩？为了回应这一疑虑，研究团队测试了八种不同的超参数配置，涵盖了调度员评分的退火策略、一致性与均衡性的权重比例、提示词搜索的预算与批次大小等多个维度。
八种配置下的平均分分布在45.05到50.97之间，跨度5.92分，样本标准差1.73分。更重要的是，所有八种配置都在最终平均分上超越了什么都不学的基线，没有任何一种配置出现"崩塌"的情况。这表明Eevee的整体框架具有稳健性，其优势不依赖于某一组特定的超参数设置。
说到底，Eevee解决了一个AI部署领域长期存在的现实痛点：当需要AI同时处理多种不同类型的任务时，如何防止"学了新的忘了旧的"这一恶性循环。它的答案是用一个聪明的调度员加上一批专业的专才，而且调度员和专才必须一起成长，而非先后分开培养。这个思路看似简单，但在工程实现上有相当多值得借鉴的细节。
当然，这项研究也诚实地点出了自身的局限：由于搜索过程带有随机性，每次运行得到的调度员和提示词文本可能不完全一样，无法保证逐字复现；整个系统仍然依赖真实的答案标签来提供学习信号，还不能在完全没有正确答案的场景下自主运转；如果用来训练的样本数据噪声很大或者与实际应用场景存在明显差异，学出来的提示词也可能适得其反。这些局限划定了Eevee当前阶段的适用边界，也指出了后续研究值得继续深入的方向。
归根结底，这篇论文带给我们一个有趣的思考：也许通往"样样精通"的路，不是让一个人（或一个AI）死命学所有东西，而是建立一套好的分工协作机制，让各有专长的成员在一个聪明调度者的统筹下各司其职，共同应对多样化的挑战。有兴趣深入研究细节的读者，可以通过arXiv编号2606.11182获取完整论文。
Q&A
Q1：Eevee框架中的"路由器"是什么，有什么用？
A：路由器相当于一个智能调度员，负责判断每道进来的问题属于哪种类型，然后把它分配给最合适的专用提示词来处理。比如编程题分配给擅长代码的提示词，金融计算题分配给擅长数字运算的提示词。这样做的好处是，不同任务的学习互不干扰，避免了"学了新知识忘了旧知识"的问题。路由器本身也会不断学习优化，通过分析分配失误的案例来改进分类判断能力。
Q2：Eevee在科学问答题上为什么会下降？
A：科学问答题（GPQA Diamond）的核心是"你是否掌握特定的专业知识"，而提示词学习擅长的是总结通用规则和解题程序，并不能凭空给模型补充它原本不知道的物理常数或生物事实。更棘手的是，学来的强化推理模板有时反而会干扰正确的直觉判断，让模型用错误的前提做出看似严谨却答错的推断。这说明提示词学习对"知识密集型"任务的帮助有限。
Q3：Eevee和GEPA、ACE相比，在token消耗方面有什么区别？
A：Eevee每道题平均消耗约4320个token，与GEPA的3470个token相近。而ACE每道题高达21300个token，是Eevee的将近五倍。ACE消耗高的原因是它把经验以追加条目的方式写入越来越长的操作手册，随任务增多手册越来越长，每次调用都要把整本手册输入。Eevee只需加上简短的专用提示词和调度分类，额外开销很小，在取得最佳综合成绩的同时，成本与GEPA处于同一水平。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

vivo X500首发索尼全新传感器：1/1.28英寸超大底+LOFIC技术

南大移动团队提出TNT，破解「假装不思考」骗奖励

电厂 | 拼多多去雄安做什么？

2026世界人工智能大会30天后上海开幕，300款AI产品全球首发

SpaceX收购Cursor，DeepSeek完成约510亿元首轮融资，OpenAI财报显示2025年亏损385亿美元

从红薯粉到读书声拼多多“免费送货入村”让乡村生活热闹起来

全站最新

vivo X500首发索尼全新传感器：1/1.28英寸超大底+LOFIC技术

南大移动团队提出TNT，破解「假装不思考」骗奖励

电厂 | 拼多多去雄安做什么？

2026世界人工智能大会30天后上海开幕，300款AI产品全球首发

热门推荐

「组织更新」正在成为大厂AI业务的核心挑战

vivo X500首发索尼全新传感器：1/1.28英寸超大底+LOFIC技术

南大移动团队提出TNT，破解「假装不思考」骗奖励

电厂 | 拼多多去雄安做什么？

2026世界人工智能大会30天后上海开幕，300款AI产品全球首发

SpaceX收购Cursor，DeepSeek完成约510亿元首轮融资，OpenAI财报显示2025年亏损385亿美元

从红薯粉到读书声拼多多“免费送货入村”让乡村生活热闹起来

华为、美的、优必选同台背后：广东竞逐“新型机电一体化”赛道

长三角聚劲科创大赛·神经科技专赛在沪举行

复旦“祖泉研究院”，如何让“好论文”变成“好产品”

大空头想空SpaceX被劝退：期权太贵，3万亿估值太离谱

XREAL发布空间计算眼镜XREAL AURA，定于秋季上市

受益于算力需求，浪潮计算机预计AI服务器规模今年将大幅提升

英国监管机构出台谷歌(GOOGL.US)搜索新规意在促进市场竞争

理想、小鹏辅助驾驶升级直接对标特斯拉FSD V14