![]()
这项由复旦大学、微软研究院与上海交通大学联合开展的研究,于2026年5月以预印本形式发布,论文编号为arXiv:2605.23899,感兴趣的读者可通过该编号查阅完整原文。
**研究概要**
你有没有想过,一个人通过不断犯错和积累经验,最终成为某个领域的专家——这个过程其实和今天的AI智能体正在发生的事情非常相似。现在的AI不只是回答问题,它们能够自主执行任务:帮你整理电子表格、修复代码错误、在网上搜索资料、操控软件界面。这类能自主行动的AI,研究者们叫它"语言智能体"(Language Agent)。
这些智能体在完成任务的过程中,会留下大量"经历"——哪些操作成功了,哪些操作失败了,走了哪些弯路。于是,一个听起来很自然的想法诞生了:能不能把这些经历提炼成一份"技能手册",让智能体在下次做类似任务时直接参考,从而表现得更好?这份手册,研究者们称之为"技能"(Skill)。
目前已经有不少方法可以自动从AI的行为日志中提炼出这样的技能手册,而不需要人类专家手工编写,这极大地降低了成本、提高了可扩展性。然而,一个关键问题却长期被忽视:这些自动生成的技能,真的有用吗?在什么情况下有用?为什么有时候反而会让AI变得更差?
这支来自复旦大学、微软研究院与上海交通大学的研究团队,花费大量精力构建了一套系统性的评测框架,第一次从"技能是怎么产生的、怎么被提炼出来的、怎么被使用的"这三个环节全面审视了这个问题。他们的发现既让人振奋,也令人警醒——技能确实有用,但远不是万能的,背后有大量微妙的规律值得深挖。
**一、技能的一生:从经历到行动的三段旅程**
要理解这项研究,先得弄清楚AI技能是怎么"活"起来的。研究团队用一个三段式流水线来描述整个过程,这三段分别对应着技能的诞生、锻造和使用。
第一段叫做"经历生成"。这个阶段,智能体被放进一个任务环境里自由发挥,就像一个刚入职的新员工去实际操作一遍,记录下自己每一步做了什么、结果怎样。成功的操作和失败的操作都会被保留下来,形成一个"经历池"。
第二段叫做"技能提炼"。有了这堆原始经历之后,系统会请另一个AI模型(或同一个模型)来扮演"导师"的角色,把这些经历归纳总结,提炼出一份结构化的技能文档——类似一份操作说明书,告诉智能体面对这类任务时应该注意什么、避免什么、重点做什么。
第三段叫做"技能使用"。提炼好的技能被塞进智能体的"工作记忆"里,智能体在做新任务的时候可以随时参考这份说明书。研究者通过比较"有技能"和"没有技能"两种情况下智能体的表现来衡量技能的真实价值。
这套流程中有两个关键角色:一个是"提炼者"(Extractor),负责把经历变成技能;另一个是"消费者"(Target),负责用技能去完成任务。有意思的是,这两个角色可以由同一个AI模型担任,也可以由不同的模型分别担任。研究团队正是通过系统地改变这两个角色,来观察技能的效果如何变化。
**二、大规模实验:跨越五个领域、六个模型的全面考察**
为了让结论足够可靠,研究团队选择了五个完全不同类型的任务领域来做实验。这五个领域涵盖了当前AI智能体最常见的应用场景:模拟家庭环境中的物理任务(比如找到苹果、清洗杯子、把食物加热后放进冰箱,这个测试集叫ALFWorld)、操作电子表格(SpreadsheetBench)、解决真实软件代码中的漏洞(SWE-bench-Verified)、用网络搜索回答复杂问题(SEAL-0),以及多轮工具调用(BFCL-v4)。
参与实验的AI模型同样来自不同的"门派":OpenAI的GPT-5.4和GPT-5.4-mini、谷歌的Gemini-3.1-Pro和Gemini-3.1-Flash-Lite、阿里的Qwen3.5-35B和Qwen3.5-9B。六个模型全部担任"消费者"角色,其中除了Qwen3.5-9B(因为它无法可靠地遵循提炼协议),其余五个模型也同时担任"提炼者"角色。
整个实验矩阵相当庞大:五个领域乘以六个消费者乘以五个提炼者,产生了150个不同的(提炼者、消费者、领域)组合,每个组合还重复评估三次取平均。最终结果汇聚成一张详细的"成绩单",记录每种组合下智能体在有技能和没有技能时的表现差异。
研究团队还定义了两个便于分析的综合指标。"提炼效能"(Extraction Efficacy,EE)衡量的是同一个提炼者在面对不同消费者时,平均能产生多少提升——这反映的是提炼能力本身的好坏。"目标可进化性"(Target Evolvability,TE)衡量的是同一个消费者在接受不同提炼者制作的技能时,平均能获得多少提升——这反映的是消费者从技能中受益的能力。
**三、令人意外的成绩单:有用,但危险也真实存在**
整体来看,自动生成的技能是有价值的。在所有150个实验组合里,大约75%的情况下,智能体在有了技能之后表现得更好。这听起来相当不错,但剩下的25%却是货真价实的"负迁移"——智能体在有了技能之后,表现反而变差了。
这个25%的负迁移比例并不低,而且在不同领域里分布极不均匀。最"脆弱"的领域是ALFWorld(家庭物理任务),有将近47%的组合出现了负迁移。相比之下,操作电子表格和修复软件漏洞这两个领域的负迁移率只有13%,相对稳健得多。由此可见,技能的价值不是放之四海而皆准的,它的效果深受任务领域本身特性的影响。
更出人意料的是提炼者的表现规律。按照直觉,能力越强的AI,应该也能提炼出越好的技能才对。然而实验给出了完全相反的答案。以电子表格任务为例,规模最小、能力相对较弱的Gemini-3.1-Flash-Lite在提炼效能这一指标上排名第一,而基础任务表现最强的GPT-5.4反而排在最后。这种反转说明,提炼技能是一种独立于执行任务的特殊能力,两者并不挂钩。好的"师傅"未必是最强的"选手",而最强的"选手"也未必能把自己的经验总结成别人能学会的东西。
同样令人深思的是消费者端的差异。在ALFWorld领域,GPT-5.4从所有五个提炼者那里都获得了稳定的提升,综合可进化性得分达到了+4.93个百分点。但同样是在这个领域,Gemini-3.1-Flash-Lite、Qwen3.5-35B和Qwen3.5-9B的综合得分都是负数——意味着对这些模型来说,技能平均而言反而是有害的。同一套技能,有的AI吃得下,有的AI消化不了,甚至还会"消化不良"。
**四、经历的质量决定技能的价值:失败多好还是成功多好?**
既然技能是从经历中提炼出来的,那么经历本身的构成就显得至关重要。研究团队专门设计了一个实验来回答一个看似简单的问题:在用于提炼技能的经历池里,成功的案例多好,还是失败的案例多好?
实验方法很直接:固定同一个提炼者(GPT-5.4-mini),从同一批原始经历里抽取出五种不同比例的经历池,分别是100%成功、75%成功、50%成功、25%成功以及0%成功(即全部失败)。对这五种经历池分别提炼技能,然后评估各自产生的技能在电子表格、代码修复和家庭任务三个领域里的效果。
结果揭示了两个重要规律。第一个规律是:全部由失败案例组成的经历池,在所有领域里都产生了最差的技能。这说明成功的经历是技能的基础,如果只有失败案例,提炼者无法从中获得"应该怎么做"的正面引导,而只能得到一堆"不要这样做"的警告,这显然不够。换句话说,失败经历能告诉你"坑在哪",但光知道坑在哪还不够,你还得知道"路在哪"。
第二个规律更微妙:最优的成功与失败比例因领域而异。电子表格任务倾向于从成功案例越多越好,代码修复任务在成功占多数时达到峰值,而家庭任务却在失败案例占较大比例时表现最好。家庭任务的这一特性很有意思,因为在这个环境里,失败往往意味着走进了死角或者尝试了无效动作,这类失败信息对于缩小探索空间、避免重复错误具有特殊价值。不同领域的任务结构不同,失败经历所携带的信息价值也就不同。
**五、看起来好的技能,不一定真的好用**
解决了"用什么材料提炼"的问题之后,研究团队把目光转向了技能文本本身的质量问题:一份技能文档看起来写得好,是否意味着它真的能让AI表现更好?
第一个测试针对的是格式。研究团队把同一份技能内容重新改写成四种不同的格式:有序编号列表、无序符号列表、复选框清单和普通段落。直觉上,格式整齐、条理清晰的内容应该更容易被AI理解。然而,统计检验的结果显示,这四种格式在所有六个消费者模型上产生的效果差异都无法与随机波动区分开来(所有的统计p值都大于0.34)。与此形成鲜明对比的是,换一个不同的提炼者所产生的效果差异,在六分之五的消费者上都达到了统计显著性。这意味着,技能怎么排版根本无关紧要,关键在于它说了什么。
第二个测试更加戏剧性。研究团队让GPT-5.4扮演一个"评审官",给它看两份从同一个消费者经历中提炼出的技能,让它判断哪份技能更可能产生更好的效果。这个实验的用意是测试:一个语言模型凭借自身的直觉,能否分辨出真正有用的技能?
答案令人汗颜。在没有任何评估标准指引的情况下,评审官选对的概率只有46.4%,和随机猜测几乎没有差别。更糟糕的是,当研究团队只看那些两份技能真实效果差距超过5个百分点的"悬殊"对决时,评审官选对的概率跌到了15.8%——这已经是明显地在反向选择了。换句话说,在两份技能差距越大的时候,评审官越是倾向于选那份看起来更好但实际上更差的技能。技能的"颜值"和"实力"之间,存在着令人不安的背离。
研究团队从一个具体的反例里获得了启示。他们发现,在真实效果最好的技能里,往往包含这样的内容:明确指出某个具体的失败机制,并给出可执行的对策,例如"在无界面环境下,公式字符串不会被计算引擎执行,因此必须在Python中预先计算出静态数值再写入"。而那些看起来措辞严谨、逻辑清晰、实际效果却平平的技能,往往只给出泛泛的流程建议,比如"在编码前先明确任务要求"——这话没错,但毫无操作性。
**六、同一份技能,不同的AI消化能力天差地别**
在技能的消费端,研究团队设计了一个"跨模型技能移植"实验,专门考察同一份技能被不同AI使用时效果如何变化。
他们从电子表格任务里挑出了两份技能:一份是由基础表现最强的消费者(GPT-5.4)的经历提炼出的"强池技能",另一份是由基础表现最弱的消费者(Qwen3.5-9B)的经历提炼出的"弱池技能"。然后,他们把这两份技能分别注入六个不同的消费者模型,观察各自的表现变化。
强池技能表现出了"普惠性":六个消费者全部从中受益,提升幅度从Gemini-3.1-Pro的+1.8个百分点到Qwen3.5-35B的+9.5个百分点不等。相比之下,弱池技能就分化得多:有些消费者依然能从中受益,有些消费者却出现了明显的负迁移,比如GPT-5.4在使用弱池技能后反而下滑了2.0个百分点。这再次印证了前面的发现:经历池的质量,直接决定了最终技能的广谱适用性。
研究团队还深入分析了技能对智能体行为的实际影响,选取了GPT-5.4(受益明显)和Qwen3.5-9B(部分情况下受损)这两个对比鲜明的案例进行详细观察。
在决策行为上,技能的注入改变了智能体在任务开始时的整体策略选择。对GPT-5.4来说,技能引导它从"写公式作为答案"这种策略转向"用Python计算出数值再写入"这种更可靠的策略——这是一种策略纠正,而非能力扩展。对Qwen3.5-9B而言,技能也推动了策略转变,让它尝试更原生的工作表操作方式,但这种更复杂的操作方式反而增加了它出错的概率,得不偿失。
在探索行为上,两个模型在接受技能后都更频繁地在正式行动之前先检查工作表的结构、表头和数据范围。但对Qwen3.5-9B来说,这种额外的探索并不总能转化为更好的执行,有时反而让推理链条变得更长更复杂,最终仍然错误收场。
在工具使用行为上,技能的影响不是让模型去"调用技能工具",而是悄无声息地改变了它们使用现有工具的方式。GPT-5.4变得更倾向于用有边界保护的写入操作和基于锚点的单元格定位;Qwen3.5-9B则从数据框式的整体重写转向了更精细的单元格级别操作,虽然在结构保真度上有所提升,但执行的稳定性却下降了。
**七、从诊断到改进:用研究发现来指导技能提炼**
发现了问题之后,研究团队做了一件更有价值的事:他们试图把这些发现转化成一套可以直接使用的改进方案。
出发点是一个简单的对比:如果直接问AI"评判一个好技能应该看哪些维度",它会给出什么答案?结果AI列出了七个维度:清晰度、完整性、简洁性、逻辑结构、格式质量、语气中立性和普遍适用性。这七个维度听起来都很合理,但研究团队把它叫做"表面合理性评分标准"——因为这些维度关注的是文本的外观,而非实际效果。
研究团队接下来用一套自动化流程来发现那些真正与效果相关的维度。他们从实验矩阵中挑出了17对"效果差距大"的技能对——也就是用同样的消费者经历、但由不同提炼者产生、效果相差悬殊的两份技能。然后让GPT-5.4逐对分析:效果好的那份在哪些方面胜过效果差的那份?收集完所有的对比分析后,再把这些差异汇总、合并,最终提炼出七个候选维度,称为"原始评分标准"。
这七个候选维度分别是:失败机制编码(说清楚为什么会失败,而不只是说会失败)、可操作的具体性(步骤级别的操作指南,明确引用领域内的对象和工具)、环境与工具语义(编码工具和对象的实际行为方式)、策略切换条件(何时应该改变方法)、边界条件覆盖(处理特殊情况)、高风险操作黑名单(明确禁止某些有害操作模式)、以及基准对齐优先级(聚焦评估实际衡量的内容)。
为了验证哪些维度真正有预测力,研究团队对每个维度单独测试:用这个维度作为判断依据,在那151对高差距技能对里,效果更好的那份技能是否确实在这个维度上得分更高?最终,失败机制编码(准确率65.5%)、可操作的具体性(66.0%)和高风险操作黑名单(64.6%)三个维度脱颖而出,它们对技能效果的预测力显著高于随机水平。这三个维度组合成了"验证后的评分标准"。
把这套评分标准重新送给评审官,整体准确率从46.4%跳升到了73.8%。更值得注意的是,那些最难判断的高差距技能对(效果差距超过5个百分点),在无指引时评审官只有15.8%的概率选对,在有了三维度标准之后,选对的概率大幅反转,超过了一半。
随后,研究团队把这套评分标准变成了一段简短的"元技能"(Meta-Skill)——一段描述好技能应该具备哪些特征的指导文字,在提炼者开始工作之前就塞进它的提示词里,相当于给提炼者预先灌输了一套质量意识。
最终效果相当具有说服力。用七维表面合理性标准作为指引时,九个评估格(三个领域乘以三个消费者)里有六个出现了性能下降,平均降低了0.59个百分点——这说明错误的质量标准不只是没用,还会起反作用。而用三维验证后标准作为元技能指引时,九个格全部出现了性能提升,平均提升了1.55个百分点,在电子表格任务上的提升尤其明显,从原始技能的效果再提高了2.3到3.7个百分点。这套元技能不需要修改任何底层流程,只需要在提炼者的系统提示词里加一段话,就能稳定地改善技能质量。
**说到底,这项研究告诉我们什么?**
归根结底,这支研究团队做的事情,是给"AI智能体学习经验"这件事做了一次彻底的体检。他们发现,技能这个机制总体上是有价值的,但绝非万灵药:四分之一的情况下会帮倒忙,而且这种风险因领域、因模型的不同而大相径庭。
更重要的是,三个阶段的问题各不相同。在经历生成阶段,需要在成功案例和失败案例之间找到适合该领域的平衡点,而不是盲目堆砌某一种;在技能提炼阶段,能力强的模型未必是好的提炼者,而且一份技能看起来有没有道理,和它用起来是否有效,完全是两回事;在技能使用阶段,不同的消费者消化技能的能力差距惊人,有的模型能把技能转化为切实的策略提升,有的模型却会被技能误导,走向更复杂但更不稳定的操作路径。
这对任何想要为自己的AI产品构建技能库的人都有直接的参考价值。首先,选择提炼者不能简单地选"最强的模型",而要考虑它与消费者、与任务领域的匹配程度。其次,技能提炼前的经历池构成值得认真设计,而不是简单地堆越多越好。最重要的是,用来判断技能质量的标准,必须来自真实的效果数据,而不是直觉或审美——一份"看起来写得好"的技能,很可能正是需要淘汰的那份。
对于不在AI研究领域的普通读者来说,这个故事或许也有一丝启发:经验积累和学习效果之间,本来就不是简单的线性关系。把别人的经验直接照搬过来,未必适合自己;而那些条理清晰、措辞得体的"操作手册",也未必比一份写着"上次就是因为X而失败、下次要做Y"的潦草笔记更有用。真正有价值的经验,在于它能不能帮你避开那些你最可能踩的坑。
**Q&A**
Q1:AI技能提炼中,为什么让"能力最强的AI"负责提炼技能反而效果不好?
A:这项研究的实验结果显示,提炼技能的能力和执行任务的能力是两种不同的特质,两者并不挂钩。能力强的模型擅长完成任务,但未必擅长把自己的经历转化为别的模型能理解并使用的指导。提炼技能需要的是准确识别经历中真正有价值的操作规律,并以对消费者有用的方式表达出来,这和模型的整体能力大小没有直接关系。
Q2:为什么AI智能体在看了技能手册后,有时候反而表现变差了?
A:实验表明,技能消费的效果因模型而异。技能注入不是给模型添加新工具,而是改变它的默认决策策略。对某些模型来说,这种改变会引导它采取更可靠的方法;对另一些模型来说,技能里描述的更复杂操作方式超出了它稳定执行的能力范围,反而导致更多错误。简单来说,不是所有模型都能消化同一份技能,消化能力本身就是因模型而不同的特质。
Q3:研究发现的"元技能"具体是什么,怎么使用?
A:元技能是一段描述好技能应该具备哪些特征的指导文字,它基于三个真正与实际效果相关的维度:清楚说明为什么会失败的具体机制、提供可执行的操作步骤而非泛泛建议、以及明确列出哪些有害操作绝对要避免。使用方式非常简单,只需要在AI提炼者开始工作之前,把这段描述加入它的系统提示词里即可,不需要修改任何底层流程,就能稳定提升最终技能的质量。





京公网安备 11011402013531号