米拉-魁北克AI研究所教会小模型"聪明干活"

IP属地中国·北京 科技行者 时间：2026-04-18 04:31:31

这项由蒙特利尔学习算法研究所（Mila – Quebec AI Institute）与麦吉尔大学联合开展的研究，以预印本形式发布于2026年4月，论文编号为arXiv:2604.07776。有兴趣深入了解的读者可通过该编号在arXiv上查阅完整原文。
**研究概要：一个"以少胜多"的故事**
每天有数以亿计的人需要在网页上完成各种任务：填写表格、查询数据库、管理在线文件、浏览电商平台……这些事情看似简单，却需要人花费大量时间。于是，让AI替人在浏览器里"干活"的想法应运而生。这类能自主操作网页的AI，被研究者称为"网页智能体"（Web Agent）。
问题在于，真正能胜任复杂网页任务的AI，目前几乎都是需要通过付费API才能使用的"顶级大模型"——比如GPT-4o、Claude 3.5 Sonnet等。这些模型不仅价格昂贵，还需要把用户数据发送到第三方服务器，无法在本地部署。对于希望保护数据隐私、降低运营成本的企业或个人来说，这是一道绕不过的槛。
相比之下，参数量较小的开源模型（比如90亿参数的小模型）虽然可以在自己的服务器甚至消费级显卡上运行，但在网页任务上的表现比大模型差了整整22个百分点以上。这个差距，就好像让一位刚入职的新员工独立处理原本需要资深专家才能应对的复杂业务。
蒙特利尔的研究团队提出了一个简洁而有效的解法：既然大模型那么厉害，何不让它来"手把手带徒弟"，把自己的经验压缩传授给小模型？这种方法在AI领域被称为"知识蒸馏"（Knowledge Distillation）。但关键不在于"让大模型多教"，而在于"怎么教才最有效"。
研究团队设计了一套名为**AGENT-AS-ANNOTATORS**（"智能体即标注员"）的框架，模仿人类为AI评测基准创建训练数据时的分工方式，系统化地生成高质量的训练轨迹。最终结果令人刮目相看：一个只有90亿参数的小模型，在主流网页任务评测基准WebArena上达到了41.5%的成功率，不仅超越了付费大模型GPT-4o（31.5%）和Claude 3.5 Sonnet（36.0%），还几乎是此前同类最佳开源小模型成绩（21.7%）的两倍。
**一、为什么"让大模型当老师"不是新鲜事，难点在哪里**
在AI领域，用能力更强的大模型来训练小模型的想法由来已久。但正如现实中"好老师不一定能带出好学生"，这条路上有几个关键难题。
首先，训练数据的质量比数量更重要。以往很多研究倾向于收集海量数据——比如有研究从15万个网站上爬取了大规模轨迹数据。但数据多不代表数据好。就像用大量粗制滥造的练习题来备考，不如用少量精挑细选的真题来得有效。
其次，已有的几种方法虽然各有长处，但设计逻辑差异很大，很难直接比较谁更好。有的方法是先让AI自由探索网页，再事后给行为贴标签（这叫"追溯式"任务生成）；有的方法是先设计好任务再让AI去执行（这叫"预设式"任务生成）。这些设计背后的逻辑是否真的重要？各个环节分别贡献了多少？没有人系统性地回答过这些问题。
正是在这样的背景下，研究团队希望做两件事：第一，建立一套统一的描述框架，把现有方法都纳入同一个坐标系进行比较；第二，在这个框架下实现一套完整的最优方案，看看极限在哪里。
**二、人类是怎么创建网页AI的评测数据集的，为什么这很重要**
要理解这套框架的设计逻辑，需要先了解人类研究者是怎么为网页智能体创建评测数据的。
以目前最权威的评测基准WebArena为例，人类标注员在创建它时，扮演了三种截然不同的角色。第一种是**任务设计师**：这个人负责探索网页环境，站在某种用户视角上，设计出有意义的任务，并写明"什么叫做完成了这个任务"的评判标准。第二种是**执行者（标注员）**：他接到任务描述，不知道任何背景细节，直接上手在网页上操作，一步一步留下完整的操作记录。第三种是**督导员**：他回顾执行者的操作记录，核实任务是否真的完成了。
这三个角色分工明确、相互制衡：任务设计师保证任务有意义且有可验证的标准；执行者保证操作轨迹真实可信；督导员保证训练数据的质量。
研究团队发现，现有的AI方法其实都在模仿这套流程，只是各自选择了不同的实现方式，缺了某些环节，或者用不同的名字称呼同样的东西。于是，他们提出把这三个角色都对应地替换成AI模块，形成一个完整的、可系统比较的框架——这就是AGENT-AS-ANNOTATORS。
**三、AGENT-AS-ANNOTATORS框架：一套完整的"AI带徒弟"流水线**
在AGENT-AS-ANNOTATORS框架中，整个训练数据生成过程分为两个阶段，就像一个剧本的创作与排演。
第一阶段是**任务合成**，对应人类流程中"任务设计师"的工作。这个阶段有两个AI模块协同工作。
第一个模块叫做**人格生成器（Persona Generator）**。它的作用是生成多样化的"虚拟用户角色"，每个角色都有自己的职业背景、专业技能和个人兴趣。研究团队为六个网页环境共生成了250个不同角色，包括像"擅长Python和机器学习的数据科学家爱丽丝"、"专注平面设计和排版的资深设计师利亚姆"、"从事生物信息学研究的医学研究员法蒂玛"等各色人物。
为什么需要这个步骤？因为同一个网站，不同背景的人使用的方式完全不同。数据科学家在GitLab代码平台上会去创建机器学习项目的仓库；平面设计师则会去上传设计素材文件。如果没有角色多样性，生成的任务就会集中在少数几类常见操作上，训练出来的模型就会有"盲区"。
第二个模块叫做**任务生成器（Task Generator）**。它拿到一个角色描述，然后扮演这个角色去实际操作网页——点击、翻页、查看内容——并把整个探索过程记录下来。基于这些真实的探索记录，它再生成具体的任务描述，以及对应的"评判提示（Hints）"。这个"评判提示"非常关键，它描述的是"当任务完成时，网页上应该出现什么状态"，比如"用户的评论应该出现在该帖子的评论区"，或者"代码仓库中应该存在一个名为X的新文件"。
这个设计有一个重要好处：生成的任务是**基于真实环境状态的**。AI不会凭空发明不存在的用户名或产品，因为它是真实浏览过网页、看到了什么才说什么。
第二阶段是**轨迹收集与过滤**，对应"执行者"和"督导员"两个角色。
**执行智能体（Agent）**接到的只有任务描述，没有任何探索记录、评判提示或角色信息。它在一个全新重置的网页环境里从头操作，一步一步把自己的行为记录下来。这种"信息隔离"设计非常重要：它确保生成的操作轨迹反映的是AI真正解决任务的过程，而不是作弊——不是靠记住探索时看到的路径走捷径。
当执行智能体完成操作后，**裁判模块（Judge）**登场。它同时拿到操作记录和评判提示，回答四个标准化问题：这个AI有没有陷入无效循环、有没有产生多余的副作用、完成任务的过程是否足够合理、最终有没有成功完成任务。只有被裁判判定为成功的轨迹，才会被保留下来用于训练小模型。
整套流程就像一个高度标准化的招聘流程：先由HR（人格生成器）确保候选任务多样化，再由业务专家（任务生成器）设计岗位要求和考核标准，然后由候选人（执行智能体）在真实场景下答题，最后由考官（裁判）严格打分，只录取真正优秀的答卷用来培训新员工（小模型）。
**四、其他现有方法对比：谁缺了哪块拼图**
研究团队整理了学界现有的几种主流方法，发现它们都可以被纳入这个框架来描述，但各自都缺少某些关键环节。
InSTA方法通过规模取胜，从15万个真实网站上收集任务，但没有用角色来增加任务多样性，也没有在评判时提供评判提示，只用了一个不带提示的LLM裁判。NNetNav方法采用的是"追溯式"设计：先让AI自由探索网页，再事后给探索轨迹贴上任务标签——这意味着任务评判提示根本无法在任务生成阶段产生。AgentTrek通过复用网络上的操作教程来生成任务，但没有角色多样性设计，也没有预设式的任务生成阶段。Explorer方法把任务生成和执行融合在一个循环里迭代优化，规模达到了9.4万条轨迹，但同样没有预设式任务生成，因此也无法产生评判提示。Go-Browse方法用图搜索的方式遍历网址来发现任务，同样没有角色设计和评判提示。
AGENT-AS-ANNOTATORS是唯一一个同时具备所有六个模块的方法：角色生成器、环境探索、预设式任务生成、评判提示、执行智能体、裁判。这套完整性，正是它性能优势的来源。
**五、实验设置：用什么"大老师"教，教出什么"小学生"**
研究团队选择了谷歌的**Gemini 3 Pro**作为"大老师"（即教师模型），用它来扮演框架中的任务生成器、执行智能体和裁判三个角色。一个模型身兼三职，简化了整个流水线的复杂度。
训练数据集被命名为**A3-SYNTH**，覆盖WebArena的六个自托管网页环境：一个类Reddit论坛、GitLab代码平台、电商网站及其管理后台、维基百科系统和OpenStreetMap地图服务。研究团队为250个角色各分配了全部六个环境进行探索，共进行1500次探索，每次探索产生两个任务描述，总计生成3000个任务。
经过裁判过滤后，根据不同环境，成功轨迹的比例在69%到85%之间，最终保留了2322条成功轨迹，包含16353个观察-行动训练样本对，每条轨迹平均包含7步操作，平均每步的模型回复长度为1920个字符，其中包含平均1021个字符的推理过程。
被训练的"小学生"是**Qwen3.5-9B**，一个只有90亿参数的开源多模态模型，同时支持文本和图片输入。训练方式是标准的监督微调（SFT），在4到8块GPU上训练了2个轮次，大约1022步，学习率为0.00001，批量大小32，最大序列长度8192个词元。
整个评测在五个基准上进行：WebArena（训练环境的测试集，381个任务）、VisualWebArena（需要理解网页截图的视觉任务，449个任务）、WorkArena L1（ServiceNow企业软件平台，330个任务）、WorkArena++（更复杂的企业多步骤任务，185个任务）、MiniWoB（简化版网页交互原子技能测试，625个任务类型）。除了WebArena，其余四个基准对训练数据来说都是完全陌生的环境。
**六、核心成果：数字背后的故事**
训练完成后，这个90亿参数的小模型在WebArena上达到了41.5%的成功率。要理解这个数字有多厉害，可以这样类比：假设100道网页操作题，原来的小模型大概能答对31道，付费大模型GPT-4o能答对31.5道，Claude 3.5 Sonnet能答对36道，此前最好的同类开源小模型能答对21.7道——而训练后的小模型能答对41.5道。这相当于把原来的能力提升了三分之一以上，还顺便超越了两个需要付费API的商业大模型。
更令人意外的是迁移能力。在完全没有见过的**ServiceNow企业平台**上（WorkArena L1），训练后的小模型从33.3%跳升到51.5%，整整提升了18.2个百分点。ServiceNow和WebArena的六个网站在界面设计、导航逻辑、表单结构上完全不同，没有任何表面上的相似之处。然而，"填写表单"、"筛选表格"、"导航找到正确页面"这些底层操作技能是可以迁移的——就像一个学会了打字和文件管理的人，不管是用Word还是用Pages，上手都不会太慢。
在视觉任务基准VisualWebArena上提升了5.4个百分点，在复杂企业任务WorkArena++上提升了7.5个百分点，在原子网页技能测试MiniWoB上提升了5.8个百分点。五个基准全部提升，没有任何退步。
如果用更直观的方式来描述行为变化，研究团队展示了一个购物后台任务的对比案例。任务是找到最近一条待处理订单的日期和订单号。训练前的小模型先点进销售订单页面，然后打开筛选器，在各种状态字段里翻来翻去，折腾了10步之后，给出了一个错误答案（299号订单，点进去一看，第2步就给出了正确答案（#299，5月31日）。一个用10步还没答对，另一个用2步直接搞定——效率差距悬殊，而且前者还是错的。
**七、"大老师"的质量比数量重要：一个反直觉的发现**
研究团队比较了几种不同的教师模型配置，得出了一个很有意思的结论：教学数据的质量，远比数据的数量重要。
用Gemini 3 Pro（降低思考预算配置）作为教师，3000个任务中有69%到85%能成功完成，最终保留了16353个训练样本。而用能力相对较弱的Gemini 3 Flash作为教师，成功率只有17%到53%，而且失败的轨迹往往更长（模型在放弃前会多走很多步），反而产生了更多的训练样本——22707个。但训练出来的学生模型呢？Flash版老师训练出的学生在WebArena上只有24.9%，而Pro版老师训练出的学生达到了36.2%（这里用的是早期实验用的Qwen3-VL-8B-Thinking模型）。数据更多，但学生更差——因为那些数据里充满了失败的、低质量的轨迹，教给学生的是错误的经验。
还有一个更反直觉的发现：**降低教师模型的"思考预算"，反而能提升训练数据质量和学生表现**。"思考预算"可以理解为模型在给出最终答案前用于内部推理的计算资源。按理说，思考得越深入，模型应该越厉害。但实验发现，当Gemini 3 Pro被配置为较低思考预算（产生更简洁的推理过程）时，它在六个网页环境上的任务完成率反而更高；而高思考预算配置虽然生成了更长的内部推理，却在最终行动上表现更差。
为什么会这样？研究团队提出了两种解释：一方面，过度思考可能导致模型纠结于边缘情况、执行出现失误；另一方面，更简洁的推理轨迹对学生模型来说是更干净的学习信号，而过长的内部推理反而会把有用的信息"淹没"在冗余内容里。
此外，一个有趣的发现是：更新的模型版本不一定是更好的老师。Gemini 3.1 Pro虽然是Gemini 3 Pro的后续版本，但在四个网页环境上的任务完成率反而低于旧版，比如地图环境上只有45.4%对78.0%。这说明，对特定任务分布的适配能力，比模型的版本新旧更重要。
**八、拆解每个零件：哪些模块真正起了作用**
为了确认框架中的每个设计决策都真正有用，研究团队做了一系列"拆零件"实验：每次去掉或改变一个模块，看成绩会变多少。
首先看**裁判过滤**的贡献。如果把裁判模块去掉，直接用所有3000条轨迹（包括失败的）来训练，数据量增加了40%，但WebArena成功率从41.5%下降到37.0%——减少了4.5个百分点。数据更多反而更差，原因正是前面提到的：质量不如数量重要，劣质轨迹会污染学生模型的学习。
其次看**数据规模**的影响。把训练轨迹从2322条依次削减到1430条、715条、285条，对应的成功率分别是40.2%、37.0%、32.0%。成绩随数据量减少而下降，但下降幅度越来越小——从285条增加到715条能带来5个百分点的提升，但从1430条增加到2322条只带来1.3个百分点。这是一条明显的"收益递减"曲线，说明继续用同样的方式生成更多数据，边际效益已经很低，要想再有突破可能需要更多样化的环境或不同的方法。
再看**推理轨迹**的贡献。训练数据中每一步操作都附带了教师模型的推理过程（平均约1011个字符，存储在特定标签块中）。如果完全去掉这些推理过程，成功率下降7.9个百分点——这是单个因素导致最大下降幅度的操作。更有趣的是，如果不是完全去掉，而是截断推理过程（截到500字符或250字符），结果比完全去掉还要差：截断到500字符时成功率只有31%，截断到250字符时只有26.8%。完整推理帮助最多，截断推理有时比没有推理还糟糕。道理类似于看菜谱：完整的菜谱最有用，看一半的菜谱可能比不看菜谱还让人迷糊。
关于**评判提示**的贡献，研究团队做了一组对照实验：在相同的600条轨迹规模下，带评判提示的裁判训练出的学生成功率为37.8%，而不带评判提示的裁判训练出的只有35.4%，差了2.4个百分点。裁判在没有提示的情况下，对21.3%的轨迹给出了不同的判断，其中有144条轨迹被有提示的裁判判为失败、但被无提示的裁判误判为成功——这些"假阳性"数据混入训练集后，会教给学生错误的示范。
**九、为什么六个网站就够了，规模和深度的权衡**
InSTA方法用了15万个网站，而这套方法只用了六个网页环境，却在更多样化的基准上实现了更好的迁移能力。研究团队认为，这背后有一个重要的假设：网页交互的底层技能是有限且可泛化的。填写表单、筛选表格、多步骤导航、搜索内容——这几类核心操作在几乎所有网页平台上都会用到，无论是GitHub还是ServiceNow，无论是Reddit还是企业ERP系统。
在六个环境里通过角色多样化产生丰富的任务变化，可能比在更多环境里但每个环境任务变化较少更为高效。这类似于深度练习与广度练习的权衡：练好十道真正有代表性的题，可能比泛泛地做一百道换汤不换药的题效果更好。
当然，研究团队也坦诚地指出，目前的数据缩放曲线已经显示明显的收益递减，继续在同样六个环境里生成更多数据预计效果有限。未来的方向可能是把这种深度聚焦的方法与更广泛的环境覆盖结合起来，看两者是否互补。
**十、这套方法的边界和未来空间**
研究团队对方法的局限性保持着清醒认识。角色生成器模块虽然在理论上贡献了任务多样性，但由于重新从零生成无角色版本的数据成本过高，没有做出完整的"无角色对照实验"，这是一个未填补的验证空白。
裁判模块的误判率也没有与人工标注进行系统性比对——建立一套能可靠标注多步骤网页交互轨迹的人工评测流程本身就是一项大工程，研究团队计划通过公开发布数据集来让社区共同验证。
所有教师模型对比实验都只用了Gemini系列，因为当时只有谷歌提供了可配置思考预算的模型，换用Claude或GPT-4系列是否会有不同结论还不清楚。
训练方式目前只用了监督微调（SFT），没有结合强化学习（RL）。研究者认为，在SFT的基础上再加入RL微调——让模型通过不断尝试和反馈来进一步优化——可能会进一步放大效果，但这是独立于数据生成问题的另一个研究方向。
说到底，这项研究传递的核心信息是：在AI能力蒸馏这件事上，**数据质量的重要性远超数据数量，结构化的生成流程比无结构的规模堆砌更有效**。用2322条精挑细选的高质量轨迹训练出的90亿参数小模型，在五个不同类型的网页任务基准上全面超越了用付费API才能调用的商业大模型。这对于希望在本地部署可靠、经济、安全的网页智能体的开发者和企业来说，是一个非常实际的启示。
归根结底，AI领域的"教学艺术"和人类教育异曲同工：精心设计的课程、真实的练习环境、严格的质量把关，以及完整保留的推理过程——这些要素的组合，比单纯堆砌练习量更能造就有真正理解力的"学生"。感兴趣的读者可以通过arXiv编号2604.07776找到原论文，研究团队还承诺将公开完整的轨迹数据集、流水线代码和微调后的模型权重，方便社区复现和进一步研究。
Q&A
Q1：AGENT-AS-ANNOTATORS框架与InSTA等现有方法的核心区别是什么？
A：AGENT-AS-ANNOTATORS是目前唯一同时具备六个完整模块的轨迹合成框架，包括角色生成器、环境探索、预设式任务生成、评判提示、执行智能体和裁判模块。与InSTA等方法相比，最关键的差异在于两点：一是任务是在执行前就预设好的（而非事后追溯贴标签），这使得生成评判提示成为可能；二是裁判模块能利用这些评判提示来更准确地判断轨迹是否成功，从而提升训练数据质量。
Q2：为什么降低教师模型的思考预算反而能提升训练效果？
A：研究发现，Gemini 3 Pro在较低思考预算（即推理过程更简洁）的配置下，在六个网页环境上的任务完成率反而更高。原因有两个：一是过度思考可能导致模型在执行具体操作时反而犹豫出错；二是更简洁的推理轨迹对学生模型来说是更干净的学习信号，复杂冗长的内部推理反而会降低训练数据的信噪比，使学生模型更难提炼出有效的行动模式。
Q3：用六个网站训练的模型为什么能在完全不同的企业平台上表现良好？
A：WorkArena L1的大幅提升（+18.2个百分点）来自网页交互的底层技能具有可迁移性。填写表单、筛选数据表格、多步骤页面导航等基础操作在几乎所有网页平台上都普遍存在，无论界面设计差异多大。训练数据通过角色多样化覆盖了这些核心交互模式的丰富变体，使模型习得的是通用的操作逻辑，而非特定网站的页面路径记忆。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

强脑科技预计今年机械手销量大涨：宇树、乐聚都是我们的客户

大众、宝马、日产集体“投华”，只有它还在独自"头铁"

台风影响丰田等三企暂停生产

24小时极限创作“1分钟小游戏”，黑客松大赛落地张江AI创新小镇

5400亿！谷歌官宣猛攻AI基建，股价跌超2%

成都首次完成无人/有人机混合运行验证试飞

全站最新

强脑科技预计今年机械手销量大涨：宇树、乐聚都是我们的客户

大众、宝马、日产集体“投华”，只有它还在独自"头铁"

台风影响丰田等三企暂停生产

24小时极限创作“1分钟小游戏”，黑客松大赛落地张江AI创新小镇

热门推荐

起底华海诚科疑似高位套现

软通动力在厦门成立计算机公司注册资本1亿

川能动力等成立股权投资基金出资额5亿

现卫生问题亚朵酒店已成立7年

阿里云计算公司换帅

英特尔中国法定代表人发生变更

拉勾网及创始人再次被限消

白鹿掉粉近百万

稻城亚丁景区曾被起诉

比亚迪已注册多枚璇玑关联商标

孙杨近30日掉粉1.8万

腾讯等入股神经接口研发商暖芯迦

刘晓艳已成立多家公司

莫氏鸡煲近30日吸粉14万

零一汽车近期增资20%