当前位置: 首页 » 资讯 » 科技头条 » 正文

AI2研究院打造的"网页特工":一个能替你上网干活的开源AI助手

IP属地 中国·北京 科技行者 时间:2026-04-18 04:30:13


这项由艾伦人工智能研究院(Allen Institute for AI)与华盛顿大学、北卡罗来纳大学教堂山分校联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.08516。有兴趣深入了解的读者可以通过这个编号在arXiv平台上找到完整的技术报告。

**网络世界里的"私人助理"梦**

每个人大概都有过这样的经历:订一张机票需要在好几个网站之间来回跳,填写各种表单;比价购物要打开十几个页面逐一对比;查一个政府业务需要在迷宫般的网页结构中摸索。这些事情既耗时又费力,却又不得不做。如果有个助手能替你搞定这一切——你只需说一句"帮我找最便宜的从北京到上海的机票",它就能自动打开浏览器、搜索、比较、筛选,最后把结果告诉你——那该多好?

这正是"网页代理"(Web Agent)这个研究方向想要实现的目标。近年来,随着大型语言模型的飞速发展,已经有一些商业产品开始提供类似功能,比如OpenAI和Google都推出了各自的"电脑使用"服务。但这些产品有一个共同的问题:它们是完全封闭的黑盒子,没有人知道它们是怎么训练出来的、用了什么数据、遵循什么规则。这对于科学研究来说是一个大问题——你无法改进你看不懂的东西,也无法信任你不了解的东西。

正是出于这个动机,艾伦人工智能研究院的研究团队决定做一件在这个领域里少有人做的事:把一切都公开。他们发布了训练数据、模型权重、训练代码和评估工具,并将整套系统命名为MolmoWeb。这是一个真正意义上的"开源"网页代理系统,任何人都可以查看它是怎么工作的,任何研究者都可以在它的基础上继续改进。

一、从"只会看截图"到"能干活":MolmoWeb的基本原理

要理解MolmoWeb是怎么工作的,可以把它想象成一个刚刚学会使用电脑的新员工。你给他一个任务,比如"帮我在Food Network上找一个三小时内能做完的墨西哥炖牛肉食谱",他就会打开浏览器,看着屏幕上显示的网页截图,思考下一步该做什么,然后执行一个操作——比如点击搜索框、输入关键词、按下回车键——然后看着新的截图,再思考,再操作,如此循环,直到找到答案为止。

这个过程的关键在于,MolmoWeb完全依靠视觉来理解网页,就像一个正常人盯着屏幕操作一样,而不是通过读取网页的底层代码来工作。这一点与很多竞争对手的方案有根本区别。很多传统方案会让AI读取网页的"可访问性树"(Accessibility Tree,简称AxTree)——这是一种描述网页所有元素及其关系的文本结构,类似于网页的X光片——然后根据这个文本结构来决定点哪里。

研究团队选择纯视觉方案,有几个深思熟虑的理由。其一,这和人类使用网页的方式完全一致,让AI的行为更容易被理解和审查。其二,AxTree在不同网站、不同框架、甚至同一网站的不同版本之间差异巨大,而且对于动态加载的内容往往不完整或具有误导性,纯视觉方案则不存在这个问题。其三,AxTree非常"啰嗦"——一个普通网页的AxTree可能包含数万个词,处理起来耗费大量计算资源,而一张截图则是同样信息的紧凑表达。

在每一步,MolmoWeb接收的信息包括三部分:当前网页的截图、用户给出的任务指令,以及过去10步的操作历史记录(包括当前页面的URL和标题)。根据这些信息,它输出两样东西:一段自然语言"思考"——解释自己为什么要做下一步操作——以及一个具体的浏览器动作,比如"在坐标(48.5, 50.2)处点击鼠标"。这个设计让AI的决策过程变得透明可查,就像要求员工在每次操作前先说出自己的理由一样。

MolmoWeb的模型架构基于Molmo2,这是同一研究院之前发布的多模态语言模型,能够处理图像和文字交织在一起的输入序列。整个动作空间被设计得既全面又简洁,涵盖了人类操作浏览器时会用到的几乎所有动作:导航到某个URL、在特定坐标点击鼠标、拖拽操作、滚动页面、在特定位置滚动、悬停、输入文字、按下键盘按键、后退、新建标签页、切换标签页、等待(比如等网页加载或等待验证码),以及向用户发送消息。坐标位置被归一化到0到100的范围内,在实际执行时再转换为像素坐标,这样与分辨率无关,增加了系统的通用性。

二、训练数据:如何教会一个AI"逛网"

如果说MolmoWeb是一名新员工,那么教会他上网的"培训教材"就是MolmoWebMix——这是研究团队精心构建的训练数据集。数据集的规模相当可观:轨迹数据部分包含超过27.85万条轨迹、220万个操作步骤,覆盖2600多个不同的网站域名。除此之外还有超过1050万条GUI感知数据。

这些数据来自四个互补的来源,每个来源负责教导不同方面的能力,就像培训一个新员工需要既有课堂教学、又有导师指导、还有实际上手练习一样。

第一类是"AxTree单智能体轨迹"。研究团队让一个能读取AxTree的AI(使用Gemini-3-Flash-Preview作为大脑)自动完成各种网页任务,同时在每一步都截图保存。这样生成的轨迹虽然AI本身看的是文本格式的AxTree,但保存下来的数据是"截图+操作"的格式,正好可以用来训练只看截图的MolmoWeb。这部分生成了7万条轨迹、79.3万个步骤,覆盖1300多个网站。每条轨迹都经过一个"成功过滤"步骤——用另一个AI充当裁判,判断任务是否真的完成了,没完成的就丢弃不用。

第二类是"多智能体协作轨迹"。为了生成质量更高的训练数据,研究团队设计了一个三角色协作系统,就像一个小型项目团队。"规划师"(Planner,使用Gemini-2.5-Flash)负责将大任务分解成一个个小目标;"操作员"(Operator,使用Gemini的AxTree智能体)负责针对当前子目标执行具体的浏览器动作;"验证员"(Verifier,使用GPT-4o)负责分析最近5张截图,判断当前子目标是否已经完成。三者分工协作,形成一个持续迭代的循环:规划师给出子目标,操作员执行操作,验证员确认结果,如果完成就让规划师生成下一个子目标,否则继续努力完成当前目标。实验证明,这种多智能体协作方式比单智能体效果更好——在WebVoyager测试集上得分78.5对74.4,有明显提升。这部分生成了3.5万条轨迹、43.8万个步骤。

第三类是"节点遍历轨迹"。研究团队为500多个热门网站构建了网站导航图谱——从首页出发,通过广度优先搜索,提取每个页面的AxTree,让AI选择最有价值的导航链接继续探索,深度达到四层,从而得到一棵描述整个网站结构的树。然后,用一个完全不依赖AI、纯确定性的脚本来"回放"这些路径:从根URL出发,在AxTree中找到目标链接,必要时滚动使其进入视野,然后点击。由于路径是预先规定好的,成功与否可以通过URL匹配来机械地验证,不需要任何AI裁判。在每条路径的终点,再用AI生成一个合理的任务描述,把这对"任务描述+操作轨迹"作为训练数据使用。这种方法生成速度快、成本低、可验证,共产生1.6万条轨迹、15.1万个步骤,覆盖833个网站。

第四类是"人工标注轨迹"。研究团队开发了一个定制的Chrome扩展程序,能够捕捉标注者的每一次点击、滚动和键盘输入,同时自动截图,然后将这些原始事件整理成标准格式的轨迹。众包工作者在真实网站上完成各种任务,任务来源包括作者手写的任务模板和AI生成的任务指令,覆盖购物、新闻、房产、旅行、地图、食谱、求职、健康等多个生活领域。

人工标注的特别之处在于,每个任务都被分解成一个有序的子任务序列。工作者完成每个子任务后要打勾确认,最终提交一个文字答案。如果某个子任务因网页状态不符合预期而无法完成,工作者要记录原因。每条轨迹还要经过人工审核,确认任务完成且数据准确捕捉,审核不过的要修改或重新采集。这部分共产生3.6万条轨迹、62.3万个步骤。

更进一步,因为人工轨迹有子任务分解,研究团队还从中提取了"原子技能轨迹"——把每个子任务片段单独取出来作为训练样本,让AI针对性地学习各种基础操作技能。技能分类涵盖了直接导航到某URL、在搜索框输入并提交、在页面上定位信息、定位并打开子页面、定位并点击元素、填写表单、填写并提交表单、设置筛选条件、设置筛选并搜索、加入购物车,以及当任务步骤不明确时的自由导航等十一种基本技能。此外,研究团队还专门让AxTree智能体执行"填表"和"找并打开"这两种技能的专项任务,补充了5500条原子技能轨迹、6.87万个步骤。

三、让AI"看懂"网页:GUI感知数据的构建

除了操作轨迹,训练MolmoWeb还需要大量数据来教它理解网页截图的视觉内容——也就是教它"看"。这部分数据被称为GUI感知数据(GUI Perception Data),共包含超过1050万个样本。

其中最大的一块是"定位数据"。这类数据的格式是:给一张截图,描述某个元素(比如"Filter & Sort按钮"),模型需要预测应该点击的像素坐标。研究团队从AxTree智能体的轨迹中自动提取这些数据:对于每一张截图,枚举AxTree中所有可点击的元素,为每个元素生成一段自然语言描述(使用元素的可访问名称和角色,描述方式包括模板生成和GPT-5生成两种),然后将元素边界框内的随机点(按照以元素中心为中心的截断高斯分布采样)作为正确答案。这样的设计让模型学会的是"在元素合理范围内点击",而不是死板地只点元素正中心,模仿了人类更自然的点击行为。通过这种方式,共生成了超过700万个定位问答对,其中340万用模板生成描述,380万用GPT-5生成更自然的描述。此外,研究团队还把Molmo原有的PixmoPoints数据重新格式化为点击动作格式,追加了110万个样本。

另一块是"截图问答数据"。这类数据教AI从网页截图中读取和推理信息,覆盖三种问题类型:OCR类问题(读取页面上的文字内容,比如价格、数量、文本),功能性问题(了解页面提供哪些操作,比如"在这个页面上哪里能找到财经新闻"),以及摘要类问题(理解页面整体内容或某个元素的用途)。数据生成方式是:对AxTree智能体轨迹中的截图,把对应的AxTree提供给一个语言模型,让它生成问答对,同时过滤掉包含"元素ID"等AxTree特有信息的样本,确保问答完全基于视觉内容。整个截图问答数据集覆盖395个网站,共222.7万个问答对,其中OCR类占54%、功能性占26%、摘要类占20%。

四、对决:MolmoWeb与各路高手的较量

训练完成后,研究团队在四个基准测试上对MolmoWeb进行了全面评估,每个基准测试都使用真实的在线网站,任务需要多步骤操作才能完成。这四个测试分别是WebVoyager(综合网页任务)、Online-Mind2Web(多网站导航)、DeepShop(深度购物研究)和WebTailBench(尾部任务,即难度较大的非常规任务)。为了保持公平,涉及过去日期的任务会被调整为当前或未来的日期,每个模型每个基准测试运行3到5次取平均,允许最多100步操作,环境出错最多重试10次。

结果相当令人印象深刻。MolmoWeb-8B在四个基准上均超过了同等规模的开源模型,包括Fara-7B(WebVoyager得分73.5 vs 78.2,DeepShop得分26.2 vs 42.3,WebTailBench得分38.4 vs 49.5),以及UI-TARS-1.5-7B和GLM-4.1V-9B-Thinking。MolmoWeb-4B则在WebVoyager(75.2分)和DeepShop(35.6分)上超过了所有开源模型,在其他两个测试上也表现具有竞争力。

更值得关注的是与闭源大模型的对比。MolmoWeb-8B的WebVoyager得分78.2,明显超过了GPT-4o的SoM(Set-of-Marks)方案65.1分;在DeepShop上,MolmoWeb-8B得42.3,也大幅领先GPT-4o的16.0分。SoM方案是一种增强提示技术:在截图上用彩色标记框住所有可交互元素,同时提供AxTree文本,让模型同时获得视觉和文本两种信息——这意味着那些闭源方案实际上拥有比MolmoWeb更丰富的输入信息,却依然在部分测试上落后于只看截图的MolmoWeb。在WebVoyager上,MolmoWeb-8B还与o3的SoM方案(79.3分)基本持平,与GPT-5的SoM方案(90.6分)存在差距,但这个差距在参数量相差数十倍的情况下已经相当难得。

与此同时,研究团队还比较了MolmoWeb与其"老师"的差距。MolmoWeb的大量合成训练数据来自Gemini-3-Flash的AxTree智能体,这个智能体在使用100步预算时WebVoyager得分85.6,Online-Mind2Web得分44.8,DeepShop得分55.3。MolmoWeb-8B在WebVoyager和Online-Mind2Web上落后约5到10分,在DeepShop和WebTailBench上落后超过10分。研究团队分析了三个原因:一是模型规模差距(Gemini-3-Flash参数量远大于8B);二是操作方式差距(AxTree智能体用元素ID点击,被程序化映射到坐标,而MolmoWeb需要自己用视觉预测坐标);三是信息获取方式差距(AxTree智能体直接读取结构化文本,MolmoWeb需要对截图进行视觉OCR和理解)。

五、让AI在考试时"多做几遍":测试时计算扩展

研究团队还探索了一个有趣的策略:如果不增加模型规模,而是在回答同一个问题时多运行几遍,选最好的那个结果,能提升多少性能?这在学术上叫做"测试时计算扩展"(Test-time Scaling),具体形式是"并行多次尝试+最优结果选择"。

实验方法是:对同一个任务,独立运行k次,每次用同一个AI裁判打分,选得分最高的那次作为最终答案。为了得到统计上可靠的结果,研究团队对每个任务实际运行了5次(m=5),然后用公式计算"如果从5次中随机选k次,至少有一次成功的概率"。

结果非常惊人。MolmoWeb-8B在WebVoyager上的单次成功率(pass@1)是78.2%,但当k=4时(即从5次中选最好的,等效于运行4次),成功率跃升至94.7%,提升了超过16个百分点。在Online-Mind2Web上,pass@1是35.3%,pass@4达到60.5%,同样提升超过25个百分点。

研究团队还比较了两种增加计算量的方式:增加单次尝试的最大步数(从30步增加到100步),还是多次并行尝试(每次30步,选最好的)。在总步数相近的情况下(比如3次并行×30步=90步总计算量 vs 单次100步),并行多次尝试的效果远优于增加单次步数。以8B模型为例,3次并行30步达到86.2%,而单次100步只有78.2%。这说明网页操作任务的失败很大程度上是"一步走错、满盘皆输"的连锁反应问题,多次尝试能有效规避这种错误放大效应。

六、数据质量还是数据来源?深入解剖训练数据

研究团队对训练数据进行了系统的消融实验,也就是"一个一个去掉看影响"的测试,来弄清楚哪类数据最重要。

关于数据规模的影响,结论是规模越大越好,但收益递减得很快。仅用1%的数据,WebVoyager得分44.5;用10%的数据,得分63.2,已经达到了满数据情况(68.5分)的约90%。换句话说,训练数据中最关键的那10%贡献了绝大部分性能,剩下的90%只贡献了最后的边际提升。这种现象说明数据混合的设计质量比纯粹的规模更重要。

关于人工数据 vs 合成数据,结论出人意料。单独用2.8万条人工轨迹训练的模型,WebVoyager得27.8,Online-Mind2Web得13.2;单独用10.6万条合成轨迹训练的模型,两项得分分别是67.8和22.0;把两者合并训练,反而只有68.5和21.4——合并后Online-Mind2Web甚至略低于纯合成数据。人工数据的加入没有带来一致性的提升。

为了更直接地比较,研究团队专门收集了2700条人工轨迹和2700条合成轨迹,任务完全相同,然后分别训练模型。结果是合成数据全面胜出:DeepShop得分24.4 vs 19.8,WebVoyager得分53.0 vs 35.4,Online-Mind2Web得分16.8 vs 9.0。

这个结果听起来违反直觉,但研究团队给出了合理的解释。人类在不熟悉的网站上往往会表现出更多"探索性行为"——走错路、退回来、绕远路——这些行为在轨迹中造成噪声,反而干扰了模型的学习。而AI智能体操作的是结构化的AxTree,能获取到比截图更丰富的语义信息(比如元素的角色、状态、关系),因此往往走出更直接、更一致的路径,作为教学材料更清晰可靠。此外,人工轨迹中还有一些合成数据中没有的操作类型(比如`scroll_at`和`mouse_drag_and_drop`),当两种数据混合训练时,模型在两种操作模式之间摇摆不定,出现了"不知道该学谁"的混乱。

七、细节决定成败:采样策略与定位能力

研究团队还发现了一个看似微小却影响显著的细节:推理时用什么采样策略。

所谓采样策略,决定了模型在生成下一个词时如何从所有可能性中做选择。贪婪解码(greedy decoding)每次都选概率最高的词,确定性强但容易陷入局部最优;Top-k采样从概率最高的k个词中随机选一个;核采样(nucleus sampling,又称top-p)从累积概率达到p的最小词集中随机选。实验结果显示,贪婪解码的WebVoyager得分只有61.4,而Top-k(k=20,温度0.7)达到67.4,核采样(p=0.8,温度0.7)达到68.5,后两者比贪婪解码高出5到7分。

定性分析发现,贪婪解码会让模型陷入重复循环——比如一直点同一个地方点不动,或者一直往下滚屏但早就已经过了目标区域——而带有随机性的采样策略能让模型偶尔"换一条路走",跳出卡壳状态。

在视觉定位能力方面,研究团队还单独训练了一个"定位专家"模型MolmoWeb-Ground-8B,只在定位数据上训练,专门负责"在截图上找到并点击指定元素"这项任务。在ScreenSpot和ScreenSpot v2这两个定位基准测试上,MolmoWeb-Ground-8B分别达到88.7和91.8,超过了Claude 3.7(ScreenSpot v2得87.6)、OpenAI CUA(87.9)、Holo1-7B(87.4和89.9)等竞争对手,仅次于Gemini-3-Pro(ScreenSpot v2得93.7)。有趣的是,MolmoWeb-4B这个"全能选手"(既要定位又要完成任务)在同样的测试上得87.2和89.5,与定位专家只差1到2分,说明通用任务训练并没有严重损害定位能力。

说到底,MolmoWeb这项研究想传达的核心信念其实很简单:用于开放互联网的AI助手,应该以开放的方式来构建。商业公司的封闭方案固然强大,但科学进步需要可重复、可检验、可改进。当所有人都能看到训练数据长什么样、模型怎么训练的、评估是怎么做的,整个研究社区才能真正理解"什么在起作用、什么没起作用",从而站在巨人的肩膀上继续前进。

从结果来看,开放路线并不意味着性能上的妥协。一个4B到8B参数的小模型,只靠看截图(没有AxTree辅助),就能在多个测试上超过使用更多信息的GPT-4o方案,而且通过并行多次尝试,成功率可以从78%飙升至95%——这说明数据质量和训练策略的精心设计,有时候比堆砌模型规模和输入信息更有价值。

当然,MolmoWeb还有很多局限。在模糊或约束特别多的任务上表现会下降;对较小的文字识别或阅读长段落回答问题时偶有失误;有时会陷入重复操作的死循环而无法自我纠正;一些不常见的操作(如元素内滚动、拖拽、悬停)表现不够稳定。研究团队坦率地承认了这些问题,并在论文中详细讨论了可能的改进方向,比如引入强化学习、自我蒸馏(从多次成功尝试中学习)等方法来进一步提升单次成功率。

这个领域还在快速发展,MolmoWeb的发布或许是一块重要的基石——不仅仅因为它的性能,更因为它让每个人都能站在同一起跑线上,用同样的数据、同样的工具、同样的评估标准来开展研究。对这一切感兴趣的读者,可以通过arXiv编号2604.08516找到完整的技术报告,所有数据和代码将随论文一起公开发布。

Q&A

Q1:MolmoWeb为什么不读取网页代码,而只靠截图来操作网页?

A:读取网页底层代码(AxTree)虽然信息丰富,但不同网站的代码结构差异很大,而且对于动态加载的内容往往不完整,处理起来还非常消耗计算资源(一个普通页面可能产生数万词的文本)。纯视觉方案与人类使用网页的方式一致,更具通用性,也更容易理解和审查。实验也证明,精心训练的视觉模型在部分测试上甚至超过了同时使用截图和代码的更大闭源模型。

Q2:MolmoWebMix里人工标注的数据为什么没有合成数据效果好?

A:这与两类数据的"信噪比"有关。人类在陌生网站上会走弯路、回头、探索,轨迹中有大量"噪声步骤",干扰了模型的学习。而AI智能体操作结构化的AxTree,能获取更多语义信息,走出的路径更直接、更一致,教学信号更清晰。此外,人工轨迹包含一些合成数据中没有的操作类型,混合训练时导致模型学习方向混乱,两种数据反而相互干扰。

Q3:MolmoWeb"多试几次选最好"的策略在实际使用中代价大吗?

A:确实需要额外计算资源,因为要同时运行多个独立的浏览器会话,还需要一个AI裁判来判断哪次成功。不过研究发现,3次并行尝试(总计约90步)的效果远好于单次100步,说明这种方式的性价比相当高。研究团队还指出,这种"多次尝试选最优"的数据本身可以用来训练更好的单次模型,所以它也是未来改进方向的一部分。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新