当前位置: 首页 » 资讯 » 科技头条 » 正文

北大与小米突破:海量网络视频驱动AI构建史上最大GUI操作数据集

IP属地 中国·北京 科技行者 时间:2026-05-29 00:23:32


这项由北京大学多媒体信息处理国家重点实验室、北京大学计算机学院与小米大模型团队(LLM-Core)联合主导,同时联合中国人民大学和香港大学共同完成的研究,发表于2026年第43届国际机器学习大会(ICML 2026),在首尔举办。论文的arXiv编号为2605.14747,有兴趣深入了解技术细节的读者可通过该编号查阅完整原文。

手机屏幕上密密麻麻的按钮、电脑桌面上数不清的菜单,对于人类来说习以为常,但对于一台想自动帮你操作的AI来说,却是一片陌生的丛林。能自动帮你打开应用、填写表格、点击按钮的智能助手,被研究者们称为"GUI智能体"(Graphical User Interface Agent,图形界面智能体)。可以把它理解为一位"数字管家",你只需说一句"帮我在淘宝上搜索运动鞋",它就能自己操控手机或电脑完成整套动作。

然而,培养这样一位"数字管家",最大的拦路虎不是算法,而是数据。就好比要培养一位厨师,光有食谱书和灶台还不够,关键要有海量的真实烹饪操作视频,让他反复观摩学习。目前,研究者们训练GUI智能体所用的数据,大多靠人工一步一步录制和标注,成本极高,而且往往只覆盖少数几款应用,就像厨师只学过三道菜一样,遇到其他菜系就束手无策。

正是为了打破这一局面,这支联合研究团队提出了一套名为**Video2GUI**的全自动框架。其核心思路极为大胆:互联网上有数以亿计的软件教程视频,里面密密麻麻地记录着真实用户如何点击、滑动、输入文字。既然这些视频已经存在,为何不从中"偷师学艺",自动提取出AI训练所需的操作轨迹?基于这套框架,研究团队最终构建出一个名为**WildGUI**的数据集,包含1270万条操作轨迹、1.245亿张截图,覆盖超过1500款应用程序和网站,是迄今为止规模最大的开源GUI预训练数据集。在此数据集上完成预训练的模型,在多项权威评测中的表现提升了5%到20%,部分指标甚至超越了体量大得多的顶尖模型。

一、先过两道"筛子":从5亿条视频中淘出真金

整个框架的第一步,可以用"大浪淘沙"来形容。研究团队面对的是YouTube上超过5亿条视频的元数据(也就是视频的标题、描述、标签、频道名称、上传时间等文字信息),其中绝大多数是日常生活记录、娱乐内容或新闻评论,与软件操作教程毫无关系。直接下载所有视频进行分析,光是存储就需要数百PB(百亿亿字节)的空间,完全不现实。

因此,研究团队首先设计了一道"粗筛"。他们用DeepSeek-V3这款大型语言模型,对1万条视频的元数据进行了人工标注式的自动打标,判断每条视频是否与GUI操作教程相关。随后,用这批标注数据训练了一个轻量级的Qwen2.5-7B分类模型,给它加上一个"判断头",让它读取视频的文字元数据后直接输出"相关"或"不相关"的判断,而无需生成长篇大论的解释。这样一来,5亿条视频经过元数据筛选,候选池缩减到了约2000万条——减少了96%的无效工作量。

然而,仅凭文字元数据还远远不够。有些视频标题写着"Excel教程",打开一看却是广告宣传片;有些视频声称是操作演示,但画质模糊,字都看不清楚;还有些视频的讲解含混不清,根本无法从中提取有效信息。这就需要第二道"细筛"——视频内容评分模型。

研究团队从粗筛后的视频中抽取了约200小时的内容,请Gemini 3 Pro这款顶尖的多模态模型对每段视频的前一分钟进行评分。评分维度共有三个:第一是主题相关性,即视频是否真的在教具体的GUI操作,而不是泛泛介绍软件历史或做产品评测;第二是讲解清晰度,即语音或字幕是否清晰地说明了每一步操作的目的,而非大量口水话;第三是录制质量,即屏幕录像是否清晰完整,所有界面元素都清楚可辨,而非手持相机对着电脑屏幕晃动拍摄。每个维度打1到5分,只有三个维度均达到4.2分以上的视频才会被保留。

基于这200小时的标注数据,研究团队同样训练了一个轻量化的打分模型——Qwen2.5-Omni,为其添加三个回归打分头,让它直接对视频内容输出三个维度的分数。将这个打分模型应用于2000万条候选视频后,最终保留了416万条高质量教程视频,合计约30万小时的内容,比粗筛结果又缩减了约80%。

这种从元数据到视频内容的"两阶段筛选"策略,本质上是一种效率与质量的精妙平衡:廉价的文字分析先做大量过滤,昂贵的视频分析只处理剩余的精华部分,大大降低了整体计算成本。

二、让AI"读懂"视频:从画面流水账到结构化操作轨迹

拿到了高质量的教程视频,接下来的挑战是把这些"动态画面流水账"变成AI可以学习的"结构化操作剧本"。具体来说,需要从每段视频中提取出:用户在做什么任务、每一步操作发生在视频的哪个时间点、这一步是什么类型的动作(点击、输入文字还是滚动)、操作的逻辑原因是什么,以及操作完成后界面发生了什么变化。

研究团队直接调用Gemini 3 Pro作为核心标注引擎。由于很多视频长达几分钟乃至十几分钟,远超单次分析的上下文窗口,团队采用了一种"分段接力"策略:将超过4分钟的视频切成连续的4分钟片段,在分析后续片段时,将前面所有片段的标注结果作为"背景记忆"一并输入给模型,让它在理解当前画面的同时,也知道此前发生了什么,从而准确识别跨片段的连续任务。这与人类在看教学视频时记住上下文的方式如出一辙。

标注内容极为细致:对于每个完整的子任务,模型需要输出任务描述、详细的任务完成过程描述、分步骤的执行计划、运行平台(Windows、iOS、Android等)、使用的应用名称以及访问的网站域名(如果在浏览器中操作)。对于操作序列中的每一个具体动作,模型还需要输出精确的时间戳、动作类型、一段用于后续空间定位的自然语言描述(例如"点击'Review'选项卡顶部的'Spelling & Grammar'按钮")、动作的逻辑原因(模拟的是AI管家的思维过程,而非简单描述),以及动作执行后界面最核心的变化。

值得一提的是,研究团队还要求模型输出每次动作背后的"世界模型"知识——即从软件设计机制的角度解释为什么界面会发生这种变化。这种设计是为了让预训练模型不仅会模仿操作动作,还能理解操作背后的逻辑,从而具备更强的泛化和长期规划能力。

针对视频超过4分钟的情况,研究团队还专门设计了"迭代标注"提示词,确保跨片段标注的任务编号、叙述逻辑和操作序列完全连贯,就好像一位编剧在续写剧本时,始终清楚前情摘要。

三、把"大概在那里"变成"精确坐标":动作的空间落地

从视频中提取的操作轨迹有一个天然的缺陷:为了在有限的上下文窗口内处理长视频,输入给模型的视频画面经过了压缩,分辨率大幅降低。这意味着,虽然模型知道"点击了搜索框",但如果要训练AI自主完成操作,就必须知道搜索框在屏幕上的精确像素坐标,就好比你知道要按哪个按钮,但需要知道它在什么位置。

为此,研究团队设计了专门的"动作空间定位"环节。对于每一个提取出来的操作动作,他们根据时间戳从原始高分辨率视频中抽取三帧画面:时间戳前半秒、时间戳本身、时间戳后半秒。选取三帧而非一帧,是因为GUI操作的视觉变化发生得很快,用三帧覆盖时间窗口,能大幅降低因时间戳误差而导致目标元素不在画面中的概率。

随后,研究团队将这三帧高分辨率截图连同对应的自然语言操作描述一并输入Gemini 3 Pro,让它首先判断目标元素是否在当前帧中可见,如果可见则输出其中心坐标和边界框(bounding box)的精确位置(使用0到1000的相对坐标体系)。模型从第一帧开始判断,一旦在某帧中成功定位,就采用该帧的结果;如果三帧均无法定位,则丢弃这条动作记录。

研究团队随机抽取200条动作进行人工核验,结果显示超过95%的动作被准确定位,验证了这一策略的可靠性。

四、WildGUI数据集:一幅覆盖人类数字生活的壮阔图谱

经过上述三个阶段的处理,最终形成的WildGUI数据集规模令人叹服。从5亿条视频元数据出发,经过两轮筛选和精细标注,最终产出了1270万条操作轨迹,包含1.245亿张高分辨率截图,每条轨迹平均包含9.7步操作,覆盖的应用程序和网站超过1500种。

从平台分布来看,Windows系统的内容占了大头(65.8%),其次是Mac(13.1%)和Android(12.7%),iOS(4.5%)和Linux(3.9%)也有一定比例,真正实现了跨平台覆盖。从软件类别来看,互联网与通信类软件占43.4%,设计与媒体类占20.4%,开发与IT类占13%,生产力工具占10.7%,系统工具占9.8%,还有少量游戏内容。从网站类别来看,开发与AI工具类占34.8%,商业与云服务占26.5%,教育与知识类占17.6%,社交与媒体类占14%,金融与通信类占7.1%。

在动作类型分布上,桌面端操作中点击(click)占56.1%,文字输入(write)占12.5%,完成任务(finish)占10.6%,拖拽(dragTo)占7.1%,还有按键、快捷键、滚动等各类操作;移动端操作中点击占67%,完成任务(finish)占9.7%,滚动占6.6%,文本输入占5.7%,拖拽占4.8%,以及长按、按系统键、打开应用、多点触控等操作。视频时长分布较为均匀,集中在2到10分钟之间;轨迹长度则集中在10步以内,长尾延伸至60步。

与现有的主要GUI数据集相比,WildGUI的优势显而易见。之前规模最大的开源数据集GUI-Net拥有100万条操作轨迹,WildGUI足足是它的12.7倍。更重要的是,WildGUI同时覆盖网页、手机和桌面三大平台,既有高层次的任务指令(告诉AI"去买一双运动鞋"),也有低层次的具体动作(告诉AI"点击坐标(125,85)处的搜索框"),这种高低层次并存的特性对训练全能型AI管家至关重要。

五、两阶段训练:先博览群书,再精读专科

拿到了这么大规模的数据,如何用好它同样是一门学问。研究团队为此设计了一套"先宽后深"的两阶段训练策略,可以类比为培养一位全科医生的过程:先在医学院广泛学习各科基础知识,再到专科进修磨练临床技能。

第一阶段是"大范围打基础"的持续预训练。研究团队在WildGUI数据上设计了三个互补的预训练任务,让模型同时学习三种不同层次的能力。第一种是界面定位能力(GUI grounding),即给定一条自然语言指令,让模型预测目标元素的坐标或边界框,就好比根据"找到搜索框"这个指令,在屏幕截图上圈出搜索框的位置。第二种是单步动作预测能力(GUI action prediction),即给定当前截图和任务指令,预测下一步应该执行什么操作,模拟的是"看一眼现在的状态,决定下一步怎么做"的过程。第三种是多步轨迹建模能力(GUI trajectory modeling),即给定一系列按时间顺序排列的截图和历史操作记录,自回归地预测接下来的每一步动作,模拟的是"根据整个操作历史,持续规划未来"的能力,损失函数只计算在文本token上的损失。最终的预训练目标是三种任务损失的简单相加。整个预训练过程持续约200亿token的数据量,训练24000步。

第二阶段是"精读专科"的监督微调。预训练让模型掌握了广博的GUI操作知识,但要在特定场景下表现出色,还需要用更干净、更精准的人工标注数据进行精调。研究团队汇集了多个高质量开源数据集,包括Rico、SeeClickWeb、WebUI、OS-Atlas、AITW、AITZ、AndroidControl、AMEX和GUI-Odyssey,在这些数据上对模型进行3个epoch的微调,合计约150亿token。这一阶段帮助模型将预训练中习得的宽泛知识"落地"到具体任务的精准执行上。

整个训练在一个配备160个CPU核心、512GB系统内存和256块NVIDIA GPU的高性能计算集群上完成,使用Megatron分布式训练框架,优化器为AdamW,学习率使用余弦衰减调度。

六、实验说话:提升幅度令人信服

研究团队选取了两个基础模型进行实验验证:Qwen2.5-VL-7B和Mimo-VL-7B。评测覆盖了界面定位、离线智能体评测和在线智能体评测三大类别,全面考察模型的不同层次能力。

在界面定位评测上,研究团队使用了OSWorld-G和ScreenSpot-Pro两个基准。OSWorld-G包含564个样本,考察模型在Linux环境下完成文本匹配、元素识别、布局理解和精细操控等任务的能力;ScreenSpot-Pro则是一个专注于高分辨率专业场景的高难度基准,包含1581个专家标注任务,覆盖23款专业应用和三个操作系统。在OSWorld-G上,经WildGUI预训练的Mimo-VL-7B取得了67.6分的平均分,超越了Qwen3-VL-32B的60.6分,也超过了Seed1.5-VL的62.9分,后两者都是体量大得多或闭源的顶尖模型。相较于未预训练的基础模型,Mimo-VL的提升幅度高达12.9分。在ScreenSpot-Pro上,Mimo-VL-7B达到56.9分,超过了之前开源最佳的Qwen3-VL-32B的54.9分,位居开源模型第一;Qwen2.5-VL-7B则从26.8分跃升至41.9分,提升幅度达15.1分。

在离线智能体评测上,研究团队使用了AndroidControl和CAGUI两个基准。AndroidControl分为"高层指令"和"低层指令"两个版本,分别考察模型根据模糊任务指令自主规划操作序列的能力(高层)和根据明确步骤执行具体动作的能力(低层);CAGUI则专门评测模型在中文界面上的操控能力。在AndroidControl-Low上,经WildGUI预训练的Mimo-VL-7B步骤成功率达到91.8%,远高于基础模型的87.9%;在AndroidControl-High上,步骤成功率从65.6%提升至71.4%。在CAGUI上,Mimo-VL-7B的步骤成功率从63.4%提升至71.0%,这一结果证明WildGUI中包含多语言视频所带来的跨语言泛化能力是真实有效的。

在线智能体评测是最贴近真实场景的考验,模型需要在动态变化的真实系统环境中完成任务,而非回答静态截图上的问题。研究团队使用了OSWorld(369个桌面端真实任务)和AndroidWorld(116个Android端程序化任务)。在AndroidWorld上,完整两阶段训练的模型成功率达到31.9%,几乎是基础模型16.4%的两倍,也明显高于仅做第二阶段微调的23.3%;在OSWorld上,完整训练的模型达到12.3%,高于仅微调的10.4%。这一结果说明,尽管WildGUI全部由离线视频数据构成,预训练所建立的知识基础仍能有效迁移到动态在线环境中。

七、数据越多越好:规模效应的验证

研究团队还专门进行了数据规模扩展实验,考察随着预训练数据量从零增加到2000亿token,模型性能的变化趋势。实验结果在ScreenSpot-Pro和OSWorld-G两个基准上都呈现出清晰的正相关关系:预训练数据量越多,模型表现越好,并且在2000亿token处仍未出现明显的饱和迹象,意味着继续扩大数据规模有望带来进一步提升。在约500亿token时,加入WildGUI预训练的模型就已经开始超越仅做第二阶段微调的对照模型,随后差距持续扩大。这一结果对于整个GUI智能体研究领域具有重要启示:更多、更多样化的离线数据是通向更强模型的关键路径之一。

八、消融实验:每个设计都有其价值

为了验证训练框架中每个组件的必要性,研究团队在Mimo-VL-7B上进行了细致的消融实验。去掉界面定位损失(Lground)后,ScreenSpot-Pro的分数从56.9骤降至49.8,证明显式的坐标定位监督对于精准点击能力不可或缺。去掉单步动作预测损失(Laction)后,CAGUI分数从71.0降至65.3,表明这一训练任务对于跨场景的动作执行能力有显著贡献。去掉多步轨迹建模损失(Ltraj)后,AndroidWorld的成功率从31.9%大幅下跌至24.1%,而静态评测的分数变化相对较小,这正好说明轨迹级别的训练对于长程规划任务至关重要,因为它让模型学会在多步操作中跟踪任务目标和历史上下文。

去掉整个第一阶段预训练(w/o Stage 1)后,各项指标均有明显下降,特别是AndroidWorld从31.9%降至23.3%;而去掉第二阶段微调(w/o Stage 2)的结果则更为惨烈——AndroidWorld的成功率直接跌至6.0%,三项评测全面崩溃。这说明单凭第一阶段的大规模预训练不能替代第二阶段的精细对齐:前者提供广博的GUI知识基础,后者将这些知识校准到精确的指令执行上,两者缺一不可。

九、人工评估:数据质量有人背书

除了模型性能指标,研究团队还专门进行了一项用户研究来验证数据集本身的质量。五位具有视觉语言模型GUI智能体研究背景的计算机硕士或博士候选人,对随机抽取的300条数据进行了1到5分的评分,所有评估者均需通过20样本资格测试(正确率≥85%)方可参与,确保评估标准的严格性,五人间的Krippendorff's α(一致性系数)达到0.84,属于强一致性。

在视频质量评估维度,研究团队展示了两阶段筛选的效果:未经任何筛选的原始视频平均得分仅1.22,经过元数据粗筛后提升至2.12,再经过视频内容打分模型细筛后跃升至4.45,充分证明了"两道筛子"策略的有效性。在轨迹质量评估维度,评估者从操作准确性(时间戳和坐标是否正确)、多样性(平台和任务类型是否丰富)和相关性(是否反映真实GUI操作需求)三个角度,对WildGUI与两个对比方法TongUI和VideoAgentTrek进行比较。WildGUI以4.62分高居第一,远超TongUI的3.35分和VideoAgentTrek的4.05分,证明了Video2GUI框架在数据质量和多样性上的综合优势。

说到底,Video2GUI和WildGUI做的事情,是把互联网上已经存在的海量人类操作智慧,从"散装录像带"变成了"可以喂给AI直接消化的结构化教材"。这一工作的意义不仅在于它构建了一个更大的数据集,更在于它提供了一条可持续的数据获取路径——只要互联网上还在不断产生新的软件教程视频,这条管道就能持续产出训练数据,而无需庞大的人工标注团队。

从普通用户的视角来看,更强大的GUI智能体意味着真正意义上的"动动嘴,让AI帮你搞定电脑手机上的一切"。无论是订票、填表、整理文件,还是在陌生软件上完成复杂操作,未来的AI管家将有能力跨越应用边界、跨越操作系统、跨越语言障碍,为每一个普通用户服务。这条路还很长,但WildGUI无疑是其中扎实的一步。研究团队已承诺开源WildGUI数据集和Video2GUI处理框架,这意味着学术界和工业界都可以在这个基础上继续构建,形成良性的生态循环。有兴趣深入探索的读者,不妨通过arXiv编号2605.14747查阅完整论文,项目主页也已公开,包含更多技术细节和示例展示。

Q&A

Q1:WildGUI数据集和现有GUI数据集相比有什么特别的地方?

A:WildGUI是目前规模最大的开源GUI预训练数据集,包含1270万条操作轨迹和1.245亿张截图,覆盖超过1500款应用和网站,同时支持网页、手机和桌面三大平台。它既有高层次任务指令也有低层次具体动作标注,而且全部来自自动化流水线处理真实互联网视频,不需要人工逐条标注,规模是此前最大开源数据集的十倍以上。

Q2:Video2GUI框架处理一条数据需要多少钱?

A:整个流水线的API成本大约是每条样本0.0763美元。其中轨迹提取最贵,每条样本约0.0653美元;动作空间定位每条约0.011美元;视频质量打分用的是自部署的开源模型Qwen2.5-Omni,成本可以忽略不计。由于WildGUI数据集已经开源,后续用户不需要重新跑一遍这个标注流程。

Q3:Video2GUI框架提取的操作轨迹坐标准确度有多高?

A:研究团队随机抽取200条动作进行人工核验,结果显示超过95%的动作被准确定位。这得益于"三帧策略"——每个动作时间戳前后各0.5秒的三帧截图一起输入模型,能有效应对GUI操作频率高、时间戳可能存在微小偏差的问题,确保目标元素出现在至少一帧画面中。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。