从早上睁眼到深夜入睡,我们的生活、工作几乎被手机“全程托管”——聊天、回领导消息、查天气、看日程、订外卖……手机早已不是简单的通讯工具,而是我们已经离不开的特殊存在。
但这些操作往往重复又琐碎:打开 App、切换界面、输入信息,既耗时又繁杂。如果 AI 能像人类一样操作手机,许多任务就能自动完成,大大提高效率。
于是,这带来了一个关键问题:我们该如何训练 AI 真正“用得了”手机呢?
为此,来自清华大学和智谱的研究团队提出了一个全新的研究框架——MobileRL。它让视觉语言模型(VLM)不仅能理解人类指令,还能在真实移动环境中自主完成复杂操作任务,为打造真正实用的智能助手迈出了关键一步。
论文链接:
https://github.com/Xiao9905/AutoGLM/blob/main/static/papers/mobilerl_0820.pdf
为什么手机 Agent 这么难做?
视觉语言模型(VLM)最近在图形用户界面(GUI)交互中展现出作为通用智能体(Agent)的潜力。例如,它们能够实现网页端和移动端的零样本交互。然而,这些方法依赖于静态专家演示来学习单个动作映射,但在新环境中部署时会遇到误差累积的问题。
推理模型训练的成功推动了“可验证奖励”的强化学习范式的普及。单步专家数据集自然地提供规范的动作标签。因此,基于专家演示的单步强化学习既直接又实用。然而,这种方法本质上存在局限。它无法在完整的动作序列上进行交互和训练。
在 GUI Agent 领域,也有一些关于在线学习的探索。但是,这些方向仍然未能系统地解决,在移动模拟器中如何有效减少探索成本的问题。
要训练出在交互式移动环境中既稳定又高效的 GUI Agent,仍然面临三大现实挑战。
首先,未经调优的基础模型难以稳定地产生符合格式的操作命令,尤其是在处理复杂的、特定于 GUI 的指令时。同时,移动仿真过程中的高成本和延迟,使得正确执行的回合非常罕见。这进一步导致了早期探索阶段的数据利用效率较低;高成本与高延迟共同作用,使得成功的回合更加稀少,进一步降低了早期探索的样本效率。
其次,许多任务需要多次尝试才能成功,而有些任务始终无法解决。在这种情况下,盲目采样不仅会浪费大量计算资源,还未能充分利用那些稀缺但具有重要信息价值的高难度成功案例。
最后,部署和管理数百个并发的移动实例是一项资源密集型工作。这种部署方式不仅难以在不同设置下进行复现,而且通常会导致较低的采样吞吐量。这最终限制了在线强化学习的规模和效率。
目前,大多数方法仍局限于离线强化学习环境或单回合交互。在线或多回合强化学习在交互式、自适应移动 GUI Agent 中的潜力仍然缺乏系统性的探索。
MobileRL:教会 AI 使用手机
MobileRL 框架旨在增强视觉语言 Agent 在移动 GUI 任务中的表现,包括三个组成部分:在专家演示数据上的监督微调、迭代推理强化(一个迭代预热阶段)和难度自适应 GRPO(DGRPO)。
图|Agent 完成的示例移动任务,能够根据人类指令,在学术基准测试和真实应用场景中自动执行任务。
由于在虚拟设备环境中的采样效率较低,初步实验发现,直接从基础模型开始进行在线强化学习会非常耗时。因此,研究团队首先遵循 AndroidLab 采用的数据收集协议,获取专家演示数据,并将其用于监督微调。接下来,通过推理增强的迭代预热阶段,在专家数据集上构建出更强的推理初始化器。随后,再应用 DGRPO 以实现高效的在线优化。
在观察空间中,他们采用双重表示方式:当前屏幕截图和压缩的可扩展标记语言(Extensible Markup Language,XML)。在大多数情况下,Agent 可以通过 XML 中的坐标来指定点击位置,从而避免脆弱的像素级 grounding;。当涉及图形提示或 XML 信息不完整时,屏幕截图则提供了必要的视觉细节。
人工收集的、针对移动应用的专家演示数据集通常只包含最终的动作序列,而忽略了中间的推理过程。仅使用这种“黑盒”轨迹进行训练会导致生成的策略不透明,同时也使得大量未标注的任务无法被充分利用。他们用现成的 Instruct 模型来激活专家数据,并从原始演示数据中引导出一个推理增强的训练集,从而获得结构化且透明的策略初始化。
他们的在线强化学习阶段引入了难度自适应组相对策略优化(DGRPO),它是组相对策略优化(GRPO)的扩展方法,能够根据实例的难度进行优化调整,并明确奖励解决方案的执行效率。
首先,难度自适应正向回放(DAPR)维护一个经过筛选的高质量困难轨迹缓冲区,并将其与新的在线策略样本进行平衡。在稀疏奖励的移动环境中,困难任务的成功非常罕见,但信息量极高。通过回放这些成功案例,可以增强其学习信号,并在一定程度上稳定策略的更新过程。
此外,失败课程过滤(FCF)通过在线难度统计,降低那些难以解决任务的采样权重,从而将计算资源重新分配给具有挑战性但可行的任务。
最后,最短路径奖励调整(SPA)会根据完成路径的长度来调整奖励函数,对较短的解决方案赋予更高的奖励。
图|左:在 AndroidWorld(Rawles 等,2024)和 AndroidLab(Xu 等,2024)上的成功率(SR);阴影区域表示 MobileRL 带来的提升。右侧:MobileRL 在训练集上的轨迹级奖励,并附有 95% 的置信区间(CI),显示出一致的性能增长。
以小搏大,9B 模型实现 SOTA
研究团队在 AndroidWorld 和 AndroidLab 基准测试中,使用 Qwen2.5-VL-7B 和 GLM-4.1V-9B-Base 作为基础模型,对 MobileRL 进行了评估。该方法的性能显著优于闭源模型(例如,GPT-4o:34.5% / 31.2%)。
以 Qwen2.5-VL-7B 为基础模型时,MobileRL 在 AndroidWorld 上达到了 72.0%,在 AndroidLab 上为 42.5%,超越了现有 SOTA 方法。使用 GLM-4.1V-9B 作为基础模型时,性能进一步提升,AndroidWorld 上的成功率为 75.8%,AndroidLab 为 46.8%,在所有模型中实现 SOTA 性能。
图|在 AndroidWorld 和 AndroidLab 基准测试中,闭源和开源模型在移动 GUI 交互任务中的成功率(SR)。AutoGLM-Mobile-9B 在这两个基准测试中均达到了最高性能。
为了评估 MobileRL 框架及 DGRPO 算法中各个组件的贡献,他们还进行了消融实验。他们以 Qwen2.5-VL-7B-Instruct 和 GLM-4.1V-9B-Base 作为基础模型,逐步应用 SFT、IRR 和 DGRPO。随后,他们以经过 SFT 和 IRR 训练的 Qwen2.5-VL-7B-Instruct 为初始模型,详细分析了 DGRPO 每个组成部分的影响。
图|MobileRL 框架的消融实验,逐步应用 SFT、IRR 和 DGRPO。对于 GLM-4.1V-9B 系列模型,训练基于 GLM-4.1V-9B-Base,但他们与 GLM-4.1V-9B-Thinking 进行对比,因为基础模型无法合理地衡量移动 Agent 的得分。
图|消融实验结果:(a)训练过程中轨迹级别的奖励;(b)不同模型变体在 AndroidWorld 上的测试性能。所有模型均仅在 AndroidWorld 的训练集上进行训练,实验结果取三次运行的平均值,以减少随机性带来的影响。
SFT 阶段显著提升了模型的初始性能,在基准测试中平均提高了 20–25%;而 IRR 带来了约 5–10% 的额外改进。最终,DGRPO 阶段实现了最高的整体成功率。Qwen2.5-VL 的总提升超过 40%,GLM 的提升则超过 30%。这些结果突出了三部分机制之间的互补性,并展示了将监督微调、迭代推理精化与强化学习结合起来,在提升 Agent 能力方面的有效性。
总而言之,MobileRL 在多个基准测试中均展现出卓越的性能表现,这为未来的 Agent 研究提供了强有力的工具与方法支持。
此外,研究团队还将 MobileRL 的训练流程整合进了 AutoGLM 产品中,进一步拓展了该方法的实际应用前景。
整理:小羊
如需转载或投稿,请直接在公众号内留言