让AI自己“动手刷”手机！清华、智谱团队推出MobileRL框架，9B模型实现SOTA

IP属地中国·北京 编辑：朱天宇学术头条 时间：2025-08-25 20:15:26

从早上睁眼到深夜入睡，我们的生活、工作几乎被手机“全程托管”——聊天、回领导消息、查天气、看日程、订外卖……手机早已不是简单的通讯工具，而是我们已经离不开的特殊存在。
但这些操作往往重复又琐碎：打开 App、切换界面、输入信息，既耗时又繁杂。如果 AI 能像人类一样操作手机，许多任务就能自动完成，大大提高效率。
于是，这带来了一个关键问题：我们该如何训练 AI 真正“用得了”手机呢？
为此，来自清华大学和智谱的研究团队提出了一个全新的研究框架——MobileRL。它让视觉语言模型（VLM）不仅能理解人类指令，还能在真实移动环境中自主完成复杂操作任务，为打造真正实用的智能助手迈出了关键一步。

论文链接：
https://github.com/Xiao9905/AutoGLM/blob/main/static/papers/mobilerl_0820.pdf
为什么手机 Agent 这么难做？
视觉语言模型（VLM）最近在图形用户界面（GUI）交互中展现出作为通用智能体（Agent）的潜力。例如，它们能够实现网页端和移动端的零样本交互。然而，这些方法依赖于静态专家演示来学习单个动作映射，但在新环境中部署时会遇到误差累积的问题。
推理模型训练的成功推动了“可验证奖励”的强化学习范式的普及。单步专家数据集自然地提供规范的动作标签。因此，基于专家演示的单步强化学习既直接又实用。然而，这种方法本质上存在局限。它无法在完整的动作序列上进行交互和训练。
在 GUI Agent 领域，也有一些关于在线学习的探索。但是，这些方向仍然未能系统地解决，在移动模拟器中如何有效减少探索成本的问题。
要训练出在交互式移动环境中既稳定又高效的 GUI Agent，仍然面临三大现实挑战。
首先，未经调优的基础模型难以稳定地产生符合格式的操作命令，尤其是在处理复杂的、特定于 GUI 的指令时。同时，移动仿真过程中的高成本和延迟，使得正确执行的回合非常罕见。这进一步导致了早期探索阶段的数据利用效率较低；高成本与高延迟共同作用，使得成功的回合更加稀少，进一步降低了早期探索的样本效率。
其次，许多任务需要多次尝试才能成功，而有些任务始终无法解决。在这种情况下，盲目采样不仅会浪费大量计算资源，还未能充分利用那些稀缺但具有重要信息价值的高难度成功案例。
最后，部署和管理数百个并发的移动实例是一项资源密集型工作。这种部署方式不仅难以在不同设置下进行复现，而且通常会导致较低的采样吞吐量。这最终限制了在线强化学习的规模和效率。
目前，大多数方法仍局限于离线强化学习环境或单回合交互。在线或多回合强化学习在交互式、自适应移动 GUI Agent 中的潜力仍然缺乏系统性的探索。
MobileRL：教会 AI 使用手机
MobileRL 框架旨在增强视觉语言 Agent 在移动 GUI 任务中的表现，包括三个组成部分：在专家演示数据上的监督微调、迭代推理强化（一个迭代预热阶段）和难度自适应 GRPO（DGRPO）。

图｜Agent 完成的示例移动任务，能够根据人类指令，在学术基准测试和真实应用场景中自动执行任务。
由于在虚拟设备环境中的采样效率较低，初步实验发现，直接从基础模型开始进行在线强化学习会非常耗时。因此，研究团队首先遵循 AndroidLab 采用的数据收集协议，获取专家演示数据，并将其用于监督微调。接下来，通过推理增强的迭代预热阶段，在专家数据集上构建出更强的推理初始化器。随后，再应用 DGRPO 以实现高效的在线优化。
在观察空间中，他们采用双重表示方式：当前屏幕截图和压缩的可扩展标记语言（Extensible Markup Language，XML）。在大多数情况下，Agent 可以通过 XML 中的坐标来指定点击位置，从而避免脆弱的像素级 grounding;。当涉及图形提示或 XML 信息不完整时，屏幕截图则提供了必要的视觉细节。
人工收集的、针对移动应用的专家演示数据集通常只包含最终的动作序列，而忽略了中间的推理过程。仅使用这种“黑盒”轨迹进行训练会导致生成的策略不透明，同时也使得大量未标注的任务无法被充分利用。他们用现成的 Instruct 模型来激活专家数据，并从原始演示数据中引导出一个推理增强的训练集，从而获得结构化且透明的策略初始化。
他们的在线强化学习阶段引入了难度自适应组相对策略优化（DGRPO），它是组相对策略优化（GRPO）的扩展方法，能够根据实例的难度进行优化调整，并明确奖励解决方案的执行效率。
首先，难度自适应正向回放（DAPR）维护一个经过筛选的高质量困难轨迹缓冲区，并将其与新的在线策略样本进行平衡。在稀疏奖励的移动环境中，困难任务的成功非常罕见，但信息量极高。通过回放这些成功案例，可以增强其学习信号，并在一定程度上稳定策略的更新过程。
此外，失败课程过滤（FCF）通过在线难度统计，降低那些难以解决任务的采样权重，从而将计算资源重新分配给具有挑战性但可行的任务。
最后，最短路径奖励调整（SPA）会根据完成路径的长度来调整奖励函数，对较短的解决方案赋予更高的奖励。

图｜左：在 AndroidWorld（Rawles 等，2024）和 AndroidLab（Xu 等，2024）上的成功率（SR）；阴影区域表示 MobileRL 带来的提升。右侧：MobileRL 在训练集上的轨迹级奖励，并附有 95% 的置信区间（CI），显示出一致的性能增长。
以小搏大，9B 模型实现 SOTA
研究团队在 AndroidWorld 和 AndroidLab 基准测试中，使用 Qwen2.5-VL-7B 和 GLM-4.1V-9B-Base 作为基础模型，对 MobileRL 进行了评估。该方法的性能显著优于闭源模型（例如，GPT-4o：34.5% / 31.2%）。
以 Qwen2.5-VL-7B 为基础模型时，MobileRL 在 AndroidWorld 上达到了 72.0%，在 AndroidLab 上为 42.5%，超越了现有 SOTA 方法。使用 GLM-4.1V-9B 作为基础模型时，性能进一步提升，AndroidWorld 上的成功率为 75.8%，AndroidLab 为 46.8%，在所有模型中实现 SOTA 性能。

图｜在 AndroidWorld 和 AndroidLab 基准测试中，闭源和开源模型在移动 GUI 交互任务中的成功率（SR）。AutoGLM-Mobile-9B 在这两个基准测试中均达到了最高性能。
为了评估 MobileRL 框架及 DGRPO 算法中各个组件的贡献，他们还进行了消融实验。他们以 Qwen2.5-VL-7B-Instruct 和 GLM-4.1V-9B-Base 作为基础模型，逐步应用 SFT、IRR 和 DGRPO。随后，他们以经过 SFT 和 IRR 训练的 Qwen2.5-VL-7B-Instruct 为初始模型，详细分析了 DGRPO 每个组成部分的影响。

图｜MobileRL 框架的消融实验，逐步应用 SFT、IRR 和 DGRPO。对于 GLM-4.1V-9B 系列模型，训练基于 GLM-4.1V-9B-Base，但他们与 GLM-4.1V-9B-Thinking 进行对比，因为基础模型无法合理地衡量移动 Agent 的得分。

图｜消融实验结果：（a）训练过程中轨迹级别的奖励；（b）不同模型变体在 AndroidWorld 上的测试性能。所有模型均仅在 AndroidWorld 的训练集上进行训练，实验结果取三次运行的平均值，以减少随机性带来的影响。
SFT 阶段显著提升了模型的初始性能，在基准测试中平均提高了 20–25%；而 IRR 带来了约 5–10% 的额外改进。最终，DGRPO 阶段实现了最高的整体成功率。Qwen2.5-VL 的总提升超过 40%，GLM 的提升则超过 30%。这些结果突出了三部分机制之间的互补性，并展示了将监督微调、迭代推理精化与强化学习结合起来，在提升 Agent 能力方面的有效性。
总而言之，MobileRL 在多个基准测试中均展现出卓越的性能表现，这为未来的 Agent 研究提供了强有力的工具与方法支持。
此外，研究团队还将 MobileRL 的训练流程整合进了 AutoGLM 产品中，进一步拓展了该方法的实际应用前景。
整理：小羊
如需转载或投稿，请直接在公众号内留言

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

商家祭出“巨型吊牌”这个新法宝，就能降低网购退货率吗？

雅迪、爱玛发布声明！

消息称英特尔2028年起为苹果iPhone标准版代工芯片

Mac“记忆外挂”应用Rewind被Meta突袭收购，两周后停运

AI热潮的真相，大湾区这场论坛说清楚了

印度拟强制手机全天候开启A-GPS辅助定位：精度1米内

全站最新

商家祭出“巨型吊牌”这个新法宝，就能降低网购退货率吗？

雅迪、爱玛发布声明！

消息称英特尔2028年起为苹果iPhone标准版代工芯片

Mac“记忆外挂”应用Rewind被Meta突袭收购，两周后停运

热门推荐

李肖爽：小米汽车改配现车后依然保留原订单权益

无SIM卡槽！苹果首款折叠屏仅支持eSIM

鸿蒙智行累计销量突破100万台：问界M9独占超四分之一！

腾讯自研大模型混元2.0发布：多方面能力提升

商家祭出“巨型吊牌”这个新法宝，就能降低网购退货率吗？

雅迪、爱玛发布声明！

消息称英特尔2028年起为苹果iPhone标准版代工芯片

Mac“记忆外挂”应用Rewind被Meta突袭收购，两周后停运

新东方员工回应发全员信：希望管理层重视员工诉求

特斯拉FSD重大升级：允许开车发短信

SpaceX，重磅！

AI热潮的真相，大湾区这场论坛说清楚了

印度拟强制手机全天候开启A-GPS辅助定位：精度1米内

早报｜小米17 Ultra谍照曝光/四天换四名高管，苹果新UI主管上任/任正非点赞小鹏机器人：敢闯敢试精神代表未来

9月，全球AI月访问量达70亿次，同比增长76%，流量直逼社交网络