Youtu-Agent团队 投稿
量子位 | 公众号 QbitAI
在学校里做实验的时候,老师如何确定我们做了实验并且达到了预期效果呢?——最常见的做法是让学生写一份实验报告交上来。
现在,AI智能体拿到一个任务以后如何检验执行的效果有没有达到预期呢?我们也可以让AI在执行任务的同时主动提交一份证据链报告,边做边收集任务完成的证据,自我检查是否符合预期,不符合就继续做。
![]()
在LLM/VLM驱动的智能体(Agent)的强化学习(RL)研究中,一直面临一个巨大的挑战:
你交给智能体一个任务,它干完了,但你不知道完成度如何。

为了确认它是否真的准确完成了任务,我们不得不建立庞大的“监督系统”来复核它的每一步操作。这种“被动验证”往往需要:
手工设计的复杂校验机制(比如:完全匹配的输出内容);强大的轨迹级验证方法(比如:LLM/VLM-as-a-Judge众投决策)。
这两种常见的先完成任务(task completion)再校验轨迹(outcome verification)的机制有以下缺点:
效率较低,人工设计的准则依赖预先编写好的评估脚本,难以简单泛化到新的任务(比如新的APP);轨迹带噪且上下文冗长,将整条轨迹送给LLM/VLM来评判很容易被无关的环境信息干扰,降低评分的可靠性;依赖持续可观测环境的反馈信息,部分操作往往因为环境变化(如页面刷新、操作过期)而导致验证失败。
针对以上问题,我们提出了一种简单的RL训练方法,让智能体自己成为“质检员”,在尽可能减少校验器(Verifier)审核压力的同时,让智能体学会主动分解子目标并且留痕存证。
什么是SmartSnap?
SmartSnap的核心思想是将GUI智能体从“被动的执行者”转变为“主动的自证者”。
简单来说,智能体在完成任务的同时,还会主动收集、筛选并提交一份“证据快照集”。
这份证据就像是任务的“结项报告”,让验证者只需看一眼快照,就能确认任务是否成功。
![]()
三大核心突破:从“执行”到“自证”
1. 角色升级:双重使命的“自证代理”
传统的智能体只负责“做(Execute)”,而SmartSnap提出了“自证智能体”(Self-Verifying Agent),赋予了它“自我验证(Verify)”的第二使命。
它在操作过程中会像人类一样思考:“为了证明我已经改好了设置,我需要把对开关状态截图并作为证据提交。”
2. “3C原则”:高效率的证据美学
为了避免给验证者造成信息过载,SmartSnap提出了证据策展的3C原则
完整性(Completeness)证据必须足以证明任务已闭环。简洁性(Conciseness)不要冗长的视频,只要最关键的几张“定格”瞬间。创造性(Creativity)为了拿到证据,智能体甚至会主动执行“额外操作”。例如,订完票后主动跳回订单页截图。
3. 强化学习驱动:GRPO+内在奖励反馈
我们利用GRPO算法对智能体进行了训练。通过精心设计的奖励机制(Intrinsic Reward Shaping),引导智能体在保证任务成功率的同时,不断提升证据的质量,尽可能减少奖励黑客行为(reward hacking)。
战绩显赫:小模型也不错
SmartSnap的表现令人惊艳,它在AndroidLab等复杂的任务上提升显著:
![]()
性能飞跃在不同规模的模型上,均实现了显著的性能提升(最高提升达26.08%)。以小博大经过SmartSnap训练的中等参数模型(如Qwen3-32B),在自证能力的加持下,其表现甚至持平DeepSeek-V3/Qwen3-235B等开源大模型
通过感性分析,我们还观察到以下特点:
举证效率平均每个任务只需提交1.5张快照证据,极大地降低了后端的验证成本。高效交互智能体在训练过程中由于拟合少量的训练集而变得游刃有余,交互轮数不断减少。知识欠缺在部分APP上,我们观察到智能体存在反复、没有显著增益的表现,其领域知识的欠缺导致无法收敛到有效的解决方案(比如地图APP的各项复杂路径规划任务)。这表明模型需要依赖更多知识注入来指导探索。
为什么这简化了智能体RL训练的准备工作?
在手机端、OS端这类环境的操作中,由于其时效性特点,传统的外部验证器很难精准捕捉瞬时的成功信号。
SmartSnap就像是给智能体配上了一台取证相机。它不再需要事先对环境所有状态有一个预期的变化感知来撰写校验脚本,或者让裁判员模型盯着全程轨迹来仔细推敲,而是让智能体自己边做边收集必要的证据。
这允许我们基于合成的任务轻松拓展其训练场景,并针对有限的证据链来判断成功与否,让RL训练更加便捷。
面向未来
SmartSnap的出现,标志着GUI智能体正从“蛮力执行”走向“认知协同”。这种主动寻找证据的能力,不仅提升了AI的可靠性,更为未来大规模、低成本的AI部署铺平了道路。
未来的AI,不仅要“能干”,更要“可信”。
论文标题:
SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
论文地址:
https://arxiv.org/abs/2512.22322
代码地址:
https://github.com/TencentYoutuResearch/SmartSnap





京公网安备 11011402013531号