阿里巴巴云计算团队打造"错误侦探"系统，让AI学会自我纠错

IP属地中国·北京 科技行者 时间：2026-06-04 18:30:02

这项由阿里巴巴云计算团队完成的研究发表于2026年第43届国际机器学习大会（ICML 2026），会议地点为韩国首尔，收录于PMLR 306论文集。感兴趣的读者可以通过论文编号arXiv:2605.29447查询完整论文。
你有没有用过AI助手帮你订机票、整理文件或者操作电脑？也许你发现过这样一种让人抓狂的情况：AI助手明明做错了，比如点击了错误的按钮，或者把文件存到了错误的地方，但它浑然不觉，继续一路往错误的方向走，越走越偏，直到彻底搞砸整件事。
这就是今天这篇研究要解决的核心问题——如何让AI助手在操作电脑时，能够像一个有经验的人类操作员那样，发现自己犯了错误，然后及时调整、纠正，最终把任务完成好。
研究团队把这类能力称为"鲁棒性"，也就是当AI自己制造了麻烦之后，还能收拾残局的能力。为了攻克这个难题，他们从两个方向同时出发：一方面建立了一套叫做GUI-RobustEval的评测系统，专门用来检验AI助手的纠错能力；另一方面提出了一套叫做RoTS（鲁棒性驱动轨迹合成）的训练数据生成方法，用来帮助AI从大量真实错误案例中学习如何纠错。最终训练出来的两个模型RoTS-7B和RoTS-32B，在多项测试中都超过了现有同类AI助手，其中RoTS-32B在OSWorld这个权威测试集上达到了47.4%的成功率，刷新了当时的最优记录。
一、AI助手为什么会"迷路"，还不知道自己迷路了？
要理解这项研究的价值，先得搞清楚AI助手是怎么工作的。这类AI系统被称为GUI智能体——GUI就是图形用户界面，也就是我们平时用鼠标和键盘操作的那种电脑桌面。AI助手接收用户的指令，比如"帮我把这份Excel表格里所有员工的年龄都计算出来"，然后它会通过截图观察屏幕，思考下一步该干什么，再模拟鼠标点击或键盘输入来完成操作。
问题在于，AI助手的每一步判断都不是百分之百准确的。它可能认错了按钮，点到了旁边那个长得很像的功能键；它可能对当前屏幕的状态理解有误，以为自己已经完成了某个步骤，其实根本没有；它可能制定了一个从一开始就走错方向的计划。研究团队把这些由AI自身行为产生的错误称为"策略诱导错误"，区别于外部干扰或者系统故障造成的问题。
更棘手的是，很多错误并不会在犯下的那一刻立刻暴露。就像一个厨师在做菜时不小心少放了盐，这个问题可能要等到菜端上桌、客人尝了第一口才被发现。研究团队分析了12个当前最先进的AI助手在真实任务上的失败案例，发现大约有40%以上的错误需要在犯错后再走好几步才能被察觉。这意味着AI助手不仅需要能识别"我现在做的这步是不是错的"，还需要能在走了一段弯路之后回头审视，找出几步之前埋下的那个祸根。
现有的训练数据和评测标准都没有很好地覆盖这种"延迟发现的深层错误"。研究团队把这个问题分成了两个缺口：一是"错误覆盖缺口"，就是训练数据里的错误类型太单一，主要是一些简单的低级操作失误，而真实任务中出现的高级规划错误几乎没有；二是"错误时间跨度缺口"，就是训练数据里的错误几乎都是刚犯下就被识别的，而真实任务中常见的那种走了好几步才暴露的错误基本缺失。正是这两个缺口，导致现有AI助手在面对真实操作失误时表现不佳。
二、"错误深度"：一把量尺，衡量AI有多能扛
研究团队建立的评测系统GUI-RobustEval，最核心的创新在于引入了一个叫做"错误深度"的概念。这个概念非常直观：当AI助手犯了一个关键错误之后，它又继续往前走了几步？走得越多，代表错误的影响越深、越难纠正，也就对AI的纠错能力要求越高。
评测系统一共包含1216个可执行的测试案例，覆盖了11种具有代表性的错误类型，而且每种错误都被设置在四个不同的深度级别（0步、1步、3步和5步）。所谓深度0，就是AI刚刚犯了一个错，马上让它接管任务，看它能不能立刻意识到；深度5则意味着AI已经在错误状态下又走了5步，整个任务状态已经偏离了很远，再来看它能不能挽回局面。
这11种错误类型涵盖了从低级操作失误到高级认知偏差的全谱。操作层面的错误包括：点击了错误的界面元素（比如把"保存"按钮认成了"关闭"按钮）、点击位置不够精确、执行了一个什么变化都没产生的无效操作、打字时输入了错误内容；规划层面的错误则包括：漏掉了某个必要步骤（比如忘记保存文件）、使用了错误的工具或快捷键、操作的目标对象弄错了（比如该处理A列数据却处理了B列）、参数设置有误（比如字体大小设错了）、对任务目标本身理解错了、不知道任务已经完成还在继续操作、以及因为不懂某个软件的具体知识而选择了错误的策略。
评测使用了两个指标：一个叫"错误感知率"，测的是AI助手接管任务后能不能在第一时间意识到存在问题；另一个叫"错误后成功率"，测的是AI最终能不能把整个任务完成。这两个指标相互补充——感知是纠错的前提，但光感知到还不够，还得真的能把任务做完。
评测结果揭示了一个关键规律：随着错误深度的增加，所有被测试的AI助手的成功率都会大幅下降。从深度0到深度5，成功率的下降幅度从33%到75%不等，最差的模型在深度5时成功率几乎归零。这说明当前AI助手普遍缺乏处理"深层历史错误"的能力，而这恰恰是真实任务中最常见的情况。
三、"错误侦探系统"：像查案一样寻找失败的根源
如果说GUI-RobustEval是一套用来"体检"AI助手纠错能力的工具，那么RoTS就是一套用来"训练"AI助手纠错能力的方法。理解RoTS的关键，在于理解它如何用一种像侦探查案一样的思路，系统性地生成大量包含错误和纠错过程的训练数据。
整个方法的基础是一种叫做"轨迹树"的数据结构。把AI助手完成一个任务的过程比作一棵树：树根是任务开始的状态，每一个节点代表屏幕的一个截图状态，每一条边代表AI执行的一个操作。从根到叶子的每一条路径，就是AI完成任务的一条完整尝试记录。有些路径走向了正确的终点（任务成功），有些路径走向了失败。
RoTS的核心算法叫做"探索-恢复协同扩展"，它同时对成功路径和失败路径进行分析和扩展，形成一个自我强化的学习循环。这个循环分两条线索并行推进。
第一条线索叫"脆弱性驱动探索"。它专注于已经成功的路径，但它不是简单地把成功路径收集起来，而是沿着成功路径寻找那些"下一步很容易走错"的关键节点——就像一个侦探在勘查案发现场时，不只是记录案件经过，还在主动寻找哪些地方最容易出事。对于每一个节点，系统会让AI助手尝试多种不同的下一步操作，然后通过一个进展评估模型来打分，看看这些操作中有多少是错误的。一个节点的错误率越高，说明这里越"脆弱"，越值得重点关注。系统会从这些脆弱节点出发，继续向下探索，人为地产生多种可能的失败模式，从而积累更丰富的错误案例。
第二条线索叫"经验引导恢复"。它专注于已经失败的路径，试图找出失败的根源，并从那个错误发生的节点开始，生成一条成功纠错并最终完成任务的新路径。关键的创新在于，系统不是孤立地分析每一条失败路径，而是把失败路径和同一任务中其他分支的路径放在一起对比——如果失败路径在第5步做了操作A导致了问题，而旁边分支在第5步做了操作B却顺利完成了任务，那么这个对比就是一条非常有价值的线索。系统用一个"经验引导反思模型"来综合分析这些对比信息，推断出错误最可能发生在哪一步，并生成一段具体的纠错建议，比如"你应该先恢复原来的设置，因为任务要求没有提到删除这个选项"。拿到这段建议之后，系统再让一个"恢复执行模型"从错误节点出发，按照建议重新尝试，生成包含完整纠错过程的训练数据。
这两条线索共同工作的效果是：探索线索解决了"错误覆盖缺口"，因为它主动去发现那些原本不容易出现在训练数据中的多样化失败模式；恢复线索解决了"错误时间跨度缺口"，因为它专门生成从深层错误状态出发的长程纠错轨迹。
四、数据清洗：不是所有轨迹都值得学习
收集完大量轨迹数据之后，研究团队面临的下一个问题是：这些数据质量参差不齐，直接拿来训练可能会适得其反。就像一个厨艺培训班收集了大量学员的烹饪记录，但有些记录里学员做到一半走神犯了错，有些记录里环境条件不稳定导致同一步骤每次结果不一样——这些"脏数据"如果直接用来教学，只会让新学员学到一些坏习惯。
为此，研究团队设计了一套三层过滤机制。第一层是"环境稳定性过滤"，剔除那些因为系统环境本身不稳定（比如弹出了意外的提示窗口）而导致同一操作结果不一致的轨迹。第二层是"步骤质量过滤"，使用进展评估模型和操作准确性评估模型，逐步检查每条轨迹中的每一步操作，把那些规划不合理或者执行有误的步骤标记出来，从训练数据中删除，只保留真正正确的步骤。第三层是"反思行为识别"，用一个专门的模型来判断每个步骤的思考过程中是否包含有效的"纠错反思"——也就是既明确指出了某个之前的步骤是错误的，又提出了具体的改正策略。包含这类反思行为的步骤被单独归入一个叫做"反思数据集"的子集。
清洗之后，训练数据被分成两部分：一部分是不含特别反思行为的普通步骤，叫做"反思无关数据集"；另一部分是包含有效纠错反思的步骤，叫做"反思相关数据集"。最终的训练数据是两者的混合，其中反思相关数据的比例被设定为10%。这个比例是经过系统实验找到的最优值——比例太低，AI学不到足够的纠错能力；比例太高，AI会养成"过度反思"的坏习惯，每走一步都要停下来自我质疑，反而效率低下、任务失败率反升。
五、实验结果：数字背后的真实含义
研究团队把训练好的RoTS-7B和RoTS-32B放到三个不同的测试场景中进行了系统评估。
在GUI-RobustEval的测试中，两个模型在所有开源模型里排名最高。RoTS-7B在深度0到深度5的平均成功率为34.2%，RoTS-32B则达到了40.3%，分别超过了规模相当的竞争对手OpenCUA-7B和OpenCUA-32B。更值得关注的是，在最难的深度5测试中，RoTS-7B的成功率仅下降了38%（从深度0的43.5%降到深度5的26.7%），RoTS-32B仅下降了33%（从49.7%降到33.2%），而其他模型的下降幅度普遍在41%到75%之间。这说明RoTS训练的模型在面对深层历史错误时有着更强的"抗跌性"。
在错误感知率方面，RoTS-7B达到了51.9%，RoTS-32B达到了58.8%，意味着超过一半的时间里，模型在接管任务的第一时间就能意识到存在问题。作为对比，专门设计的GUI-Owl-7B模型的感知率只有5.9%，相当于接近瞎摸。
在OSWorld这个包含369个Ubuntu桌面任务的全面测试中，RoTS-32B以47.4%的成功率（最多50步）刷新了所有开源模型的记录，超过了当时一些规模大得多的模型。更能体现"稳定性"的指标是All-Pass@4——这个指标要求模型在同一任务的4次独立尝试中全部成功，对应着真实应用中"每次使用都能可靠完成任务"的需求。RoTS-32B在这个指标上达到了33.8%，而同类竞争对手OpenCUA-32B只有15.5%，差距接近一倍。换句话说，RoTS训练的模型不仅会，还"稳"。
在Windows操作系统的测试平台WindowsAgentArena上，RoTS-7B和RoTS-32B分别达到了28.2%和39.1%的成功率，超过了包括将开源小模型与专有大模型组合使用的混合架构（Jedi-7B搭配GPT-4o，32.9%）在内的所有对比方案。
六、消融实验：拆解这台机器，看看每个零件有多重要
为了验证方法中每个组成部分的实际贡献，研究团队做了一系列"拆零件"的对比实验，在相同的计算预算下，比较不同配置的效果。
当只使用普通的并行采样（相当于让多个AI同时尝试完成任务，不做任何特殊的错误探索和恢复）时，OSWorld上的成功率为18.1%。加入脆弱性驱动探索之后，成功率上升到19.6%，说明主动探索失败模式确实有助于提升整体成功率。加入经验引导恢复之后，成功率也上升到19.5%，同时All-Pass@4从8.6%跃升到12.1%，说明专门的纠错训练对稳定性的提升效果更为显著。当两者同时使用时，All-Pass@4达到14.1%，成功率达到21.4%，充分体现了两条线索的协同效应。
研究团队还专门比较了自己生成的训练数据与人类示范数据的质量差异。他们把一个高质量的人类操作数据集AgentNet作为对照，发现单独使用AgentNet中的普通操作数据（不含纠错示例）时，OSWorld的All-Pass@4只有7.8%；加入AgentNet自带的人类纠错示例后，仅提升到8.4%；而把人类纠错示例替换成RoTS生成的策略诱导错误纠错示例后，直接跳到11.6%；使用全套RoTS数据（包括普通操作数据和纠错数据）时，达到最高的14.1%。这说明，AI在实际操作中犯的错误与人类犯的错误在性质上有根本差异，只有用"AI自己会犯的错误"来训练，才能有效提升AI的纠错能力。
七、还不够完美：目前的局限和未来方向
研究团队对方法的局限性保持坦诚。目前整个系统只在桌面操作系统（Ubuntu和Windows）上进行了测试，手机和平板等移动设备上的AI操作场景尚未涉及。
在评测方面，GUI-RobustEval的测试需要将错误前缀历史注入到不同AI助手的输入格式中，而不同AI助手的格式存在差异，这种转换过程可能引入轻微的偏差。研究团队说明，这种转换在同一个助手的不同测试深度之间是一致应用的，因此对于比较同一助手在不同深度的表现影响不大，但跨助手的比较时需要留意这一点。
在实际表现中，研究团队也坦承，RoTS训练的模型有时会出现"过度反思"的问题，就像一个过于谨慎的人每走一步都要停下来想"我刚才做的对不对"，结果反而白白浪费了操作机会，没能在规定步数内完成任务。这个"适度"的拿捏，在未来的改进中还有空间。
研究团队展望了几个未来方向：将系统扩展到移动设备；通过数据飞轮或强化学习来让合成模型和训练模型在迭代中互相促进，形成自我进化的循环；以及在扩大任务规模和探索深度的同时保持成本可控。
说到底，这项研究解决的是一个在AI普及过程中越来越重要的实际问题：当AI助手代替我们完成操作任务时，它能不能像一个靠谱的人类助理那样，在出了错之后自己发现、自己纠正，而不是一路错到底还茫然不知？
研究团队给出的答案是：可以，但需要专门的训练数据。而这种训练数据不能靠人工编造，也不能简单地从人类操作记录中搬运，因为AI犯的错误和人类犯的错误在规律上有根本不同。只有让AI在真实环境中主动探索自己的失败模式，再从中学习如何纠错，才能培养出真正有用的"自我修复"能力。
这对普通用户意味着什么？当AI助手帮你处理文件、操作系统、完成工作流程时，它出错的概率依然存在，但出错之后不把整件事搞砸的概率会大大提高。这是迈向"可靠AI助手"的重要一步，虽然还不是终点。
一个值得继续思考的问题是：当AI助手能够非常熟练地纠正自己的错误时，我们人类对AI操作过程的监督习惯会不会随之改变？我们会不会因为"它会自己纠错"而变得更不注意检查AI的输出？这种信任与监督之间的微妙平衡，或许才是未来AI应用中更需要认真对待的挑战。对这篇研究感兴趣的读者，可以通过arXiv编号2605.29447找到完整的原始论文。
Q&A
Q1：GUI-RobustEval评测系统和普通的AI测试有什么不同？
A：GUI-RobustEval专门测试AI助手在自己犯错之后的纠错能力，而不是测它在理想情况下的操作准确性。它的独特之处在于引入了"错误深度"概念，把AI犯错后继续走了几步作为变量，测试AI在不同程度的错误积累下还能不能挽回局面。现有的大多数测试只考虑AI能不能完成任务，不专门测它犯错后的应对能力，GUI-RobustEval填补了这个空白，包含1216个测试案例，覆盖11种错误类型。
Q2：RoTS生成训练数据的成本大概是多少？
A：根据研究团队的成本分析，在20000个任务上完成完整的数据合成，总花费约为4.81万美元，耗时约16天。其中自部署开源模型的GPU服务器成本约1.99万美元，调用商业API的费用约2.17万美元，云端运行操作系统环境的费用约0.65万美元。研究团队认为这个成本是相对合理且可扩展的，因为生成的80万条高质量训练样本可以用来训练多个不同规模的模型。
Q3：反思数据在训练中占多少比例最合适，为什么不能全用反思数据？
A：研究发现最优比例是10%，也就是训练数据中有九成是普通操作步骤，只有一成是包含纠错反思的步骤。比例太低时AI学不到足够的纠错能力，但比例太高时AI会养成"过度反思"的习惯，每走一步都停下来自我怀疑，反而会在规定步数内完不成任务，实验显示当反思数据占比达到30%时，成功率甚至比完全不用反思数据还要低，从21.4%跌至14.8%。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

月之暗面回应马斯克：欢迎掰手腕

北京越野发布豪华品牌泰钽，首款车型预售价29.98万元起

微软与法国AI企业Mistral达成协议，斥资数十亿美元在欧洲建设算力基础设施

让Gemini帮你填表，谷歌Chrome浏览器将升级自动填充功能

66款AI硬件通过L3认证：华米OV耀全员入围，但没人突破L4天花板

AI产业链的卡位战，海信为何成了重要玩家？

全站最新

月之暗面回应马斯克：欢迎掰手腕

北京越野发布豪华品牌泰钽，首款车型预售价29.98万元起

微软与法国AI企业Mistral达成协议，斥资数十亿美元在欧洲建设算力基础设施

让Gemini帮你填表，谷歌Chrome浏览器将升级自动填充功能

热门推荐

马斯克放言将超越Kimi，月之暗面回应：欢迎较量且信心更足

阿里云函数计算云沙箱7月31日起启用新计费模式降本增效满足多元需求

月之暗面回应马斯克：欢迎掰手腕

北京越野发布豪华品牌泰钽，首款车型预售价29.98万元起

微软与法国AI企业Mistral达成协议，斥资数十亿美元在欧洲建设算力基础设施

让Gemini帮你填表，谷歌Chrome浏览器将升级自动填充功能

口子窖陷渠道重构阵痛，徽酒老三腹背受敌

起底酒店低价早餐券灰产：用差评换“霸王餐”，有商家卖出3万张获利数十万\n

66款AI硬件通过L3认证：华米OV耀全员入围，但没人突破L4天花板

AI产业链的卡位战，海信为何成了重要玩家？

长鑫科技IPO网上投资者放弃认购658.62万股，弃购率0.17%

满仓AI的投资者，几天回撤50%，重新理解长期主义

荣耀官宣：与阿莱ARRI达成全球影像战略合作

美国FAA推进监管改革，推动电动空中出租车与超音速飞机商业化落地

iPhone 18 Pro系列9月见：10项升级全面解析