当前位置: 首页 » 资讯 » 科技头条 » 正文

当智能助手学会"看图办事":上海交大让AI拥有了真正的视觉技能包

IP属地 中国·北京 科技行者 时间:2026-05-22 22:16:50


在我们日常使用电脑的时候,有一件事情非常奇妙——同样是"在表格里画一个图表"这个任务,人类只需要看一眼屏幕,就能知道现在该点哪里、下一步该做什么、有没有做对。但对于人工智能助手来说,这件看似简单的事情却异常困难。

这项由上海交通大学联合小红书公司和东南大学共同完成的研究,发表于2026年5月的arXiv预印本平台(论文编号:arXiv:2605.13527v2),研究团队提出了一套名为"MMSkills"的框架,专门用来教会AI助手如何像人一样"看图办事"。有兴趣深入了解的读者可以通过该编号查询完整论文,也可以访问项目主页获取代码和演示。

要理解这项研究的价值,得先从一个让人头疼的问题说起。当下许多AI助手已经具备了一些"技能包"——你可以把它想象成厨房里贴在墙上的菜谱。但这些菜谱有个大问题:它们全都是用文字写的。对于煮泡面这种简单任务,文字菜谱足够了;可一旦碰到"判断牛排是几分熟"这种需要看颜色、看油花、看流出汁水的复杂活儿,光靠文字描述就完全不够用了。AI助手在操作电脑界面时遇到的就是这种困境——它可能知道"应该点击保存按钮",但根本认不出当前屏幕上那个按钮在哪儿,或者分不清弹窗到底加载完了没有。

研究团队意识到,对于需要"看着办"的AI助手来说,光给它文字说明书远远不够,必须给它一份"图文并茂的操作手册"。这份手册不仅要告诉AI做什么动作,还要告诉它该认哪些视觉线索、怎么判断现在进行到哪一步、怎么确认有没有成功。

一、当文字菜谱遇上视觉难题

考虑这样一个场景:你让AI帮你在表格软件里创建一个图表,要求把图表放在第二个工作表里,标题叫"销售与成本"。看似简单的任务,传统的AI助手却常常翻车。

如果完全不给它任何指导,AI可能直接在当前打开的第一个工作表上画了图表——位置错了。如果给它一份纯文字菜谱,告诉它"打开图表向导,选择柱状图……",AI会机械地按照菜谱执行,结果还是不知道自己在哪个工作表上,最后图表照样画错地方。

但如果给它一份带图的操作手册,情况就完全不同了。手册里不仅写着步骤,还附带了几张关键时刻的屏幕截图——告诉AI"看到这种界面时该这么做""做完后屏幕应该长这样"。AI拿着这份手册,对照当前屏幕,就能明白:哦,原来我得先把图表剪切下来,切换到第二个工作表,再粘贴过去,最后还得检查一下标题对不对。任务顺利完成。

这个简单的例子背后,揭示了研究团队要解决的核心问题:怎么把"看着办"的本事变成可以反复使用的知识包。

二、一个完整技能包里都装了什么

研究团队设计的多模态技能包,可以类比成一份精心编排的旅行攻略。这份攻略包含了几个有机融合的部分。

最基础的部分是一段文字描述的操作流程,相当于攻略里"怎么从A地到B地"的路线说明。这部分告诉AI每个步骤该做什么操作,是整个技能包的骨架。

但光有路线还不够,攻略里还得有"状态卡片"——这是研究的一大创新。每张状态卡片就像旅行攻略中标注的关键路标,记录着几条重要信息:什么时候应该用这个技能,什么时候反而不能用,眼前该关注哪些视觉特征,怎么验证自己确实走到了正确的位置,以及还有哪些可选的参考画面。打个比方,状态卡片就像在告诉游客:"看到左前方那家挂着红灯笼的餐馆时,说明你已经到达老城区入口了,这时候应该右转;但如果你看到的是连锁咖啡店,说明走错了方向。"

再往上一层,是关键画面的图片集合。每个重要的状态都配有几张不同视角的参考图:完整画面让你了解整体环境,局部特写帮你认清关键控件,"操作前"和"操作后"两张对比图则展示了变化的过程。这就好比攻略上不仅有地标的全景照,还有近距离的细节照,甚至包括"晚上看是这样、白天看是那样"的对比图。

需要特别强调的是,这些参考图并不是让AI照搬坐标点击的模板,而是用来帮它认路的视觉线索。AI最终的每一个具体动作,还是要基于真实屏幕来判断。

三、从公开数据里"提炼"技能的妙招

那么这些精美的"图文攻略"是从哪里来的呢?研究团队设计了一套自动化的提炼流程,能从公开的电脑操作录像里"煮"出这些技能包。整个过程经过了五道工序。

第一道工序是分类整理。系统首先把海量的操作录像按照任务的相似性进行聚类,就像把杂乱的食材按照菜系归类摆放。比如所有跟浏览器相关的操作分一堆,所有跟表格软件相关的分另一堆。

第二道工序是规划技能蓝图。在每一类任务中,一个AI"主厨"会浏览这些录像,识别出反复出现的有用动作模式,并初步规划出一份份技能蓝图,记录每个技能的起止边界、完成条件等信息。

第三道工序是合并去重。同一个技能可能在不同录像中以略微不同的方式出现,系统会把这些相似的蓝图合并起来,同时剔除那些过于宽泛、几乎可以套到任何任务上的"万金油"技能。

第四道工序是先写文字稿。系统先不看任何图片,只根据文字信息撰写每个技能的描述、操作步骤和状态卡片的初稿。这一步像极了作者先写小说大纲再插图的过程。

第五道工序才是配图和审核。这时系统才会去查看相关的屏幕截图,挑选出真正有诊断价值的画面——通常是那些标志着关键状态转变、需要视觉验证的时刻——把它们配到对应的状态卡片旁边。配图遵循极其克制的原则:只有在文字真的说不清楚时才加图,绝不为了凑数而堆砌截图。

这套流程有个很重要的特点:所有用来提炼技能的录像,都和后续测试用的任务完全分开。这就保证了技能包不是"考前漏题"得来的,而是从无关数据中提炼出的真正可迁移的经验。

四、用技能时的"分身术"

光把技能包做好还不够,怎么让AI在实际工作时用得恰到好处,又是另一个难题。

最直观的做法是把整个技能包直接塞给AI,让它边看边干。但研究团队发现这样做会引发一连串问题。技能包里通常包含好几张状态卡片和多张参考截图,全部塞进去会让AI的"工作记忆"严重过载。更麻烦的是,AI很容易被那些参考截图"带偏"——它会盯着参考图里的某个按钮位置,而不是看当前屏幕的实际情况,就像照着一张过期的地图开车,根本不管路上的实际情况。

研究团队想出了一个巧妙的办法,他们称之为"分支加载"。可以把这个机制理解成AI的"分身术":当主AI在工作中遇到需要参考技能的时刻,它不会自己去翻阅整本技能手册,而是召唤出一个临时的"分身助手"专门负责这件事。

这个分身助手分两步工作。第一步,它先看一眼当前屏幕和最近的操作历史,判断到底需不需要看图,如果需要又该看哪几张。如果觉得文字说明就够用,就不调取任何图片;如果需要看图,也只挑选最相关的那几张。第二步,分身把挑出来的参考图和文字状态卡片放在一起仔细对照当前屏幕,最后给主AI回传一份精炼的"决策建议"——告诉它这个技能适不适合现在用、下一个小目标是什么、具体计划怎么走、有哪些坑要避开、做完后该怎么验证。

主AI收到这份建议后,把它当作参考意见,但最终的具体操作还是基于眼前真实的屏幕来决定。这样既享受到了技能包的智慧,又不会被参考资料牵着鼻子走。

五、实战检验:从办公软件到游戏世界

研究团队选择了四个截然不同的测试场景来检验这套框架的效果。

OSWorld是主战场,里面包含360个真实的Ubuntu桌面操作任务,涵盖浏览器、办公软件、图像处理、代码编辑、邮件等十大类应用。macOSWorld则把战场搬到了苹果电脑系统,包含143个任务。VAB-Minecraft把测试拉进了《我的世界》游戏,让AI在沙盒世界里完成各种制作任务。Super Mario Bros则更进一步,让AI去玩经典的超级马里奥游戏。

测试结果相当令人鼓舞。在OSWorld这个最严格的考场上,每一种被测试的AI模型都因为使用了MMSkills而表现提升。表现最强的Gemini 3.1 Pro的成功率从44.08%提升到了50.11%,Gemini 3 Flash从36.65%跃升到47.97%。最戏剧性的提升发生在阿里通义千问的Qwen3-VL-235B模型上,它的成功率从原本的21.34%几乎翻了一番,达到39.17%。而对于较小的Qwen3-VL-8B-Instruct模型,提升幅度更加惊人——从仅仅10.78%飙升到25.40%。这个现象很有意思:能力越弱的AI,从外部视觉指导中获得的帮助反而越大,就像新手厨师比经验老道的大厨更需要详细的食谱。

而值得说明的是,纯文字版的技能在很多场景下也有帮助,但效果远不如完整的多模态版本稳定,有时甚至会在某些应用上出现倒退。这印证了研究团队的判断:当任务需要靠视觉判断状态时,光有文字描述是远远不够的。

跳出桌面环境后,效果同样亮眼。在macOSWorld上,使用MMSkills的Gemini 3 Flash把整体成功率从55.94%提升到65.73%。在《我的世界》游戏中,所有模型的成功率和平均得分都得到提升。在超级马里奥的关卡里,AI的总体表现分和获得奖励也都显著上涨。这说明这套技能框架并非只对某个特定的电脑环境有效,而是能够帮助AI在各种需要"看图办事"的场景中表现更好。

六、拆解每个零件的作用

为了搞清楚MMSkills框架里到底哪些设计真正起作用,研究团队做了一系列消融实验,就像把机器拆开看每个齿轮的功能。

研究团队尝试把技能包里的"状态卡片"拿掉,AI只剩下文字流程和图片。结果发现性能明显下降——状态卡片在判断"这个技能现在该不该用"上扮演着关键角色。然后他们又试着保留状态卡片但去掉图片,性能同样下滑——图片对于在屏幕上找到对应位置不可或缺。两次实验加在一起证明,文字流程、状态卡片和视觉证据这三个组件像三足鼎立,缺一不可。

关于"分支加载"这个使用方式的实验更有意思。如果把整个技能包直接塞给AI,性能反而比不用技能还差——过多的信息把AI给"撑着"了。即使配上了视图筛选机制但仍然直接加载,效果也只是回到基线水平。只有当采用完整的两步分支机制——先筛选再分析再回传建议——才能取得最好的效果。

七、AI行为方式的悄然转变

除了成功率这个表面数字,研究团队还深入分析了使用MMSkills后AI的"行为习惯"发生了什么变化,结果发现了一些有趣的现象。

首先是技能调用频率的提升。配备多模态技能后,AI更愿意去主动参考技能。在Qwen3-VL-235B这个模型上,OSWorld任务中调用技能的比例从37.50%大幅上升到65.28%。这说明多模态技能不仅好用,AI还更容易识别出"这个技能现在用得上"。

其次是任务完成步骤的减少。文字技能有时反而会让AI多走弯路,而多模态技能在每个测试场景中都缩短了平均操作步数。Qwen3-VL-235B在OSWorld上的平均步数从15.22步降到9.87步,减少了三分之一以上。这意味着AI找到了更高效的解题路径,不再像无头苍蝇一样东点西点。

第三个有趣发现是关于视觉证据的选择。分支助手并不是把所有图片都加载进来,而是表现出明显的偏好——在四个测试场景中的三个里,"局部特写"是被选用最多的视图类型。这符合直觉:大部分时候AI需要的是"那个按钮在哪儿"这种局部信息,只有在需要理解整体布局或验证变化时才需要全屏或前后对比图。

更深入的行为分析揭示了一些根本性的变化。使用MMSkills后,AI执行的低级操作总数明显减少。以Qwen3-VL-235B为例,它原本75.8%的动作都是点击,使用技能后这个比例下降到63.7%,键盘输入和"完成"动作的比例则相应上升。这表明AI从盲目点击的模式转向了更有条理的输入和更明确的完成判断。

重复无效操作也大幅减少。同一个Qwen3-VL-235B模型,原本21.8%的动作是重复操作,使用MMSkills后这个比例骤降到6.2%。AI不再陷入那种"反复点同一个地方却毫无进展"的尴尬循环。同时,"完成"动作的使用频率上升,说明AI更清楚地知道任务什么时候算真正做完了——这要归功于状态卡片里的验证线索。

八、两个真实任务的现场直击

研究团队展示了两个具体的任务案例来说明MMSkills是如何工作的。

第一个案例是在表格软件里创建一个销售汇总表。任务要求创建一个名为Sheet2的新工作表,里面包含月份和总计两列数据。AI首先意识到当前在Sheet1上,需要先创建新工作表,于是召唤分支助手参考了"工作表管理"技能,分身助手挑选了几张关于工作表切换的特写图,对照当前屏幕后告诉主AI:"先创建Sheet2,别在Sheet1上直接输入数据"。主AI随即创建了新工作表并输入了表头和月份。当需要填入总计公式时,AI又召唤了第二个不同的技能——"公式与函数",这次分支助手判断不需要参考图片,直接给出了文字指导。最后AI成功用SUM公式从Sheet1引用数据,完成了任务,全程仅用8步动作。

第二个案例发生在终端命令行里,任务是把30天前的旧文件压缩到一个文件夹,把新文件移到另一个文件夹。AI最初尝试的find命令在终端输入时出现了语法问题。意识到不对劲后,AI召唤"文件夹管理"技能,分支助手判断终端任务不需要看图,直接用文字告诉AI"用更稳健的命令格式"。AI修正命令后成功完成了文件移动。接着需要压缩归档时,AI又召唤了不同的"归档压缩"技能,最终顺利完成了整个任务并验证了结果。

这两个案例生动展示了MMSkills的工作方式——AI在不同阶段调用不同的技能,分支助手智能判断是否需要图片证据,最终AI综合所有信息做出决策。

九、与已有方法的对比

在AI助手领域,"技能"的概念其实并不新鲜。早期研究主要把技能表达为文字提示或可执行代码,比如让AI学会"打开网页搜索"这类操作。后来出现了更精细的方法,有的把技能存储成可调用的API函数,有的构建技能执行图,有的让多个AI协作进化出共享技能库。

最接近本研究的几项工作各有侧重。Mirage-1引入了层次化的多模态技能用于图形界面控制,XSkill从视觉化的操作经验中持续提取技能,CUA-Skill把计算机操作技能表达为带参数的过程和执行图。MMSkills与这些工作的关键区别在于:它围绕"运行时状态卡片"和"多视角视觉证据"来组织技能,并通过"分支加载"机制将选中的证据与当前屏幕对齐后再让主AI行动。换句话说,它不仅关注"动作怎么做",更强调"什么时候做、看到什么才做、做完怎么验证"。

十、这一切对普通人意味着什么

说到底,这项研究瞄准的是一个非常实际的目标:让AI助手在帮你操作电脑、玩游戏、处理各种视觉任务时更加可靠、更不容易犯傻。

回到日常生活的层面,这意味着未来的AI助手可能真的能帮你完成那些繁琐又需要看着办的工作——整理表格、修图、安排日程、玩游戏关卡。它们不会因为找不到按钮就反复乱点,也不会因为认不出弹窗状态就傻等,更不会做完一半还不知道任务到底完成了没。

对于AI研究者来说,这项工作带来了一个新的视角:AI助手可以重复使用的经验不应该只是文字说明书或代码模板,而应该是与视觉证据紧密绑定的"图文操作指南"。这种思路打破了过去技能体系过度依赖文本的限制。

当然,研究团队也坦诚地指出了局限。这套方法依赖于源数据的覆盖范围——如果某类任务在公开数据中很少出现,提炼出的技能就可能不够完善。技能生成过程和视觉定位也可能出错。分支加载虽然带来了准确性提升,但也增加了一些推理成本。把这套方法推广到更广泛的具身AI或安全敏感场景,还需要更强的验证机制和在线修复能力。

归根结底,这项研究告诉我们一件事:要让AI真正学会"看着办",光给它文字说明是远远不够的。就像教孩子做菜,光给菜谱不够,还得让他看着师傅怎么做、看着锅里食材的变化、知道什么颜色算炒好了。AI的进步,或许就藏在这些看似细微但至关重要的"图文配合"里。

如果你对这项研究的技术细节感兴趣,欢迎查阅原论文(arXiv:2605.13527v2),里面还有更详细的实验数据、提示词模板和案例分析等内容值得探索。

Q&A

Q1:MMSkills和传统的AI技能包有什么区别?

A:传统AI技能包主要用文字或代码描述操作步骤,就像纯文字菜谱。而MMSkills是图文结合的技能包,里面除了文字流程,还有"状态卡片"和多视角参考截图。状态卡片告诉AI什么时候该用这个技能、什么时候不该用、看到什么样的画面才说明做对了。这让AI不仅知道做什么,还知道该看什么、怎么判断进度。

Q2:分支加载机制是怎么工作的?

A:当AI在做任务时遇到需要参考技能的时刻,它不会自己翻整本技能手册,而是召唤一个"临时分身"专门处理。这个分身先判断要不要看图、看哪些图,然后把挑选的参考图和当前屏幕对照,最后给主AI回传一份精炼建议——告诉它技能适不适合用、下一步该做什么、要避开什么坑。这样既享受了技能帮助,又不会被参考图带偏。

Q3:MMSkills实际效果如何?

A:在OSWorld桌面任务测试中,所有被测试的AI模型表现都得到提升。比如Qwen3-VL-235B的成功率从21.34%几乎翻倍到39.17%,较小的Qwen3-VL-8B模型从10.78%提升到25.40%。在《我的世界》游戏和超级马里奥游戏测试中也有显著提升。AI不仅成功率更高,完成任务用的步骤也更少,重复无效操作大幅减少。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新