当智能助手学会"看图办事":上海交大让AI拥有了真正的视觉技能包

IP属地中国·北京 科技行者 时间：2026-05-22 22:16:50

在我们日常使用电脑的时候，有一件事情非常奇妙——同样是"在表格里画一个图表"这个任务，人类只需要看一眼屏幕，就能知道现在该点哪里、下一步该做什么、有没有做对。但对于人工智能助手来说，这件看似简单的事情却异常困难。
这项由上海交通大学联合小红书公司和东南大学共同完成的研究，发表于2026年5月的arXiv预印本平台（论文编号：arXiv:2605.13527v2），研究团队提出了一套名为"MMSkills"的框架，专门用来教会AI助手如何像人一样"看图办事"。有兴趣深入了解的读者可以通过该编号查询完整论文，也可以访问项目主页获取代码和演示。
要理解这项研究的价值，得先从一个让人头疼的问题说起。当下许多AI助手已经具备了一些"技能包"——你可以把它想象成厨房里贴在墙上的菜谱。但这些菜谱有个大问题：它们全都是用文字写的。对于煮泡面这种简单任务，文字菜谱足够了；可一旦碰到"判断牛排是几分熟"这种需要看颜色、看油花、看流出汁水的复杂活儿，光靠文字描述就完全不够用了。AI助手在操作电脑界面时遇到的就是这种困境——它可能知道"应该点击保存按钮"，但根本认不出当前屏幕上那个按钮在哪儿，或者分不清弹窗到底加载完了没有。
研究团队意识到，对于需要"看着办"的AI助手来说，光给它文字说明书远远不够，必须给它一份"图文并茂的操作手册"。这份手册不仅要告诉AI做什么动作，还要告诉它该认哪些视觉线索、怎么判断现在进行到哪一步、怎么确认有没有成功。
一、当文字菜谱遇上视觉难题
考虑这样一个场景：你让AI帮你在表格软件里创建一个图表，要求把图表放在第二个工作表里，标题叫"销售与成本"。看似简单的任务，传统的AI助手却常常翻车。
如果完全不给它任何指导，AI可能直接在当前打开的第一个工作表上画了图表——位置错了。如果给它一份纯文字菜谱，告诉它"打开图表向导，选择柱状图……"，AI会机械地按照菜谱执行，结果还是不知道自己在哪个工作表上，最后图表照样画错地方。
但如果给它一份带图的操作手册，情况就完全不同了。手册里不仅写着步骤，还附带了几张关键时刻的屏幕截图——告诉AI"看到这种界面时该这么做""做完后屏幕应该长这样"。AI拿着这份手册，对照当前屏幕，就能明白：哦，原来我得先把图表剪切下来，切换到第二个工作表，再粘贴过去，最后还得检查一下标题对不对。任务顺利完成。
这个简单的例子背后，揭示了研究团队要解决的核心问题：怎么把"看着办"的本事变成可以反复使用的知识包。
二、一个完整技能包里都装了什么
研究团队设计的多模态技能包，可以类比成一份精心编排的旅行攻略。这份攻略包含了几个有机融合的部分。
最基础的部分是一段文字描述的操作流程，相当于攻略里"怎么从A地到B地"的路线说明。这部分告诉AI每个步骤该做什么操作，是整个技能包的骨架。
但光有路线还不够，攻略里还得有"状态卡片"——这是研究的一大创新。每张状态卡片就像旅行攻略中标注的关键路标，记录着几条重要信息：什么时候应该用这个技能，什么时候反而不能用，眼前该关注哪些视觉特征，怎么验证自己确实走到了正确的位置，以及还有哪些可选的参考画面。打个比方，状态卡片就像在告诉游客："看到左前方那家挂着红灯笼的餐馆时，说明你已经到达老城区入口了，这时候应该右转；但如果你看到的是连锁咖啡店，说明走错了方向。"
再往上一层，是关键画面的图片集合。每个重要的状态都配有几张不同视角的参考图：完整画面让你了解整体环境，局部特写帮你认清关键控件，"操作前"和"操作后"两张对比图则展示了变化的过程。这就好比攻略上不仅有地标的全景照，还有近距离的细节照，甚至包括"晚上看是这样、白天看是那样"的对比图。
需要特别强调的是，这些参考图并不是让AI照搬坐标点击的模板，而是用来帮它认路的视觉线索。AI最终的每一个具体动作，还是要基于真实屏幕来判断。
三、从公开数据里"提炼"技能的妙招
那么这些精美的"图文攻略"是从哪里来的呢？研究团队设计了一套自动化的提炼流程，能从公开的电脑操作录像里"煮"出这些技能包。整个过程经过了五道工序。
第一道工序是分类整理。系统首先把海量的操作录像按照任务的相似性进行聚类，就像把杂乱的食材按照菜系归类摆放。比如所有跟浏览器相关的操作分一堆，所有跟表格软件相关的分另一堆。
第二道工序是规划技能蓝图。在每一类任务中，一个AI"主厨"会浏览这些录像，识别出反复出现的有用动作模式，并初步规划出一份份技能蓝图，记录每个技能的起止边界、完成条件等信息。
第三道工序是合并去重。同一个技能可能在不同录像中以略微不同的方式出现，系统会把这些相似的蓝图合并起来，同时剔除那些过于宽泛、几乎可以套到任何任务上的"万金油"技能。
第四道工序是先写文字稿。系统先不看任何图片，只根据文字信息撰写每个技能的描述、操作步骤和状态卡片的初稿。这一步像极了作者先写小说大纲再插图的过程。
第五道工序才是配图和审核。这时系统才会去查看相关的屏幕截图，挑选出真正有诊断价值的画面——通常是那些标志着关键状态转变、需要视觉验证的时刻——把它们配到对应的状态卡片旁边。配图遵循极其克制的原则：只有在文字真的说不清楚时才加图，绝不为了凑数而堆砌截图。
这套流程有个很重要的特点：所有用来提炼技能的录像，都和后续测试用的任务完全分开。这就保证了技能包不是"考前漏题"得来的，而是从无关数据中提炼出的真正可迁移的经验。
四、用技能时的"分身术"
光把技能包做好还不够，怎么让AI在实际工作时用得恰到好处，又是另一个难题。
最直观的做法是把整个技能包直接塞给AI，让它边看边干。但研究团队发现这样做会引发一连串问题。技能包里通常包含好几张状态卡片和多张参考截图，全部塞进去会让AI的"工作记忆"严重过载。更麻烦的是，AI很容易被那些参考截图"带偏"——它会盯着参考图里的某个按钮位置，而不是看当前屏幕的实际情况，就像照着一张过期的地图开车，根本不管路上的实际情况。
研究团队想出了一个巧妙的办法，他们称之为"分支加载"。可以把这个机制理解成AI的"分身术"：当主AI在工作中遇到需要参考技能的时刻，它不会自己去翻阅整本技能手册，而是召唤出一个临时的"分身助手"专门负责这件事。
这个分身助手分两步工作。第一步，它先看一眼当前屏幕和最近的操作历史，判断到底需不需要看图，如果需要又该看哪几张。如果觉得文字说明就够用，就不调取任何图片；如果需要看图，也只挑选最相关的那几张。第二步，分身把挑出来的参考图和文字状态卡片放在一起仔细对照当前屏幕，最后给主AI回传一份精炼的"决策建议"——告诉它这个技能适不适合现在用、下一个小目标是什么、具体计划怎么走、有哪些坑要避开、做完后该怎么验证。
主AI收到这份建议后，把它当作参考意见，但最终的具体操作还是基于眼前真实的屏幕来决定。这样既享受到了技能包的智慧，又不会被参考资料牵着鼻子走。
五、实战检验：从办公软件到游戏世界
研究团队选择了四个截然不同的测试场景来检验这套框架的效果。
OSWorld是主战场，里面包含360个真实的Ubuntu桌面操作任务，涵盖浏览器、办公软件、图像处理、代码编辑、邮件等十大类应用。macOSWorld则把战场搬到了苹果电脑系统，包含143个任务。VAB-Minecraft把测试拉进了《我的世界》游戏，让AI在沙盒世界里完成各种制作任务。Super Mario Bros则更进一步，让AI去玩经典的超级马里奥游戏。
测试结果相当令人鼓舞。在OSWorld这个最严格的考场上，每一种被测试的AI模型都因为使用了MMSkills而表现提升。表现最强的Gemini 3.1 Pro的成功率从44.08%提升到了50.11%，Gemini 3 Flash从36.65%跃升到47.97%。最戏剧性的提升发生在阿里通义千问的Qwen3-VL-235B模型上，它的成功率从原本的21.34%几乎翻了一番，达到39.17%。而对于较小的Qwen3-VL-8B-Instruct模型，提升幅度更加惊人——从仅仅10.78%飙升到25.40%。这个现象很有意思：能力越弱的AI，从外部视觉指导中获得的帮助反而越大，就像新手厨师比经验老道的大厨更需要详细的食谱。
而值得说明的是，纯文字版的技能在很多场景下也有帮助，但效果远不如完整的多模态版本稳定，有时甚至会在某些应用上出现倒退。这印证了研究团队的判断：当任务需要靠视觉判断状态时，光有文字描述是远远不够的。
跳出桌面环境后，效果同样亮眼。在macOSWorld上，使用MMSkills的Gemini 3 Flash把整体成功率从55.94%提升到65.73%。在《我的世界》游戏中，所有模型的成功率和平均得分都得到提升。在超级马里奥的关卡里，AI的总体表现分和获得奖励也都显著上涨。这说明这套技能框架并非只对某个特定的电脑环境有效，而是能够帮助AI在各种需要"看图办事"的场景中表现更好。
六、拆解每个零件的作用
为了搞清楚MMSkills框架里到底哪些设计真正起作用，研究团队做了一系列消融实验，就像把机器拆开看每个齿轮的功能。
研究团队尝试把技能包里的"状态卡片"拿掉，AI只剩下文字流程和图片。结果发现性能明显下降——状态卡片在判断"这个技能现在该不该用"上扮演着关键角色。然后他们又试着保留状态卡片但去掉图片，性能同样下滑——图片对于在屏幕上找到对应位置不可或缺。两次实验加在一起证明，文字流程、状态卡片和视觉证据这三个组件像三足鼎立，缺一不可。
关于"分支加载"这个使用方式的实验更有意思。如果把整个技能包直接塞给AI，性能反而比不用技能还差——过多的信息把AI给"撑着"了。即使配上了视图筛选机制但仍然直接加载，效果也只是回到基线水平。只有当采用完整的两步分支机制——先筛选再分析再回传建议——才能取得最好的效果。
七、AI行为方式的悄然转变
除了成功率这个表面数字，研究团队还深入分析了使用MMSkills后AI的"行为习惯"发生了什么变化，结果发现了一些有趣的现象。
首先是技能调用频率的提升。配备多模态技能后，AI更愿意去主动参考技能。在Qwen3-VL-235B这个模型上，OSWorld任务中调用技能的比例从37.50%大幅上升到65.28%。这说明多模态技能不仅好用，AI还更容易识别出"这个技能现在用得上"。
其次是任务完成步骤的减少。文字技能有时反而会让AI多走弯路，而多模态技能在每个测试场景中都缩短了平均操作步数。Qwen3-VL-235B在OSWorld上的平均步数从15.22步降到9.87步，减少了三分之一以上。这意味着AI找到了更高效的解题路径，不再像无头苍蝇一样东点西点。
第三个有趣发现是关于视觉证据的选择。分支助手并不是把所有图片都加载进来，而是表现出明显的偏好——在四个测试场景中的三个里，"局部特写"是被选用最多的视图类型。这符合直觉：大部分时候AI需要的是"那个按钮在哪儿"这种局部信息，只有在需要理解整体布局或验证变化时才需要全屏或前后对比图。
更深入的行为分析揭示了一些根本性的变化。使用MMSkills后，AI执行的低级操作总数明显减少。以Qwen3-VL-235B为例，它原本75.8%的动作都是点击，使用技能后这个比例下降到63.7%，键盘输入和"完成"动作的比例则相应上升。这表明AI从盲目点击的模式转向了更有条理的输入和更明确的完成判断。
重复无效操作也大幅减少。同一个Qwen3-VL-235B模型，原本21.8%的动作是重复操作，使用MMSkills后这个比例骤降到6.2%。AI不再陷入那种"反复点同一个地方却毫无进展"的尴尬循环。同时，"完成"动作的使用频率上升，说明AI更清楚地知道任务什么时候算真正做完了——这要归功于状态卡片里的验证线索。
八、两个真实任务的现场直击
研究团队展示了两个具体的任务案例来说明MMSkills是如何工作的。
第一个案例是在表格软件里创建一个销售汇总表。任务要求创建一个名为Sheet2的新工作表，里面包含月份和总计两列数据。AI首先意识到当前在Sheet1上，需要先创建新工作表，于是召唤分支助手参考了"工作表管理"技能，分身助手挑选了几张关于工作表切换的特写图，对照当前屏幕后告诉主AI："先创建Sheet2，别在Sheet1上直接输入数据"。主AI随即创建了新工作表并输入了表头和月份。当需要填入总计公式时，AI又召唤了第二个不同的技能——"公式与函数"，这次分支助手判断不需要参考图片，直接给出了文字指导。最后AI成功用SUM公式从Sheet1引用数据，完成了任务，全程仅用8步动作。
第二个案例发生在终端命令行里，任务是把30天前的旧文件压缩到一个文件夹，把新文件移到另一个文件夹。AI最初尝试的find命令在终端输入时出现了语法问题。意识到不对劲后，AI召唤"文件夹管理"技能，分支助手判断终端任务不需要看图，直接用文字告诉AI"用更稳健的命令格式"。AI修正命令后成功完成了文件移动。接着需要压缩归档时，AI又召唤了不同的"归档压缩"技能，最终顺利完成了整个任务并验证了结果。
这两个案例生动展示了MMSkills的工作方式——AI在不同阶段调用不同的技能，分支助手智能判断是否需要图片证据，最终AI综合所有信息做出决策。
九、与已有方法的对比
在AI助手领域，"技能"的概念其实并不新鲜。早期研究主要把技能表达为文字提示或可执行代码，比如让AI学会"打开网页搜索"这类操作。后来出现了更精细的方法，有的把技能存储成可调用的API函数，有的构建技能执行图，有的让多个AI协作进化出共享技能库。
最接近本研究的几项工作各有侧重。Mirage-1引入了层次化的多模态技能用于图形界面控制，XSkill从视觉化的操作经验中持续提取技能，CUA-Skill把计算机操作技能表达为带参数的过程和执行图。MMSkills与这些工作的关键区别在于：它围绕"运行时状态卡片"和"多视角视觉证据"来组织技能，并通过"分支加载"机制将选中的证据与当前屏幕对齐后再让主AI行动。换句话说，它不仅关注"动作怎么做"，更强调"什么时候做、看到什么才做、做完怎么验证"。
十、这一切对普通人意味着什么
说到底，这项研究瞄准的是一个非常实际的目标：让AI助手在帮你操作电脑、玩游戏、处理各种视觉任务时更加可靠、更不容易犯傻。
回到日常生活的层面，这意味着未来的AI助手可能真的能帮你完成那些繁琐又需要看着办的工作——整理表格、修图、安排日程、玩游戏关卡。它们不会因为找不到按钮就反复乱点，也不会因为认不出弹窗状态就傻等，更不会做完一半还不知道任务到底完成了没。
对于AI研究者来说，这项工作带来了一个新的视角：AI助手可以重复使用的经验不应该只是文字说明书或代码模板，而应该是与视觉证据紧密绑定的"图文操作指南"。这种思路打破了过去技能体系过度依赖文本的限制。
当然，研究团队也坦诚地指出了局限。这套方法依赖于源数据的覆盖范围——如果某类任务在公开数据中很少出现，提炼出的技能就可能不够完善。技能生成过程和视觉定位也可能出错。分支加载虽然带来了准确性提升，但也增加了一些推理成本。把这套方法推广到更广泛的具身AI或安全敏感场景，还需要更强的验证机制和在线修复能力。
归根结底，这项研究告诉我们一件事：要让AI真正学会"看着办"，光给它文字说明是远远不够的。就像教孩子做菜，光给菜谱不够，还得让他看着师傅怎么做、看着锅里食材的变化、知道什么颜色算炒好了。AI的进步，或许就藏在这些看似细微但至关重要的"图文配合"里。
如果你对这项研究的技术细节感兴趣，欢迎查阅原论文（arXiv:2605.13527v2），里面还有更详细的实验数据、提示词模板和案例分析等内容值得探索。
Q&A
Q1：MMSkills和传统的AI技能包有什么区别？
A：传统AI技能包主要用文字或代码描述操作步骤，就像纯文字菜谱。而MMSkills是图文结合的技能包，里面除了文字流程，还有"状态卡片"和多视角参考截图。状态卡片告诉AI什么时候该用这个技能、什么时候不该用、看到什么样的画面才说明做对了。这让AI不仅知道做什么，还知道该看什么、怎么判断进度。
Q2：分支加载机制是怎么工作的？
A：当AI在做任务时遇到需要参考技能的时刻，它不会自己翻整本技能手册，而是召唤一个"临时分身"专门处理。这个分身先判断要不要看图、看哪些图，然后把挑选的参考图和当前屏幕对照，最后给主AI回传一份精炼建议——告诉它技能适不适合用、下一步该做什么、要避开什么坑。这样既享受了技能帮助，又不会被参考图带偏。
Q3：MMSkills实际效果如何？
A：在OSWorld桌面任务测试中，所有被测试的AI模型表现都得到提升。比如Qwen3-VL-235B的成功率从21.34%几乎翻倍到39.17%，较小的Qwen3-VL-8B模型从10.78%提升到25.40%。在《我的世界》游戏和超级马里奥游戏测试中也有显著提升。AI不仅成功率更高，完成任务用的步骤也更少，重复无效操作大幅减少。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

品区·周末侃上海商圈探索“外卖摆渡”，能解决“最前端100米”难点吗

腾讯智能体集中亮相2026 WAIC，携“AI Buddy”共创数智未来

腾讯联合越疆，“物理AI”走进制造工厂｜直击WAIC

ASML拟向全球约4.5万名员工发放2万欧元股票奖励，2030年解禁

WAIC 2026大洗牌：机器人遍地，Agent干活，国产算力崛起，基础大模型只剩18家

苹果多款iPhone在日本市场涨价，最高涨幅达11.3%

全站最新

品区·周末侃上海商圈探索“外卖摆渡”，能解决“最前端100米”难点吗

腾讯智能体集中亮相2026 WAIC，携“AI Buddy”共创数智未来

腾讯联合越疆，“物理AI”走进制造工厂｜直击WAIC

ASML拟向全球约4.5万名员工发放2万欧元股票奖励，2030年解禁

热门推荐

AI猎奇剧霸榜，海外短剧生态剧变？

刀片网围泰山，暴露了自然投资的大问题

淡季不淡散奶价格率先“突围” 原奶行业拐点初现？

52亿买入，200万卖出，苏宁最贵的一笔学费

荣耀、阶跃星辰、努比亚争夺“首款”，智能体手机“神仙打架”

免费的早餐，这次酒店不想送了

京东与拼多多：互相羡慕，一起补课

佑驾创新账上6.9亿，刘国清要开火五条线？

中国AI新星Kimi K3崛起海外科技股与半导体市场承压波动

WAIC 2026首日观察：AI创新落地，从“炫技”到“实用”的跨越

品区·周末侃上海商圈探索“外卖摆渡”，能解决“最前端100米”难点吗

腾讯智能体集中亮相2026 WAIC，携“AI Buddy”共创数智未来

腾讯联合越疆，“物理AI”走进制造工厂｜直击WAIC

ASML拟向全球约4.5万名员工发放2万欧元股票奖励，2030年解禁

WAIC 2026大洗牌：机器人遍地，Agent干活，国产算力崛起，基础大模型只剩18家