微软研究院突破：从纸上谈兵到实际行动，AI终于学会"做事"了

IP属地中国·北京 科技行者 时间：2026-03-06 22:19:31

这项由微软研究院联合北京大学、浙江大学和荷兰埃因霍芬理工大学共同开展的突破性研究，发表在2024年12月的arXiv平台上（论文编号arXiv:2412.10047v2）。研究团队首次系统性地解决了人工智能领域的一个核心难题：如何让AI从只会"说话"变成真正会"做事"。
想象一下这样的场景：你和一个非常博学的朋友聊天，他什么都知道，什么问题都能回答得头头是道，但如果你让他帮你做点实际的事情——比如帮你整理一下电脑桌面上的文件，或者帮你在Word文档里添加一个表格——他就彻底傻眼了。这就是当前大语言模型（比如ChatGPT）面临的尴尬处境。它们在文字对话方面表现出色，但面对需要实际操作的任务时就束手无策了。
这个问题的根源在于，传统的AI模型就像是一个知识渊博但从不动手的学者。它们被训练来处理文字信息，生成文字回应，但从未学会如何在真实世界中采取行动。就好比一个人只会纸上谈兵，却从未真正上过战场。当用户说"帮我做个PPT"或"整理一下这些照片"时，传统AI只能告诉你应该怎么做，但无法真正动手帮你完成。
为了解决这个问题，研究团队提出了一个全新的概念：大型行动模型（Large Action Models，简称LAMs）。如果说传统的大语言模型是"能说会道的评论家"，那么大型行动模型就是"既能出谋划策又能亲自动手的全能助手"。这种新型AI不仅能理解你的需求，还能直接在你的电脑上执行具体操作，真正完成任务。
研究团队选择了Windows操作系统作为他们的"实验室"，开发了一个名为UFO的AI助手。这个助手可以像人类一样操作电脑：点击按钮、输入文字、打开软件、编辑文档等等。更重要的是，它不是简单地执行预设的程序，而是能够根据具体情况灵活调整策略，就像一个经验丰富的秘书一样。
这项研究的突破性在于，它不仅提出了理论框架，还提供了完整的实现方案。研究团队详细描述了如何从零开始构建这样的AI系统：从数据收集、模型训练，到最终部署应用的每一个步骤都有详细说明。这就像是提供了一份完整的"烹饪食谱"，让其他研究者也能复制和改进这项技术。
研究成果显示，这种新型AI在实际测试中表现令人印象深刻。它能够成功完成71%的复杂任务，而且执行效率比传统方法提高了近3倍。更重要的是，它在完成任务的过程中展现出了真正的"智能"：遇到意外情况时能够调整策略，学会从失败中总结经验，甚至能够处理那些连人类专家都觉得棘手的复杂情况。
然而，研究团队也坦诚地指出了当前技术的局限性。就像任何强大的工具都有其使用风险一样，能够在现实世界中执行操作的AI也带来了新的安全挑战。如果AI误解了指令或者出现故障，可能会对用户的数据和系统造成意外损害。此外，这种技术的推广还面临着技术成本、伦理考量等多方面的挑战。
尽管存在这些挑战，这项研究标志着人工智能发展的一个重要转折点。它预示着未来我们与AI的交互方式将发生根本性变化：AI将从被动的信息提供者转变为主动的任务执行者。这不仅会大大提高我们的工作效率，也将为无数新的应用场景打开大门。
一、从"纸上谈兵"到"亲自动手"：AI的华丽转身
在人工智能的发展历程中，我们见证了一个有趣的现象：AI变得越来越善于"说话"，却始终不会"做事"。就像那个经典的段子里说的，"光说不练假把式"，传统的大语言模型虽然在对话和文本生成方面表现出色，但面对需要实际操作的任务时就显得力不从心了。
考虑这样一个生活场景：你的朋友小明是个非常博学的人，你问他任何问题他都能给出详细的答案。比如你问他"怎么在Excel里制作图表"，他能够非常详细地告诉你每一个步骤：先选中数据区域，然后点击插入选项卡，选择图表类型，调整样式等等。但是如果你让他坐到你的电脑前直接帮你做这个图表，他就完全不知道从何下手了。这就是当前大语言模型面临的困境。
这个问题的根本原因在于，传统AI模型的"大脑"结构决定了它们只能处理文字信息。它们就像是生活在一个纯文字世界里的智者，对外界的物理世界一无所知。当用户说"帮我整理桌面文件"时，AI只能告诉你整理文件的一般原则，却无法真正移动你电脑里的文件。
研究团队深刻认识到了这个问题的严重性。在人工智能向着更加智能化和实用化发展的道路上，仅仅能够"对话"是远远不够的。真正有用的AI助手应该能够像人类助理一样，不仅能理解指令，还能实际执行任务。这就像是从"军师"升级为"全能管家"的过程。
为了实现这个目标，研究团队提出了大型行动模型的概念。这种新型AI模型不再局限于文字交互，而是具备了在真实环境中执行操作的能力。它们可以控制鼠标和键盘，操作各种软件应用，甚至可以在复杂的多步骤任务中保持逻辑连贯性。
这种转变的意义远比表面看起来的要深刻得多。当AI获得了"动手"的能力后，它就从一个被动的信息提供者转变为主动的任务执行者。这不仅仅是功能上的增强，更是AI角色的根本性转变。就像从一个只会背书的学生变成了能够解决实际问题的工程师。
研究团队选择Windows操作系统作为他们的试验场，这个选择非常明智。Windows系统复杂多样，涵盖了大量不同类型的应用软件，为AI提供了一个非常接近真实工作环境的测试平台。在这个平台上，AI需要学会操作Word文档、Excel表格、PowerPoint演示文稿等各种常用软件，这些都是普通用户日常工作中经常遇到的任务。
更令人兴奋的是，这种新型AI展现出了真正的"智能"特征。它不是简单地执行预编程的指令序列，而是能够根据具体情况灵活调整策略。当遇到预期之外的情况时，它会重新评估形势，调整行动计划，就像一个有经验的工作人员一样。这种适应能力是传统自动化工具所无法比拟的。
二、像训练学徒一样培养AI：从数据收集到技能掌握
培养一个能够实际动手做事的AI，就像培训一个新入职的员工一样，需要经过系统性的学习和训练过程。研究团队设计了一套完整的"培训方案"，让AI从完全不会操作电脑的"新手"逐步成长为能够独立完成复杂任务的"专家"。
这个训练过程的第一步是数据收集，就像为新员工准备培训材料一样。不过，收集AI训练数据比准备人类培训材料要复杂得多。传统的AI训练主要依赖文本数据，就像让学生背诵教科书，但要训练一个会实际操作的AI，就需要收集大量的"动作示范"数据。
研究团队采用了一种非常聪明的两阶段数据收集策略。第一阶段被称为"任务-计划"数据收集。这个阶段就像是先让AI学习"理论知识"，了解各种任务应该按照什么步骤来完成。比如"如何在Word中插入表格"这个任务，AI需要先学会将其分解为"打开插入菜单"、"选择表格选项"、"设置行列数"等具体步骤。
为了收集这些数据，研究团队从多个渠道获取信息：微软官方的应用程序文档、WikiHow网站上的操作指南，以及搜索引擎中用户的历史查询记录。这些数据来源就像是不同类型的教材，有官方教程、民间攻略，还有用户的实际需求记录。通过分析这些不同来源的信息，AI能够获得更全面和实用的知识。
但是仅仅掌握理论知识还不够，就像学开车不能只看驾驶手册一样。第二阶段是"任务-行动"数据收集，这个阶段让AI学习如何将理论计划转化为具体的操作动作。研究团队设计了一个创新的自动化流程，让AI在真实的应用环境中进行"实习"。
这个实习过程非常有趣。研究团队首先准备了各种不同的Word文档模板，就像为实习生准备不同类型的工作项目。然后让AI尝试在这些文档上执行各种操作任务。每当AI执行一个操作时，系统会详细记录操作过程，包括点击了哪个按钮、输入了什么文字、产生了什么结果等等。
更重要的是，系统还会自动评估每次操作的结果是否正确。就像有一个严格的导师在旁边监督，如果AI的操作达到了预期效果，这次操作记录就会被保存作为"成功案例"；如果操作失败了，系统会分析失败原因，帮助AI在下次遇到类似情况时避免同样的错误。
这种训练方法的巧妙之处在于，它让AI不仅学会了正确的操作方法，还学会了如何从错误中学习。就像人类通过试错来掌握技能一样，AI也通过这种方式逐步提高自己的操作能力。
研究团队还使用了一种叫做"指令进化"的技术来增加训练数据的多样性。这个过程就像是给AI布置越来越复杂的练习题。比如原本的任务是"创建一个表格"，通过指令进化，任务变成了"创建一个包含公式计算的动态表格，并且要设置特定的格式样式"。这种渐进式的复杂度提升让AI能够处理更加多样化和具有挑战性的任务。
整个数据收集过程产生了超过7万个任务-计划配对和数千个实际操作轨迹。这些数据就像是为AI准备的庞大"经验库"，涵盖了从简单的文档编辑到复杂的多步骤任务的各种情况。
三、四阶段训练法：让AI从菜鸟变专家
有了丰富的训练数据后，如何让AI真正掌握这些技能就成了关键问题。研究团队设计了一个循序渐进的四阶段训练方法，就像培养一个学徒从初学者逐步成长为专业技师的过程。
第一阶段被称为"任务-计划预训练"，这个阶段的目标是让AI学会"思考"如何分解任务。就像教一个新手工人看懂工艺流程图一样，AI需要学会将复杂的任务分解为一系列有逻辑的步骤。比如当用户说"美化这个文档"时，AI需要理解这意味着调整字体、添加标题样式、插入图片等多个具体操作。
在这个阶段，研究团队使用了7万多个任务-计划配对来训练AI。训练过程就像是让AI做大量的"分析题"：给定一个任务描述，AI需要输出一个合理的步骤分解。通过这种训练，AI逐渐掌握了将抽象任务转化为具体行动计划的能力。
第二阶段是"向专家学习"。在这个阶段，AI开始学习如何将计划转化为实际操作。研究团队使用了GPT-4生成的高质量操作示例作为"专家演示"，让AI观察和模仿专家的操作方式。这就像是让学徒跟着师父学手艺，通过观察和模仿来掌握正确的操作方法。
这个阶段使用了2000多个专家级别的操作轨迹进行训练。每个轨迹都包含了完整的任务执行过程：从接收任务开始，到制定计划，再到逐步执行每个操作，最终完成任务。通过学习这些高质量的示例，AI开始具备基本的操作能力。
第三阶段是"自我提升探索"，这是整个训练过程中最有趣的部分。在这个阶段，AI不再只是被动地学习专家示例，而是开始尝试处理那些连专家都失败的困难任务。这种训练方式就像是让学生挑战老师都觉得困难的题目，通过这种挑战来突破自己的能力边界。
研究团队让AI尝试处理2000多个GPT-4都无法成功完成的复杂任务。令人惊讶的是，AI通过自己的探索和尝试，成功解决了其中的近500个任务。这些"自我发现"的解决方案被加入到训练数据中，进一步提升了AI的能力。这个过程体现了AI学习能力的一个重要特征：它不仅能模仿，还能创新。
第四阶段是"奖励模型学习"，这个阶段引入了更加精细的评价机制。研究团队训练了一个专门的"评分员"模型，能够对AI的每一步操作进行质量评估。这就像是给AI配了一个严格的考官，不仅要判断操作是否正确，还要评估操作的效率和优雅程度。
基于这个评分系统，AI通过一种叫做"离线强化学习"的方法进一步优化自己的表现。这种方法让AI能够从之前的所有经验中学习，不断改进自己的决策策略。就像一个运动员通过分析自己过往比赛的录像来提升技术一样，AI通过分析自己的历史表现来优化未来的行为。
整个四阶段训练过程体现了一个重要的教育理念：循序渐进、因材施教。每个阶段都有明确的学习目标，并且后一阶段总是建立在前一阶段的基础之上。通过这种系统性的训练，AI从一个完全不会操作电脑的"新手"逐步成长为能够独立处理复杂任务的"专家"。
更值得注意的是，这种训练方法还体现了一种重要的学习策略：从模仿到创新。AI首先学习模仿专家的行为，然后通过自我探索发现新的解决方案，最后通过持续的反馈和优化来完善自己的能力。这种学习路径与人类的技能学习过程有着惊人的相似性。
四、UFO智能助手：AI操作电脑的完整解决方案
有了训练好的大型行动模型之后，如何让它在真实环境中发挥作用就成了下一个关键问题。研究团队开发了一个名为UFO的完整应用系统，这个系统就像是为AI配备了一套完整的"身体"，让它能够真正在Windows环境中执行各种操作任务。
UFO系统的设计理念就像是创造一个拥有完整感知和行动能力的数字助手。它不仅能够"看到"屏幕上的各种元素，还能"理解"这些元素的含义和功能，更重要的是能够"操作"这些元素来完成用户的请求。整个系统的架构就像是一个精密的机器人，有感知模块、决策模块和执行模块。
系统的"眼睛"是一个强大的环境感知模块。这个模块使用Windows的UI自动化接口来获取屏幕上所有可操作元素的详细信息。就像人类通过视觉系统识别桌子上的各种物品一样，UFO能够识别屏幕上的按钮、文本框、菜单等各种控件，并且理解它们的位置、状态和功能。
更有趣的是，系统还具备了一种"记忆"功能。就像人类在工作过程中会记住之前做过什么、下一步要做什么一样，UFO也会记录每一步操作的历史，并且维护一个关于当前任务进展的"心理地图"。这种记忆功能让AI能够在复杂的多步骤任务中保持逻辑连贯性，避免重复操作或遗漏重要步骤。
系统的"大脑"就是经过训练的大型行动模型。当系统接收到用户的请求后，这个模型会分析当前的环境状态，结合历史记录和任务要求，制定出具体的行动策略。这个过程就像是一个经验丰富的工作人员在分析情况、制定计划。
系统的"手脚"是执行模块，它能够将AI的决策转化为实际的操作动作。这个模块可以精确地控制鼠标移动和点击，模拟键盘输入，甚至可以调用一些Windows系统的高级功能。就像是给AI配备了一双灵巧的手，让它能够像人类一样操作电脑。
UFO系统的一个突出特点是它的适应性。传统的自动化工具通常只能处理预设的任务类型，而UFO能够处理各种不同类型的请求。无论是简单的文档编辑任务，还是复杂的多应用协调工作，系统都能够灵活应对。这种适应性来源于底层大型行动模型的强大泛化能力。
系统还具备了智能的错误处理能力。当遇到意外情况或操作失败时，UFO不会简单地停止工作或报错，而是会重新评估情况，调整策略，寻找替代方案。这种"应变能力"让AI在面对复杂多变的真实环境时表现得更加可靠。
为了确保系统的安全性和可控性，研究团队在UFO中内置了多种安全机制。系统会在执行关键操作前进行确认，对于可能造成数据损失的操作会特别谨慎。同时，系统还提供了详细的操作日志，让用户能够了解AI在后台执行了哪些操作。
UFO系统的用户界面设计得非常友好，用户只需要用自然语言描述自己的需求即可。比如用户可以说"帮我制作一个关于销售数据的PPT"，或者"把这个Word文档的格式整理一下"。系统会自动理解这些请求的含义，并且制定相应的执行计划。
更令人印象深刻的是，系统在执行过程中会主动与用户沟通。当遇到需要用户确认的情况时，系统会暂停操作并询问用户意见。这种交互方式让AI助手显得更加智能和可信赖，用户不用担心AI会做出不符合预期的操作。
五、实验验证：数字说话的成功表现
任何一项新技术的价值最终都要通过实际测试来验证。研究团队设计了全面的评估实验，就像对新员工进行全方位的工作能力考核一样，从多个维度测试了UFO系统和大型行动模型的实际表现。
实验设计非常贴近真实使用场景。研究团队准备了435个不同难度的任务，涵盖了从简单的文档编辑到复杂的多步骤操作的各种情况。这些任务就像是一套全面的职业技能测试题，能够充分检验AI的实际工作能力。
实验环境也力求真实可靠。研究团队使用了多台配置相同的虚拟机进行并行测试，每台机器都安装了标准的Windows 11系统和常用的办公软件。这种标准化的测试环境确保了实验结果的可靠性和可重复性。
测试结果令人印象深刻。UFO系统在任务成功率方面达到了71%，这意味着它能够成功完成大约七成的测试任务。考虑到这些任务都是复杂的实际操作任务，这个成功率已经相当不错了。更重要的是，系统在执行任务时展现出了很好的稳定性和可靠性。
为了更好地理解这个成功率的含义，研究团队还与其他先进的AI系统进行了对比测试。结果显示，传统的GPT-4模型在相同任务上的成功率只有约63%，而且在执行效率方面明显不如UFO系统。这种对比清楚地展示了专门训练的大型行动模型相比通用语言模型的优势。
在执行效率方面，UFO系统的表现更加出色。平均每个任务的完成时间只需要30秒左右，而对比的基准系统通常需要80秒以上。这种效率提升不仅来源于AI决策的准确性，也得益于系统优化的操作流程。系统能够选择最直接有效的操作路径，避免不必要的重复步骤。
更细致的分析显示，系统在不同类型任务上的表现也有所不同。对于结构化程度较高的任务，比如表格创建、文档格式化等，系统的成功率可以达到85%以上。而对于需要更多创造性判断的任务，比如内容美化、风格调整等，成功率相对较低，但仍然达到了60%左右的水平。
实验还揭示了一个有趣的现象：系统的学习能力随着使用时间的增长而提升。在连续处理多个类似任务时，系统会从之前的经验中学习，逐步提高处理效率和准确性。这种"边用边学"的特性让系统具备了持续改进的潜力。
研究团队还专门测试了系统的错误处理能力。结果显示，当遇到意外情况时，系统能够在约80%的情况下成功恢复并找到替代方案。这种应变能力对于实际应用来说非常重要，因为真实环境中总会有各种意外情况发生。
安全性测试也是评估的重要组成部分。研究团队模拟了各种可能导致系统误操作的情况，结果显示系统的安全机制能够有效防止大部分潜在风险。不过，研究团队也坦承，在某些极端情况下仍然可能出现意外操作，这是未来需要进一步改进的方向。
用户体验方面的测试同样值得关注。参与测试的用户普遍反映，UFO系统的响应速度和操作准确性都令人满意。特别是系统的自然语言理解能力得到了用户的高度评价，用户可以用非常自然的方式描述自己的需求，而无需学习复杂的命令语法。
六、技术创新的深层意义与未来挑战
这项研究的意义远不止于开发了一个能够操作电脑的AI助手。从更深层次来看，它代表了人工智能发展的一个重要转折点：AI从被动的信息处理工具转变为主动的任务执行者。这种转变就像是从"顾问"升级为"执行官"，具有深远的技术和社会影响。
从技术角度来看，大型行动模型的成功开发解决了AI领域的一个核心难题：如何让AI系统在复杂的现实环境中可靠地执行任务。传统的AI系统往往局限于特定的、结构化的应用场景，而大型行动模型展现出了在开放环境中处理多样化任务的能力。这种通用性和适应性的突破为AI技术的广泛应用奠定了基础。
研究团队提出的四阶段训练方法也具有重要的方法论价值。这种循序渐进的训练策略不仅适用于训练操作类AI，也为其他类型的复杂AI系统训练提供了参考框架。特别是"从专家学习到自主探索"的思路，体现了一种平衡监督学习和自主学习的有效方法。
数据收集和处理方面的创新同样值得关注。研究团队开发的自动化数据生成流程大大降低了训练数据的获取成本，这对于推动这类技术的普及应用具有重要意义。传统上，收集高质量的操作示例数据需要大量的人工工作，而自动化流程让大规模数据收集变得可行。
然而，这项技术也面临着不少挑战和限制。首先是安全风险问题。能够在现实环境中执行操作的AI系统，如果出现错误或被恶意利用，可能会造成数据损失、隐私泄露等严重后果。虽然研究团队在系统中内置了多种安全机制，但如何在保持系统灵活性的同时确保绝对安全仍然是一个需要持续关注的问题。
技术稳定性也是一个现实挑战。虽然实验结果显示系统有71%的任务成功率，但这也意味着约30%的任务可能失败。对于依赖性较高的应用场景，这个失败率可能还不够低。如何进一步提高系统的可靠性，特别是在处理关键任务时的表现，是未来需要重点解决的问题。
伦理和社会影响方面的考虑也不容忽视。这种能够自主执行任务的AI技术可能会对就业市场产生影响，特别是对那些从事重复性、程序化工作的人员。虽然技术进步总体上是有益的，但如何管理这种转变过程中的社会影响需要深入思考。
隐私保护是另一个重要关切。UFO系统需要访问用户的文件、应用程序和操作历史才能有效工作，这涉及到大量的个人信息。如何在提供便利服务的同时保护用户隐私，需要在技术设计和政策制定两个层面同时努力。
成本和资源消耗也是实际应用需要考虑的因素。训练和运行大型行动模型需要相当的计算资源，这可能限制了技术的普及速度。如何优化模型结构，降低运行成本，是推动技术商业化应用的关键因素。
跨平台兼容性是技术推广面临的另一个挑战。目前的研究主要集中在Windows平台上，但用户实际使用的环境非常多样化，包括不同的操作系统、软件版本和配置。如何让大型行动模型适应这种多样性，是一个需要长期投入的工程问题。
尽管面临这些挑战，研究团队对技术的未来发展保持乐观态度。他们认为，随着技术的不断改进和应用经验的积累，这些问题都会逐步得到解决。更重要的是，大型行动模型代表的技术方向是正确的，它为AI技术的实用化开辟了新的道路。
七、开源贡献与研究影响
这项研究的另一个重要价值在于其开放性和可复制性。研究团队没有将技术成果束之高阁，而是慷慨地公开了数据收集工具的源代码，并提供了详细的技术文档。这种开放态度就像是向整个科研社区贡献了一套完整的"工具包"，让其他研究者能够基于这些工作继续深入探索。
开源代码发布在GitHub平台上，包含了完整的数据收集流程实现。这些代码不仅可以直接使用，还提供了详细的注释和使用说明，大大降低了其他研究团队的技术门槛。就像是一份详细的烹饪食谱，让其他"厨师"也能制作出同样美味的"菜肴"。
技术文档的质量也非常出色。研究团队提供了从理论框架到具体实现的全方位指导，包括环境配置、数据预处理、模型训练、系统集成等各个环节的详细说明。这种全面的文档化工作体现了严谨的科研态度，也为后续研究提供了宝贵的参考资料。
这种开放的研究方式已经在学术界产生了积极影响。多个研究团队表示将基于这项工作开展相关研究，涵盖了移动设备操作、网页自动化、机器人控制等多个方向。这种扩散效应正是开放科学的价值所在：一项基础性的突破能够催生更多的创新应用。
教育价值也不可忽视。这项研究为AI和机器学习相关专业的学生提供了一个完整的案例研究，从问题定义、方法设计、实验验证到结果分析的全过程都有详细记录。许多高校已经将这项研究纳入课程教学内容，作为理论联系实际的典型案例。
产业界的关注度同样很高。多家科技公司的研发团队正在评估将类似技术集成到自己产品中的可能性。虽然从研究原型到商业产品还有相当距离，但这项研究为产业发展指明了方向，也为相关标准的制定提供了技术基础。
研究方法的创新性也值得特别关注。四阶段训练法、自动化数据生成、多模态评估等技术创新不仅适用于大型行动模型，也为其他类型的AI系统开发提供了有价值的参考。这些方法创新可能会在更广泛的AI研究领域产生影响。
国际合作方面，这项研究体现了跨国、跨机构协作的典型模式。来自中国、荷兰等不同国家的研究机构通过有效协作，共同推进了技术前沿的发展。这种国际化的研究模式为解决复杂技术问题提供了重要启示。
说到底，这项来自微软研究院的突破性工作标志着人工智能从"能说会道"向"能做实事"的重要跃进。通过创新的大型行动模型概念和系统性的训练方法，研究团队成功开发出了能够在真实环境中执行复杂任务的AI系统。UFO助手71%的任务成功率和显著的效率提升证明了这一技术路线的可行性。
尽管目前还面临安全性、稳定性和成本等挑战，但这项研究为AI技术的实用化开辟了新的道路。更重要的是，研究团队的开放态度和详细的技术分享为整个研究领域的发展做出了重要贡献。随着技术的不断完善和应用场景的扩展，我们有理由期待这种能够真正"动手做事"的AI助手在不久的将来走进千家万户，成为我们工作和生活中不可或缺的智能伙伴。
这项研究也提醒我们，人工智能的发展正在从单纯的模拟人类思维转向模拟人类的完整行为能力。这种转变不仅是技术上的进步，更是AI角色定位的根本改变。未来的AI将不再只是我们的咨询顾问，而是能够与我们并肩作战的工作伙伴。这个转变过程中的每一步都值得我们密切关注和深入思考。
Q&A
Q1：大型行动模型LAMs和传统的大语言模型有什么区别？
A：传统的大语言模型就像一个博学的学者，只会"纸上谈兵"——能回答问题、生成文本，但无法在现实环境中执行具体操作。而大型行动模型LAMs则像一个"全能助手"，不仅能理解指令，还能直接在电脑上执行操作，比如点击按钮、编辑文档、创建表格等实际任务。简单说就是从"只会说"升级为"既会说又会做"。
Q2：UFO系统的71%任务成功率在实际应用中可靠吗？
A：71%的成功率在复杂的现实操作任务中已经相当不错，比传统GPT-4模型的63%有明显提升。而且这个成功率会随着使用时间增长而提升，系统具备"边用边学"的能力。对于结构化程度高的任务，成功率可达85%以上。不过对于关键性任务，这个成功率确实还有提升空间，这也是未来需要继续改进的方向。
Q3：普通用户什么时候能使用到类似UFO这样的AI助手？
A：目前UFO还是研究原型，主要用于学术验证。从研究原型到面向普通用户的商业产品还需要时间，需要解决安全性、稳定性、成本控制等问题。不过研究团队已经开源了相关代码和技术文档，这会加速产业化进程。预计在未来几年内，类似功能会逐步集成到各种办公软件和操作系统中，让普通用户也能享受到这种智能助手的便利。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

全网疯抢大疆Pocket 4P

水田插秧之后马云低调现身麻省理工和哈佛大学

B站视频播客单日播放时长突破1亿分钟，专题创作手册发布

高通斥资近290亿元收购Modular，转向AI软件与数据中心

“三星电子”公众号，已注销

鸿蒙智行自带二层楼的MPV 华为申请车顶升降专利

全站最新

全网疯抢大疆Pocket 4P

水田插秧之后马云低调现身麻省理工和哈佛大学

B站视频播客单日播放时长突破1亿分钟，专题创作手册发布

高通斥资近290亿元收购Modular，转向AI软件与数据中心

热门推荐

志愿填报“参谋”到位：高考出分三日，大模型已助 500 万考生“定心”

近 400 家地方报纸起诉 OpenAI 和微软，指控侵犯版权

全网疯抢大疆Pocket 4P

水田插秧之后马云低调现身麻省理工和哈佛大学

B站视频播客单日播放时长突破1亿分钟，专题创作手册发布

《庆余年》《赘婿》续作要来了 20部阅文出品及IP改编作品官宣

高通斥资近290亿元收购Modular，转向AI软件与数据中心

“三星电子”公众号，已注销

鸿蒙智行自带二层楼的MPV 华为申请车顶升降专利

亚马逊AWS业务CEO加曼：半数白领工作或因AI而改变，而非被淘汰

iPhone 17生命周期拉长至18个月：成为苹果史上最长寿旗舰

曝苹果iPhone Ultra 2第二代阔折叠立项确定，Air 3还没开模

效仿小米命名策略 REDMI跳过16代：Note 17系列7月登场

比尔·盖茨第三段婚外情对象曝光

Windows 11内存标准再变！从32GB最佳、到8GB够用