ChatGPT-5.4属实“动手王者”，一句话征服微信，但是我却被气笑了

IP属地中国·北京 编辑：赵静字母榜 时间：2026-03-06 22:07:29

自从OpenAI发布GPT-5.4以后，我的朋友圈和订阅的公众号就被它占领了。
所有人都在讨论同一个词，叫做原生电脑操控能力（Native Computer Use）。铺天盖地的标题写着“AI终于能接管你的电脑了”“GPT-5.4操控桌面超越人类水平”，评论区也都清一色地在喊“为时已晚，有机体！”
说实话，看到这些宣传的时候，我的第一反应不是兴奋，而是怀疑。因为“AI操控电脑”这个概念并不新鲜，今年1月OpenClaw爆火的时候，大家就已经见识过了。
而且过去两年，每隔几个月就有人喊一次“agent时代来了”，结果每次实际体验都差点意思。所以这次GPT-5.4的“原生电脑操控”，到底是真的质变，还是又一轮营销话术？
我决定自己动手试试。
花了大半天进行测试，我的结论是：它确实迈出了很大一步，但也确实没有宣传里说的那么神。
有些场景让我真心震撼，有些场景又让我哭笑不得。
以及可以肯定的是，ChatGPT-5.4它远不止内置了一个OpenClaw那么简单。
01
ChatGPT 终于学会“动手”了
GPT-5.4是OpenAI 第一个内置电脑操控能力的主线模型。
这里得先解释一下“原生电脑操控能力”（Native Computer Use）。
这个概念听起来很唬人，但其实核心逻辑并不复杂。
以前的ChatGPT，本质上都是一个“嘴强王者”。你问它怎么在Excel里做个数据透视表，它能给你写出详细到令人发指的教程，但它自己动不了手。你得自己一步步照着做。
而原生电脑操控能力，说人话就是AI不只是会聊天了，它会像人一样直接用电脑干活。它能看到当前屏幕上有什么，理解哪个是浏览器、哪个是按钮、哪个是输入框，然后自己去点击、输入、切换窗口、滚动页面、提交表单。发现做错了，它还能回退或者换一种操作方式。
举个例子，我让Codex给我在文件里生成一个TXT，然后写一句话“你好世界”，那么Codex就真的新建一个TXT，然后在里面写字。
你可能会问，这和写个自动化脚本有什么区别？
区别大了。传统的自动化脚本需要提前把每一步流程写死，网页结构一变、按钮位置一挪，脚本就废了。但原生电脑操控能力更像是一个人在操作，它能看到屏幕上的内容，根据当前的实际情况判断下一步该干什么，具备随机应变的能力。
[Desktop 2026.03.06 - 10.54.48.02.mp4]
我们可以用微信来举例子，因为微信从产品设计、底层架构到安全体系，从根源上就没有给第三方agent留任何合规的技术通道。
而且微信的API是外部系统与微信服务端合规交互的唯一官方通道，而截至目前，微信开放平台完全没有对外开放个人微信账号的私聊、群聊消息发送相关的API接口。
但ChatGPT-5.4实现了。
我通过Codex要求ChatGPT-5.4归纳24小时内的AI新闻，然后将其以字母AI的风格转化为选题，最后发到群里供同事们查看。并且在选题最后，写一句话代表这条消息是ChatGPT-5.4发送的。
ChatGPT-5.4不仅完成任务，还主动提出要求，帮我把这段话改得更自然。
它现在不仅能看懂屏幕上的元素，还能实现完整的键盘鼠标模拟。
当时我的内心是无比震惊的，因为哪怕是OpenClaw，想要征服微信都要费很大力气，ChatGPT-5.4竟然这么轻易就能实现了。
于是我例行测试了一下ChatGPT-5.4对浏览器的控制，我本以为这是个简单活儿，毕竟我的浏览器就是Chrome，而OpenAI自己的AI浏览器用的也是Chrome内核。
结果却给我气笑了。
我让Codex打开douyin.com，可ChatGPT-5.4给我打开的是“抖音。com”
于是我问Codex，怎么输入的是中文，它跟我说因为它是模拟键盘输入，我的输入法是中文，所以输错了。由于英语键盘是没有输入栏的，也就意味着ChatGPT-5.4看不到输入栏，所以当我切换成中文输入法的时候，它就没办法正常输入网页。
当然，它也不是万能的。页面太复杂的时候容易点错地方，操作速度通常比人慢，而且涉及付款、删除文件、处理隐私数据这类高风险操作时，你最好还是盯着点它。
OpenAI给了ChatGPT两种“动手”的方式。第一种叫代码模式，AI会用Python写Playwright脚本来操控浏览器和应用程序，点哪里、输入什么、怎么导航，全部通过代码精确执行。
第二种叫截图模式。AI直接“看”你的屏幕截图，然后像人一样发出鼠标和键盘指令，不需要任何代码作为中间层。
OpenAI还专门做了一个叫“Playwright Interactive”的实验性功能，让AI可以一边写代码一边实时测试，甚至能在构建网页应用的同时自己打开浏览器去调试。
官方演示里，GPT-5.4 从一句话的提示出发，直接生成了一个等距视角的主题公园模拟游戏，带路径铺设、游客寻路、排队系统，然后自己打开浏览器去玩了一遍来检查Bug。
一句话变成一个可运行的游戏，这个演示确实唬人。
02
不只是接管电脑
有一个叫做OSWorld-Verified的测试，是专门衡量AI通过截图加键盘鼠标自主操控桌面能力的基准测试，在这项测试中GPT-5.4拿到了75.0%的成功率。
上一代GPT-5.2只有47.3%，而人类基准线是72.4%。
也就是说，GPT-5.4 在“看着屏幕操作电脑”这件事上，已经超过了普通人的平均水平。
在WebArena-Verified上，GPT-5.4也拿到了67.3%的成功率；在Online-Mind2Web 上，仅靠截图观察就达到了92.8%。
这些数字的意义在于。如今的ChatGPT在操控电脑这方面，已经不再是实验室里的玩具，它是真的能用了。
其实不难看出，OpenClaw对ChatGPT-5.4的加持很大。
2026年2月14日，斯坦伯格正式宣布加入OpenAI。奥特曼同步在 X 平台官宣，称其将负责 “推动下一代个人agent的研发”。
同时明确OpenClaw项目将移交至独立开源基金会运营，OpenAI承诺为项目提供持续的资源、资金与技术支持。
于是ChatGPT-5.4就带着浓烈的OpenClaw味登场了。
OpenClaw有一个大问题，贵。由于软件本身会将上下文一并发送至大模型，这就导致在一些场景下，它的token消耗会非常恐怖。
所以OpenAI引入了一个叫“Compaction”的机制，上下文压缩。简单来说，当AI在执行一个很长的多步骤任务时，它会自动总结和修剪中间过程的历史记录，只保留关键信息。
这样既能维持长任务的连贯性，又不会把 token 预算一下子烧光。这是GPT-5.4作为第一个主线模型被训练支持的能力，之前只有专门的Codex编码模型才有类似的功能。
然后是推理能力。GPT-5.4 Thinking版本有一个很实用的新特性，在处理复杂问题时，它会先展示一个推理计划的大纲，告诉你“我打算怎么做”。
更关键的是，你可以在它推理的过程中随时打断、调整方向，不用从头再来。这个功能听起来不起眼，但用过就知道，以前让AI做一个复杂任务，如果方向跑偏了，你只能重新发一条消息从零开始。
现在你可以中途喊停说“不对，换个思路”，它能接着往下走。
在专业知识工作的GDPval基准上，GPT-5.4拿到了83.0%，而GPT-5.2是70.9%，提升了12个百分点。在BrowseComp（衡量 AI 持续浏览网页查找难以定位的信息的能力）上，GPT-5.4 Pro版本达到了89.3%，刷新了纪录。
Mercor的APEX-Agents基准测试也显示，GPT-5.4 在制作幻灯片、金融建模、法律分析这类长周期专业任务上表现突出。
另外还有一个面向开发者的重要更新，那就是Tool Search。
以前调用 API 时，所有可用工具的定义都要一股脑塞进上下文里，光这些定义就能吃掉几万个token。现在GPT-5.4只加载一个轻量级的工具列表，需要用哪个再去查具体定义。在Scale的 MCP Atlas 基准测试中，这种方式在36个MCP服务器的场景下，token消耗直接降低了47%，准确率不变。
最后，OpenAI还推出了ChatGPT直接嵌入Microsoft Excel和谷歌Sheets的集成功能。GPT-5.4可以读取单元格范围、执行多步分析、自动写公式。
这对企业用户来说是个大杀器，AI不再是你和表格之间的“传话筒”，它直接坐进了你的表格里干活。
但我也有一些担忧。OpenClaw之所以魔幻，不仅仅是因为AI能做事，更是因为 AI 做的事经常超出人类预期，当这种能力被内置到一个拥有数亿用户的产品里，我总觉得心里毛毛的。
Codex现在可以设置，让ChatGPT-5.4拥有完全访问你电脑的权限，从而做到真正的原生控制。
说实话，这个功能我不敢测试，甚至连开启都不敢。别问，问就是我电脑花钱买的，而且包含了我的个人敏感数据。
OpenAI在GPT-5.4的安全评估中提到，Thinking版本的欺骗行为概率更低，“说明模型缺乏隐藏其推理过程的能力，思维链监控仍然是有效的安全工具”。
这话听着让人安心，但也侧面说明了一个事实，他们确实在担心AI会“隐藏推理过程”这件事。
不管怎样，GPT-5.4的发布标志着一个新阶段的开始。AI不再只是对话框里那个能说会道的助手，它正在学会伸出手来，触碰你的屏幕、你的文件、你的工作流。
那只龙虾现在已经游进了OpenAI的池塘里，而它掀起的浪，才刚刚开始。

标签： ai 浏览器 电脑屏幕 token 基准 codex 网页

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

OpenAI发布首款AI芯片，可适配各类大语言模型

他给谷歌做出了最火CLI工具，结果被开了

华为助力全球运营商以网为基，以智为翼，业网算协同创新，迈向Token经营新征程

华为擎云H3550商用智能手表发布，支持星闪查找/车钥匙能力

阿维塔07L全新车色官图发布，正式命名“弦月银”

水田插秧之后马云低调现身麻省理工和哈佛大学

全站最新

OpenAI发布首款AI芯片，可适配各类大语言模型

他给谷歌做出了最火CLI工具，结果被开了

华为助力全球运营商以网为基，以智为翼，业网算协同创新，迈向Token经营新征程

华为擎云H3550商用智能手表发布，支持星闪查找/车钥匙能力

热门推荐

OpenAI发布首款AI芯片，可适配各类大语言模型

文心一言服务全面升级：数据迁移即将开启，百度文心迎来新面貌

机器人有了“通用大脑”：RoboScience 发布 Visics 大模型，实现跨场景自主执行

他给谷歌做出了最火CLI工具，结果被开了

华为助力全球运营商以网为基，以智为翼，业网算协同创新，迈向Token经营新征程

高德云图与网商银行达成生态合作，高德问店纳入“生意金卡”权益体系

华为擎云H3550商用智能手表发布，支持星闪查找/车钥匙能力

阿维塔07L全新车色官图发布，正式命名“弦月银”

水田插秧之后马云低调现身麻省理工和哈佛大学

5月固态硬盘出货量环比大涨50%：致态稳居前三

高通正洽谈为字节跳动提供芯片设计服务目标在年底前启动量产

又双标？Anthropic指责阿里巴巴蒸馏其AI

三星Galaxy Z Fold8宽折叠手机爆料：握感轻薄、屏幕折痕更浅

谷歌Chrome浏览器149升级AI交互，能帮你挑选合适商品

蔚来马麟回应“增程尽头”之争：纯电销量已是增程7倍感谢增程培养了用电习惯