OpenAI的Agent来了，被批“鸡肋”升级？

IP属地中国·北京 编辑：沈瑾瑜 21世纪经济报道 时间：2025-07-18 20:08:07

21世纪经济报道记者孔海丽、实习生郑子涵
AI Agent竞赛进入白热化阶段，但能力与实用性的鸿沟仍待弥合。
继年初发布专注于浏览器交互的Operator和精于深度研究的DeepResearch之后，OpenAI终于打出了组合拳。7月18日凌晨，集二者之长的ChatGPT Agent正式上线，试图打造一个能处理端到端复杂任务的“全能助理”。
然而，相较于xAI发布Grok 4时的万众瞩目，此次OpenAI的更新在社区却引发了褒贬不一的讨论。一方面，其在多项基准测试中再次“屠榜”，展现了强大的技术实力；另一方面，用户初期的失望情绪、对其实用性的质疑以及服务器的例行崩溃，都让这款被寄予厚望的Agent显得有些“平淡”。
OpenAI此次更像是一次“内部整合”的常规升级，而非颠覆性创新。AI巨头们的产品迭代，似乎正从追求“暴力美学”的技术突破，转向解决自身产品短板的精细化运营。
不过也要注意到，相比于当初引起巨大讨论的Manus，公众对于已经成长为AI巨头的OpenAI显然有更高期待和要求。
从官方演示和技术博客来看，ChatGPT Agent的能力覆盖了从办公到生活的诸多场景。
其核心逻辑是将Operator的视觉交互能力与DeepResearch的信息合成能力融为一体。简单来说，Operator不擅长阅读长文，而DeepResearch无法与动态网页互动，ChatGPT Agent则试图“取长补短”，在一个虚拟机内同时调度视觉浏览器、文本浏览器和代码终端。
理论上，它可以完成相当复杂的任务链。
比如，办公自动化，自动分析日历，结合最新新闻为即将到来的会议生成简报；进行竞品分析，并直接生成一份可编辑的PPT演示文稿。
生活助手，可以根据用户喜好规划一周菜单，并完成在线采购。
深度研究，可以创建研究报告、电子表格或其他详细文档。
性能数据也相当亮眼。在被誉为“人类最后的考试”（HLE）测试中，ChatGPT Agent的pass@1得分达到41.6%，刷新了纪录。在电子表格处理测试SpreadsheetBench中，其总体准确率达到45.54%，远超微软自家Copilot in Excel的20%。
不同AI模型在SpreadsheetBench评估中处理软限制的性能对比表格（来自OpenAI官网公告）
然而，漂亮的跑分并未完全转化为完美的用户体验。
“你永远可以对OpenAI的发布会，保持失望。”一位资深用户在体验后直言。这种情绪在交流社区中并不少见。
争议主要集中在以下几个方面：
准确性与效率的矛盾。尽管内部测试称其在约50%的知识工作任务中表现比肩甚至超越人类，但用户反馈的实际任务完成率也恰好在50%左右。有用户抱怨，一个手动操作仅需15秒的任务，Agent却花费了35分钟，并且最终结果中的数据还需要花费2-3倍的时间来核对，效率不升反降。
备受期待的PPT生成功能，其成品被吐槽“被各家其他的通用Agent秒杀”，美观度严重不足。
此外，Agent可以连接用户的Google Drive、Gmail等私密数据源，也引发了巨大的安全担忧。有用户评论，即使是99.99%的成功率，也意味着每周可能在美国产生7200次错误，如果涉及金融交易或敏感邮件，后果不堪设想。
高门槛与低配额。目前该功能仅向Pro、Plus和Team用户开放，且Plus与Team用户每月仅40次的使用配额，与其“全能助理”的定位似乎并不匹配。
伴随新功能发布的，还有ChatGPT雷打不动的服务器崩溃，这几乎成了OpenAI发布会的“保留节目”。
如果说马斯克的Grok 4上演的是一场算力碾压的“暴力美学”，那么OpenAI的这次更新更像是一次“精耕细作”的产品迭代。它没有试图发明新科学，而是回头修补了现有产品的短板。
AI竞赛正进入下半场。上半场，巨头们用不断刷新的跑分和令人惊叹的演示争夺眼球；下半场，焦点则回归到最朴素的问题，如何让用户真正用起来，并愿意为之付费？
ChatGPT Agent的发布，伴随着对付费用户严格的次数限制，更像是一场大规模的公开测试，而非成熟商业产品的全面铺开。OpenAI似乎也在摸索，在强大的能力与高昂的运行成本之间，如何找到一个可持续的商业模式。
与此同时，能力越大，风险越大。OpenAI在报告中坦承，该模型在生物和化学武器等领域被评估为具有“高能力”，这触发了内部最高级别的安全预警。为此，公司采取了包括实时监控、禁用记忆功能在内的一系列预防措施。在执行发送邮件等关键操作前，Agent也会主动请求用户许可。
只有服务器不再崩溃、生成的内容无需反复核查、用户能放心地将邮箱和日程表交给它时，AI Agent的时代才算真正到来。在此之前，无论是OpenAI还是其他玩家，都还有很长的路要走。
不过那个时候，人类是否真的会被AI夺走工作，也将变成更加严峻的现实问题。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

首都互联网协会“自媒体”治理与发展专业委员会成立

华为与云南交投共创“绿美通道”，交通大模型引领行业数智化新篇章

组图：2025智能互联网蓝皮书发布分享活动精彩回放

快应用生态升级：智能体一键部署全域，小程序轻松转型Web快应用

在上海，互联网内容创作者距离评“高级”有多远？

人民网发布《中国智能互联网发展报告（2025）》

全站最新

首都互联网协会“自媒体”治理与发展专业委员会成立

华为与云南交投共创“绿美通道”，交通大模型引领行业数智化新篇章

组图：2025智能互联网蓝皮书发布分享活动精彩回放

快应用生态升级：智能体一键部署全域，小程序轻松转型Web快应用

热门推荐

首都互联网协会“自媒体”治理与发展专业委员会成立

华为与云南交投共创“绿美通道”，交通大模型引领行业数智化新篇章

组图：2025智能互联网蓝皮书发布分享活动精彩回放

快应用生态升级：智能体一键部署全域，小程序轻松转型Web快应用

在上海，互联网内容创作者距离评“高级”有多远？

人民网发布《中国智能互联网发展报告（2025）》

张朝阳对话物理学家David Tong：科学教育必须注入严谨的数学思维

腾讯元宝打通QQ音乐

市场监管总局：直播电商平台和带货主播企业等食品新业态新模式要高度重视食品安全

重演去年6月调整？涨幅超80%后，英伟达现过热信号

首都互联网协会“自媒体”治理与发展专业委员会成立

嘉定汽车城“再升级”，千万红包砸向智能网联新能源

新华社经济随笔：从库克到黄仁勋，缘何一年三度来华？

上海外滩“长出”互联网优质内容集聚区

涉及饿了么、美团、京东！市场监管总局约谈外卖平台企业