就在刚刚,ChatGPT-5.2发布了。
这是OpenAI成立以来,首次发布红色警报(Code Red)后的第一款产品。
虽然在时间上,GPT-5.2只跟5.1相隔了一个月。但是从公布的性能数据来看,GPT-5.2较上一代提升巨大,而且远超谷歌和Anthropic的同期产品。
然而OpenAI的红色警报并未因此解除,这家公司仍处于危机之中。
究其原因,现在的市场已经逐渐开始对OpenAI祛魅,而是更冷静地审视每一分算力背后的投入产出比。在这种前所未有的环境之下,OpenAI不仅需要证明自己是最强的,还需要证明自己不可被替代。
01
首先要说的,就是GPT-5.2的数学能力。
长期以来,业界普遍认为大语言模型虽然能写代码、能聊天,但在严格的数学推理上总是差强人意。这次GPT-5.2 Thinking在AIME 2025数学竞赛中拿到了100%的满分。

AIME是美国数学邀请赛,题目难度远超普通高中数学,需要扎实的数学功底和灵活的解题思路。GPT-5.2能在这样的测试中全部答对,说明它在数学推理上已经达到了相当高的水平。
在更高难度的FrontierMath测试中,GPT-5.2 Thinking解决了40.3%的专家级数学难题。这个测试专门针对前沿数学研究设计,许多题目连专业数学家都需要花费大量时间思考。能解决其中40%的问题,已经展现出在辅助科学研究方面的潜力。
除了推理和数学,GPT-5.2在专业工作领域也表现突出。
在OpenAI新推出的GDPval基准测试中,GPT-5.2 Thinking在涵盖44种职业的知识工作任务上,有70.9%的情况下击败或打平了顶尖行业专家。
这些任务包括制作演示文稿、构建复杂的财务模型、撰写专业文档等。OpenAI表示,它完成这些任务的速度是人类专家的11倍以上,成本却不到1%。
在软件工程方面,GPT-5.2 Thinking在SWE-Bench Pro上达到55.6%的准确率,在SWE-bench Verified上达到80%。这些测试评估的是模型在真实代码库中修复bug、实现新功能的能力。
早期测试者反馈,它在前端开发和复杂UI实现上尤其出色,甚至能够根据一条提示就生成包含3D效果和物理模拟的完整应用。
GPT-5.2在长文档理解上也有明显进步。在OpenAI的MRCRv2测试中,它成为首个在256k token长度下,针对4-needle变体任务达到近乎100%准确率的模型。
这意味着用户可以上传数百页的报告、合同或研究论文,模型仍能准确理解分散在不同位置的相关信息,并进行综合分析。

在视觉理解方面,GPT-5.2的错误率在图表推理和软件界面理解任务上几乎减半。它对图像中物体的空间位置有了更准确的把握。
OpenAI展示了一个例子:即使输入一张模糊的主板照片,GPT-5.2也能准确识别出各个组件的位置并标注边界框,而前代模型只能识别出少数部分且位置偏差较大。

此次发布包含三个版本。GPT-5.2 Instant定位为日常工作的快速助手,适合信息查询、技术写作和翻译等任务。GPT-5.2 Thinking专注于深度推理,在编程、数据分析和复杂文档处理上表现最佳,是专业工作的首选。GPT-5.2 Pro则是最智能的版本,适合那些值得等待高质量答案的高难度问题。
同时这次发布最引人注目的,不仅是模型本身的能力提升,更是一个令人惊讶的效率数据:在ARC-AGI-1测试中,GPT-5.2 Pro实现了约390倍的效率改进。
一年前,OpenAI曾验证过一个未发布的o3预览版本,在ARC-AGI-1测试中达到88%的准确率,但每个任务的成本约为4500美元。如今,GPT-5.2 Pro不仅将准确率提升至90.5%,还将单任务成本降至11.64美元。这种量级的效率提升,意味着原本只能在实验室中演示的能力,现在有可能真正走向实际应用。

ARC-AGI测试被设计用来衡量抽象推理能力,它要求模型在面对从未见过的模式时,仍能找出规律并给出答案。这种能力接近人类所谓的“举一反三”。
GPT-5.2 Pro在ARC-AGI-1验证集上的表现,使其成为首个突破90%门槛的模型。在难度更高的ARC-AGI-2上,GPT-5.2 Thinking也达到了52.9%的准确率,创下了链式思维模型的新纪录。
02
GPT-5.2是奥特曼启动Code Red后的一次强有力证明,但竞争的结果不会由单一基准测试决定。真正的较量在于谁能更好地理解用户需求,谁能在保持技术领先的同时控制成本,谁能在不同应用场景中提供更可靠的服务。
一个来自GitHub的开源基准测试给出了答案。在lechmazur维护的NYT Connections测试中,GPT-5.2的表现并不如预期。

NYT Connections是《纽约时报》推出的一个文字游戏,要求玩家从16个词语中找出四组相关的词汇。这个测试被设计成了一个LLM基准,通过加入额外的干扰词来增加难度,目前包含759个谜题。这种测试考察的是模型对语言的细微理解、联想能力和分类推理。
在这个排行榜上,Gemini 3 Pro Preview以96.8%的准确率位居第一。紧随其后的是xAI的Grok 4.1 Fast Reasoning,准确率为93.5%。OpenAI的模型中,表现最好的是GPT-5 Pro,准确率为83.9%,排在第八位。GPT-5.2在高推理模式下的准确率为77.9%,排名第11位。
这个结果多少有些出人意料。GPT-5.2在数学竞赛中能拿满分,在专业工作任务中能超越人类专家,但在这个看似简单的文字游戏上,却落后于竞争对手近20个百分点。
深入分析会发现,这并不是简单的性能问题。NYT Connections测试的是模型对语言文化背景的理解,对词语之间隐含关联的把握,以及在多个可能性中做出合理选择的能力。
比如BANK、INTEREST、RATE、LOAN可能组成金融类别,也可能BANK与SHORE、BEACH、COAST组成河岸类别。
模型需要同时考虑多个维度的关联,并找到最合理的分组方式。
Gemini 3 Pro在这个测试上的领先,说明谷歌在语言理解的某些维度上确实有独到之处。Grok系列模型的表现也值得注意,xAI虽然起步较晚,但在特定任务上已经展现出竞争力。
有趣的是,测试数据还显示,在最新的100个谜题中,各模型的排名基本保持一致,这说明训练数据污染的可能性不大。模型之间的差距是实质性的,而非来自对题目的记忆。
这个测试的存在,给AI社区提供了一个更全面的视角。模型能力的评估不应该只看几个主流基准测试,也需要关注那些看似边缘但实则反映深层能力的测试。
NYT Connections考察的联想和分类能力,在实际应用中同样重要,比如在信息检索、内容推荐、知识图谱构建等场景中。
从这个角度看,奥特曼的Code Red警报确实还不能解除。虽然GPT-5.2在很多领域表现出色,但它并没有在所有维度上都取得领先。竞争对手在某些方向上依然保持着优势,甚至在扩大差距。
03
技术竞争最终要落到商业层面。OpenAI在市场上的处境,比技术指标的对比要复杂得多。
从定价策略来看,GPT-5.2在API层面的价格定在每百万输入token 1.75美元,每百万输出token 14美元,比前代GPT-5.1分别贵了40%。
GPT-5.2 Pro价格也提高了,每百万输入token 21美元,每百万输出token 168美元。

这个涨价幅度不小,OpenAI的解释是新模型能力更强,性价比实际上更高。但对于大量调用API的开发者来说,成本的增加是实实在在的。
相较之下,Gemini 3 Pro的核心型号为gemini-3-pro-preview,其token定价按上下文窗口长度区分,提示词≤20 万 token 时,输入每百万token 2美元、输出每百万token 12美元,提示词>20万token时,输入和输出价格分别翻倍至每百万token 4美元和18美元。
Claude 方面,最新的 Opus 4.5定价大幅下调,输入每百万token 5美元、输出每百万token 25美元,相比前代降幅约2/3,上下文窗口为200K token,且无长上下文加价情况。
当竞争对手们如Gemini和Claude都在通过大幅降价,试图让AI变成像水电一样廉价的基础设施时,OpenAI 却反其道而行之,不仅没有参与价格战,反而坦然地挂出了高昂的价格标签。这只能说明一件事:奥特曼正在试图把 GPT 变成一件“奢侈品”。
在商业逻辑中,奢侈品的定义往往不在于“有用”,而在于“稀缺”和“极致”。OpenAI 正在赌,赌这个世界上存在一部分最高端的智力需求,它们对价格不敏感,但对质量有着近乎偏执的要求。
对于这部分用户,只要能提供那个唯一的、最正确的答案,168美元的价格不仅不贵,反而是一种身份和能力的筛选。
这或许才是“红色警报”在商业层面的真正回响。它不再是担心落后,而是担心平庸。
OpenAI正在进行一场危险的博弈:它试图通过高价策略,将自己与“普通 AI”彻底区隔开来,建立起类似爱马仕或苹果那样的品牌护城河。
但这也意味着,它从此失去了“差不多就行”的容错空间。可问题就在于一旦这件昂贵的“奢侈品”在实际体验中无法提供碾压式的优越感,那么用户转身离开的速度。
况且,能挽救OpenAI的远不止一个高性能的模型那么简单,奥特曼现在需要的,是一个足够动人的新故事。





京公网安备 11011402013531号