当前位置: 首页 » 资讯 » 科技头条 » 正文

GPT-5.6来了:旗舰版碾压GPT-5.5,价格却没涨

IP属地 中国·北京 编辑:陈丽 字母榜 时间:2026-06-27 10:05:32

GPT-5.6来了,但……这是个什么型号?

这次OpenAI没有沿用过去大家熟悉的Pro、Mini、Instant这类命名,而是一次性端出了三个名字:GPT-5.6 Sol、GPT-5.6 Terra、GPT-5.6 Luna。

Sol是太阳,Terra是地球,Luna是月亮。

听起来很花哨,像一个新的模型宇宙。但它其实还是我们熟悉的那套产品分层:一个最强的旗舰模型,一个日常使用的均衡模型,一个便宜、快速、适合大规模调用的轻量模型。

OpenAI官方说法是:GPT-5.6系列会在未来几周全面开放,但目前先应美国政府要求,在Codex和API中向一小群“值得信赖的合作伙伴”进行有限预览。

让我们先来了解一下已公开的情报。

最高档和GPT 5.5同价

OpenAI这次给GPT-5.6分了三档:Sol、Terra、Luna。

按照官方说法,Sol是旗舰模型,Terra是面向日常工作的均衡模型,Luna则是快速、便宜的轻量模型。

三档模型一口气全放了出来,基本对应大模型产品里最常见的三层结构:最强模型负责能力上限,中间模型负责大多数日常任务,轻量模型负责速度、成本和高并发调用。

从价格就能看出三者的层级。

按照OpenAI公布的API价格,GPT-5.6按每100万token计费:Sol是输入5美元、输出30美元;Terra是输入2.5美元、输出15美元;Luna是输入1美元、输出6美元。

相信大家可能注意到了:GPT-5.6 Sol虽然是新一代旗舰模型,但价格对齐的是GPT-5.5标准版,而不是GPT-5.5 Pro。

Terra则直接降到GPT-5.5的一半,Luna只有GPT-5.5的五分之一。

GPT-5.5 Pro依然是当前OpenAI最贵的模型,价格是输入30美元/百万token,输出180美元/百万token,价格是GPT-5.5标准版和GPT-5.6 Sol的6倍。也不知道之后会不会再出一个“更适合专业任务”的GPT-5.6 Universe(只是开玩笑)。

Sol是这次GPT-5.6系列里的最高档,也是官方公告里花最多篇幅介绍的模型。

OpenAI把GPT-5.6 Sol称为目前最强模型,重点展示了它在写代码、生物研究和网络安全上的能力。

简单说,Sol的定位是“最会干活的模型”,它对应的不是普通聊天场景,是更复杂、更接近真实工作的任务。

比如在代码场景里,它可以围绕一个目标持续推进:先理解问题,再拆步骤,然后调用工具、运行命令、检查结果,出错了再改,直到任务完成。

为了支撑Sol处理更难的任务,OpenAI给GPT-5.6引入了两个新机制。

第一个叫max reasoning effort,可以翻译成“最大推理强度”。

通俗理解,就是让Sol有更多时间想清楚问题、花更长时间进行深度推理,适合那些不能靠第一反应解决的复杂任务。

第二个叫ultra mode,可以理解为“超强模式”。

这个模式的重点是让多个子智能体一起参与复杂任务,可以理解为:过去是一个AI助手自己干活,现在是一个“AI经理”带着几个小助手分头处理问题,从而加快复杂工作的推进。

Terminal-Bench 2.1就是一个更接近真实开发流程的测试,考的是模型能不能在命令行环境里一步步解决问题。GPT-5.6 Sol在该测试中拿到了88.8%的高分,Ultra模式下得分更高。

OpenAI特别提到,等模型更广泛开放时,还会公布一套更完整的评测结果。

Terra是中间档。

OpenAI对Terra的介绍没有那么长,但定位很清楚:它是面向日常工作的均衡模型。

也就是说,它不一定追求最强,但要在效果、速度和成本之间取得平衡。官方强调,Terra的能力接近GPT-5.5,但价格便宜一半。

在OpenAI的设想中,Terra很可能才是GPT-5.6系列里最常用的那一档。普通办公任务很多时候不需要Sol那样的最高能力,但需要稳定、便宜、好用。

在Terminal-Bench 2.1测试中,GPT-5.6 Terra拿到了84.3%,和Claude Fable 5持平。

Luna则是最低成本档。

OpenAI对Luna的定位也很简单:快,便宜,它适合大量、高频、对成本敏感的任务。

比如批量摘要、文本分类、信息抽取、简单问答等等,这些任务本身不一定复杂,但调用量可能非常大。Luna的作用,就是把这些轻量任务用更低成本跑起来。

这三档模型,Sol负责最高能力,Terra负责日常工作,Luna负责速度和成本,听起来花哨,但OpenAI只是把大模型行业已经很成熟的分层重新包装了一遍。

不过我觉得名字什么的并不重要,便宜好用就行。

性价比这一块儿

只看官方公告,GPT-5.6 Sol这次放出的benchmark并不算多。OpenAI自己也说,现在只是为了让外界提前了解模型性能,所以先分享一组评估结果。

但放出来的这组benchmark方向很明确,集中展示了三个领域:代码、生物学和网络安全。

前面提到的Terminal-Bench 2.1就属于代码方向,它考的是模型能不能在命令行环境里完成真实开发流程,包括规划、反复修改、调用工具和验证结果。

除了代码,OpenAI还重点提到了一个生物学benchmark:GeneBench v1。

GeneBench v1评估的是长周期的基因组学和定量生物学分析任务,重点看模型能不能处理更接近真实科研流程的分析问题。

按照OpenAI的说法,GPT-5.6 Sol在GeneBench v1上比GPT-5.5表现更强,而且使用的token更少

第三个重点方向是网络安全。OpenAI称,GPT-5.6 Sol是它目前最强的网络安全模型,尤其是在长周期安全任务上(包括漏洞研究和漏洞利用相关任务)。

这里有一个benchmark叫 ExploitBench——它不是一般的安全问答,是更接近漏洞利用场景的评估。

OpenAI称,在ExploitBench上,GPT-5.6 Sol的表现可以和Mythos Preview媲美,但只用了大约三分之一的输出token。

虽然,官方给出的这张图上还有一定差距。

可以看出,OpenAI这次反复强调:他们在能力强的同时,效率也特高。

更少的输出token,意味着模型完成同类任务时可能更简洁、更少绕路,也可能意味着实际调用成本更可控。

OpenAI还提到了另一个网络安全benchmark:ExploitGym。

这个benchmark是UC Berkeley研究人员与OpenAI以及其他前沿实验室合作创建的。OpenAI说,在ExploitGym上,GPT-5.6 Sol、Terra、Luna三档模型都显示出明显的网络安全能力提升,而且随着推理强度提高,表现也会变强。

意思是,GPT-5.6的提升不只是模型本体变强,也和推理方式有关。给模型更多时间思考、让它做更长链条的推理,结果就会更好。

关于有限预览

如果说Sol、Terra、Luna是GPT-5.6表面上的变化,那么更值得关注的事情是,OpenAI这次没有直接全面开放。

按照官方公告,目前GPT-5.6只会先在Codex和API中,向一小群“值得信赖的合作伙伴”进行有限预览。

并且,这次有限预览是“应美国政府要求”进行的,参与预览的合作伙伴名单已经和美国政府共享。

最近一段时间,美国政府正在明显加强对前沿AI模型的介入,尤其是那些具备更强代码、网络安全和agent能力的模型。

今年6月,美国政府发布了新的AI网络安全相关行政令,提出要建立一个自愿框架,让前沿模型开发者在模型更广泛发布前,与政府进行接触和评估。

法律界对这份行政令的解读是:它名义上不是强制许可、也不是正式审批制度,但已经搭起了一个政府参与模型发布前评估的制度框架。

GPT-5.6 Sol“先小范围预览、名单与政府共享”的发布模式,可以看做前沿模型的发布流程里,第一次出现了清晰的政府介入痕迹。

OpenAI自己也在公告里解释,之所以采取这种方式,是为了和政府一起探索一个可重复的流程,用来支持未来的模型发布。

政府介入背后,核心原因是网络安全。

官方公告里,网络安全占了非常大的篇幅:OpenAI一边强调GPT-5.6 Sol是它目前最强的网络安全模型,能在漏洞研究、漏洞分析、安全防御等长周期任务上提供更强帮助;另一边又花了大量篇幅解释,它没有跨过自己的Cyber Critical门槛。

OpenAI的准备框架里,把高风险能力分成不同等级。达到High,意味着模型可能放大已有的严重风险;达到Critical,则意味着模型可能带来前所未有的新型严重风险。

OpenAI反复强调GPT-5.6 Sol没有达到Cyber Critical,其实是在告诉政府、客户和公众:这个模型很强,尤其在网络安全任务上很强,但还没有强到可以自主完成最危险的网络攻击链。

网络安全能力就像一把双刃剑,它越强,越能帮防御者找漏洞、写补丁、做安全测试;但也正因为它很强,政府也会担心它被滥用。

虽然OpenAI承认这次发布需要和政府一起摸索流程,但它也在官方公告里明确说明,他们不认为这种政府访问流程应该成为长期默认机制。

理由是:如果最强工具总是被拖延开放,用户、开发者、企业、网络防御者和全球合作伙伴都会更晚拿到最好的工具。

某种意义上,前沿模型正在进入一个新的发布阶段。

当大模型的能力集中到代码、生物、网络安全和智能体执行这些领域,它就会开始被当成一种可能影响现实世界安全的技术。

而一旦技术被这样看待,发布权就很难再完全留在公司自己手里。

标签: 模型 网络安全 任务 漏洞 能力 代码 政府 官方 成本 合作伙伴 重点 流程 问题 生物学 轻量 地球 技术 速度 结果 命令行 公告 网络 名单 开发者 防御者 模式 普通 信赖 价格 场景 工具

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。