GPT-5.6来了：旗舰版碾压GPT-5.5，价格却没涨

IP属地中国·北京 编辑：陈丽字母榜 时间：2026-06-27 10:05:32

GPT-5.6来了，但……这是个什么型号？
这次OpenAI没有沿用过去大家熟悉的Pro、Mini、Instant这类命名，而是一次性端出了三个名字：GPT-5.6 Sol、GPT-5.6 Terra、GPT-5.6 Luna。
Sol是太阳，Terra是地球，Luna是月亮。
听起来很花哨，像一个新的模型宇宙。但它其实还是我们熟悉的那套产品分层：一个最强的旗舰模型，一个日常使用的均衡模型，一个便宜、快速、适合大规模调用的轻量模型。
OpenAI官方说法是：GPT-5.6系列会在未来几周全面开放，但目前先应美国政府要求，在Codex和API中向一小群“值得信赖的合作伙伴”进行有限预览。
让我们先来了解一下已公开的情报。
最高档和GPT 5.5同价
OpenAI这次给GPT-5.6分了三档：Sol、Terra、Luna。
按照官方说法，Sol是旗舰模型，Terra是面向日常工作的均衡模型，Luna则是快速、便宜的轻量模型。
三档模型一口气全放了出来，基本对应大模型产品里最常见的三层结构：最强模型负责能力上限，中间模型负责大多数日常任务，轻量模型负责速度、成本和高并发调用。
从价格就能看出三者的层级。
按照OpenAI公布的API价格，GPT-5.6按每100万token计费：Sol是输入5美元、输出30美元；Terra是输入2.5美元、输出15美元；Luna是输入1美元、输出6美元。
相信大家可能注意到了：GPT-5.6 Sol虽然是新一代旗舰模型，但价格对齐的是GPT-5.5标准版，而不是GPT-5.5 Pro。
Terra则直接降到GPT-5.5的一半，Luna只有GPT-5.5的五分之一。
GPT-5.5 Pro依然是当前OpenAI最贵的模型，价格是输入30美元/百万token，输出180美元/百万token，价格是GPT-5.5标准版和GPT-5.6 Sol的6倍。也不知道之后会不会再出一个“更适合专业任务”的GPT-5.6 Universe（只是开玩笑）。
Sol是这次GPT-5.6系列里的最高档，也是官方公告里花最多篇幅介绍的模型。
OpenAI把GPT-5.6 Sol称为目前最强模型，重点展示了它在写代码、生物研究和网络安全上的能力。
简单说，Sol的定位是“最会干活的模型”，它对应的不是普通聊天场景，是更复杂、更接近真实工作的任务。
比如在代码场景里，它可以围绕一个目标持续推进：先理解问题，再拆步骤，然后调用工具、运行命令、检查结果，出错了再改，直到任务完成。
为了支撑Sol处理更难的任务，OpenAI给GPT-5.6引入了两个新机制。
第一个叫max reasoning effort，可以翻译成“最大推理强度”。
通俗理解，就是让Sol有更多时间想清楚问题、花更长时间进行深度推理，适合那些不能靠第一反应解决的复杂任务。
第二个叫ultra mode，可以理解为“超强模式”。
这个模式的重点是让多个子智能体一起参与复杂任务，可以理解为：过去是一个AI助手自己干活，现在是一个“AI经理”带着几个小助手分头处理问题，从而加快复杂工作的推进。
Terminal-Bench 2.1就是一个更接近真实开发流程的测试，考的是模型能不能在命令行环境里一步步解决问题。GPT-5.6 Sol在该测试中拿到了88.8%的高分，Ultra模式下得分更高。
OpenAI特别提到，等模型更广泛开放时，还会公布一套更完整的评测结果。
Terra是中间档。
OpenAI对Terra的介绍没有那么长，但定位很清楚：它是面向日常工作的均衡模型。
也就是说，它不一定追求最强，但要在效果、速度和成本之间取得平衡。官方强调，Terra的能力接近GPT-5.5，但价格便宜一半。
在OpenAI的设想中，Terra很可能才是GPT-5.6系列里最常用的那一档。普通办公任务很多时候不需要Sol那样的最高能力，但需要稳定、便宜、好用。
在Terminal-Bench 2.1测试中，GPT-5.6 Terra拿到了84.3%，和Claude Fable 5持平。
Luna则是最低成本档。
OpenAI对Luna的定位也很简单：快，便宜，它适合大量、高频、对成本敏感的任务。
比如批量摘要、文本分类、信息抽取、简单问答等等，这些任务本身不一定复杂，但调用量可能非常大。Luna的作用，就是把这些轻量任务用更低成本跑起来。
这三档模型，Sol负责最高能力，Terra负责日常工作，Luna负责速度和成本，听起来花哨，但OpenAI只是把大模型行业已经很成熟的分层重新包装了一遍。
不过我觉得名字什么的并不重要，便宜好用就行。
性价比这一块儿
只看官方公告，GPT-5.6 Sol这次放出的benchmark并不算多。OpenAI自己也说，现在只是为了让外界提前了解模型性能，所以先分享一组评估结果。
但放出来的这组benchmark方向很明确，集中展示了三个领域：代码、生物学和网络安全。
前面提到的Terminal-Bench 2.1就属于代码方向，它考的是模型能不能在命令行环境里完成真实开发流程，包括规划、反复修改、调用工具和验证结果。
除了代码，OpenAI还重点提到了一个生物学benchmark：GeneBench v1。
GeneBench v1评估的是长周期的基因组学和定量生物学分析任务，重点看模型能不能处理更接近真实科研流程的分析问题。
按照OpenAI的说法，GPT-5.6 Sol在GeneBench v1上比GPT-5.5表现更强，而且使用的token更少。
第三个重点方向是网络安全。OpenAI称，GPT-5.6 Sol是它目前最强的网络安全模型，尤其是在长周期安全任务上（包括漏洞研究和漏洞利用相关任务）。
这里有一个benchmark叫 ExploitBench——它不是一般的安全问答，是更接近漏洞利用场景的评估。
OpenAI称，在ExploitBench上，GPT-5.6 Sol的表现可以和Mythos Preview媲美，但只用了大约三分之一的输出token。
虽然，官方给出的这张图上还有一定差距。
可以看出，OpenAI这次反复强调：他们在能力强的同时，效率也特高。
更少的输出token，意味着模型完成同类任务时可能更简洁、更少绕路，也可能意味着实际调用成本更可控。
OpenAI还提到了另一个网络安全benchmark：ExploitGym。
这个benchmark是UC Berkeley研究人员与OpenAI以及其他前沿实验室合作创建的。OpenAI说，在ExploitGym上，GPT-5.6 Sol、Terra、Luna三档模型都显示出明显的网络安全能力提升，而且随着推理强度提高，表现也会变强。
意思是，GPT-5.6的提升不只是模型本体变强，也和推理方式有关。给模型更多时间思考、让它做更长链条的推理，结果就会更好。
关于有限预览
如果说Sol、Terra、Luna是GPT-5.6表面上的变化，那么更值得关注的事情是，OpenAI这次没有直接全面开放。
按照官方公告，目前GPT-5.6只会先在Codex和API中，向一小群“值得信赖的合作伙伴”进行有限预览。
并且，这次有限预览是“应美国政府要求”进行的，参与预览的合作伙伴名单已经和美国政府共享。
最近一段时间，美国政府正在明显加强对前沿AI模型的介入，尤其是那些具备更强代码、网络安全和agent能力的模型。
今年6月，美国政府发布了新的AI网络安全相关行政令，提出要建立一个自愿框架，让前沿模型开发者在模型更广泛发布前，与政府进行接触和评估。
法律界对这份行政令的解读是：它名义上不是强制许可、也不是正式审批制度，但已经搭起了一个政府参与模型发布前评估的制度框架。
GPT-5.6 Sol“先小范围预览、名单与政府共享”的发布模式，可以看做前沿模型的发布流程里，第一次出现了清晰的政府介入痕迹。
OpenAI自己也在公告里解释，之所以采取这种方式，是为了和政府一起探索一个可重复的流程，用来支持未来的模型发布。
政府介入背后，核心原因是网络安全。
官方公告里，网络安全占了非常大的篇幅：OpenAI一边强调GPT-5.6 Sol是它目前最强的网络安全模型，能在漏洞研究、漏洞分析、安全防御等长周期任务上提供更强帮助；另一边又花了大量篇幅解释，它没有跨过自己的Cyber Critical门槛。
OpenAI的准备框架里，把高风险能力分成不同等级。达到High，意味着模型可能放大已有的严重风险；达到Critical，则意味着模型可能带来前所未有的新型严重风险。
OpenAI反复强调GPT-5.6 Sol没有达到Cyber Critical，其实是在告诉政府、客户和公众：这个模型很强，尤其在网络安全任务上很强，但还没有强到可以自主完成最危险的网络攻击链。
网络安全能力就像一把双刃剑，它越强，越能帮防御者找漏洞、写补丁、做安全测试；但也正因为它很强，政府也会担心它被滥用。
虽然OpenAI承认这次发布需要和政府一起摸索流程，但它也在官方公告里明确说明，他们不认为这种政府访问流程应该成为长期默认机制。
理由是：如果最强工具总是被拖延开放，用户、开发者、企业、网络防御者和全球合作伙伴都会更晚拿到最好的工具。
某种意义上，前沿模型正在进入一个新的发布阶段。
当大模型的能力集中到代码、生物、网络安全和智能体执行这些领域，它就会开始被当成一种可能影响现实世界安全的技术。
而一旦技术被这样看待，发布权就很难再完全留在公司自己手里。

标签：模型 网络安全 任务漏洞能力代码政府官方成本 合作伙伴 重点流程问题 生物学 轻量地球技术速度结果 命令行 公告网络名单 开发者 防御者 模式普通信赖价格场景工具

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

传腾讯拟退出对多家日本游戏工作室投资，腾讯：保持对日本游戏市场的长期关注

0产品估值10个亿！老黄投了两位Anthropic前员工初创公司

中国电信突破6G星地融合关键技术：高/中轨卫星、地面无缝切换

AI批量造App，也在批量埋雷

Anthropic测试手机端Claude Cowork 支持远程管理AI长任务

消息称荣耀新机量产线测试12000mAh电池，实验室评估最大14000mAh±

全站最新

比亚迪大唐EV长沙上市：融合国风文化，开启华中高端纯电出行新体验

东方美学邂逅红毯盛宴岚图追光S四款华流车色惊艳白玉兰之夜

法拉利Luce亚洲首秀上海：纯电超跑新标杆，性能舒适空间三重飞跃

新车小剐蹭别盲目补漆！过来人血泪经验，新手省下几千维修费

热门推荐

中国移动旗下基金等入股友机技术

马斯克获批收购Mesh Optical，推进AI数据中心光通信技术新布局

OpenAI再升级数亿人默认模型：不拼智商拼“懂你”，重塑日常交互体验

京东在欧洲推出机器人维修服务

传腾讯拟退出对多家日本游戏工作室投资，腾讯：保持对日本游戏市场的长期关注

内存涨价“百年一遇”：库克诉苦、马斯克力挺、美光反击

0产品估值10个亿！老黄投了两位Anthropic前员工初创公司

中国电信突破6G星地融合关键技术：高/中轨卫星、地面无缝切换

AI批量造App，也在批量埋雷

Anthropic测试手机端Claude Cowork 支持远程管理AI长任务

消息称荣耀新机量产线测试12000mAh电池，实验室评估最大14000mAh±

苹果iOS 27 Beta 2固件代码曝光，百度视觉搜索组件现身

三星确认Galaxy A27手机不支持DeX：此前官网信息系复制粘贴错误

Fable平替登顶真相：它没打败Opus，它雇了Opus

B站迎17周年庆，陈睿称社区是优质内容最好的土壤