当前位置: 首页 » 资讯 » 科技头条 » 正文

Anthropic发了“最强模型”,但大多数人用不上

IP属地 中国·北京 AIX财经 时间:2026-06-10 22:32:41


最强模型也最贵。

AIX财经(AIXcaijing)原创

作者 | 雷晶

编辑 | 金玙璠

4月,Anthropic推出Mythos模型预览版。这个模型没有面向公众开放,因为在测试中它展现出极强的网络安全与漏洞挖掘能力,能自主发现数千个高危零日漏洞,一旦流出,容易被用于恶意攻击。

为了把这种能力锁定在防御场景内,Anthropic推出了玻璃翼计划(Project Glasswing),仅向苹果、谷歌、微软等12家核心安全伙伴及40余家关键基础设施提供商开放访问权限,并全程受控使用。

先锁起来再发布,这套操作本身就制造了话题。

两个月后,北京时间6月10日凌晨,Anthropic正式推出Fable 5和Mythos 5。

从跑分来看,它们几乎在所有基准测试中拿到了最高分,尤其在软件工程和长任务执行上,与其他模型拉开了明显差距。

但围绕这个模型的讨论,很快就不止于它有多强。

Fable 5和Mythos 5实际上共享同一个底层模型。区别在于,Fable 5面向普通用户,Mythos 5则继续锁在受信任的安全合作伙伴手中。同一个模型,两套规则,面向两个群体,这在Anthropic的产品线里是第一次。

而且,普通用户拿到的也并非完整版本。Anthropic在Fable 5外层加了一道安全分类器,一旦请求触及网络安全、生物化学、模型蒸馏等敏感方向,系统会自动切换到能力更弱的上代模型Opus 4.8响应。

定价同样值得注意,输入10美元、输出50美元/百万Token,官方称约为Opus 4.8的两倍。6月23日起,Fable 5还将从Pro、Max等订阅计划中移出,用户想继续使用,需要额外消耗credits。

这套组合拳拆开来看很合理。能力太强所以做安全限制,成本更高所以提价,风险敏感所以分级发布。但放到一起,释放的信号就变得微妙了。这和过去几年大模型公司拼速度、拼开放的竞争逻辑不同,各家都在想办法让自家模型触达更多用户,而Anthropic选择主动收窄入口,把限制变成了产品策略的一部分。

那么,这个号称前所未有的“最强模型”,是被神化了吗?

01.能力提升明显,自动降级成争议

分级归分级,先看实力到底如何。


软件工程是Anthropic这次更新的核心亮点。在SWE-Bench Pro测试中,Fable 5拿到80.3%的成绩。这个测试主要是看模型能不能在真实的GitHub仓库里定位bug、理解上下文、写出能用的修复代码,80.3%意味着每5个真实工程问题,Fable 5能解决4个。

在Terminal-Bench 2.1榜单上,Fable 5得分88.0%,超过了Open AI的Codex CLI。值得注意的是,Fable 5是通用模型,Codex CLI是专为编程场景打造的垂直工具,二者的差距更能体现其编程实力。

但真正能看出差距的是FrontierCode Diamond,这项测试考察模型的产出的代码能不能达到生产级代码库的质量标准。Fable 5拿到29.3%,Opus 4.8只有13.4%,GPT-5.5只有5.7%。三个数据均来自Anthropic官方公布,GPT-5.5的数据为其内部测试结果。

过去几年,AI模型写代码的能力一直在进步,但长期卡在一个瓶颈上:代码能跑,但不好维护;能够通过基准测试,但落地真实项目中仍会问题频发。

Fable 5在这个维度上的突破,说明Anthropic这次升级的不只是解题能力,而是把模型往真正的工程交付方向推进。

程序员李夏告诉「AIX财经」,AI生成代码很容易出现上下文不连贯的问题,初期能精准理解需求,长时间任务中容易遗忘信息,后期维护成本很高。

在他看来,Fable 5在长任务里的逻辑连贯性有明显进步,同类编码任务可一次性完成,准确率更高。不过,Fable 5相比Opus4.8生成速度较慢,思考链更长,整体响应速度有所下降。

视觉能力也有提升。Anthropic称,Fable 5能从复杂科学图表中提取精确数字,也能根据网页截图直接重建应用源码。官方还演示了实操案例,Fable 5只靠游戏画面截图就通关《宝可梦火红》,不需要搭配辅助工具。前代模型做类似任务时,还需要配备复杂的辅助系统。

长上下文和记忆方面,官方给出的说法是,任务越长越复杂,Fable 5的优势越明显。

此外,生命科学是另一个被重点提及的方向。Anthropic透露基于Mythos 5搭建的单细胞数据分析模型,覆盖138个物种,性能优于《Science》近期刊发的同类型模型,参数量却仅为后者的百分之一。

单从跑分成绩来看,综合能力确实上了一个台阶。

再来看看跑分之外。

Fable 5搭载了一套安全分类器,只要用户请求涉及网络安全、生物化学或模型蒸馏方向,系统会自动切换为Opus 4.8来响应,并告知用户发生了模型降级。官方表示,超过95%的日常对话不会触发,写作、编程、分析等任务大多不受影响。不过,实际体验可能因使用场景有所差异。

在实际使用中,这条界限实际上很容易被触发。李夏提到,他想在国内Mac上体验苹果Siri AI的功能,需要修改一些系统级的序列号参数,Fable 5直接拒绝了操作。目前,分类器设定比较保守,存在误判,官方称后续会持续调整。

但Anthropic还披露了另一层限制,对于大模型开发相关的请求,比如构建预训练流水线、设计分布式训练基础设施等,模型会在后台主动降低输出质量,且不会告知用户。

综合来看,Fable 5在各项硬指标上确实有了进步,但自动降级机制在一定程度上会影响使用体验。

02.最强模型,不是人人用得上

Anthropic这次的模型升级,用同一个底层模型,包装成了两款产品,面向两类群体。

Mythos 5留在玻璃翼计划的框架内,只面向苹果、谷歌、微软等12家核心安全伙伴及40余家关键基础设施提供商开放,网络安全和生物方向的限制被解除,Fable 5则面向C端订阅用户。

后续Anthropic还计划向经过审核的研究人员开放一个生物方向的受信通道,提供去掉了生物和化学限制的Fable 5版本。

这涉及到过去大模型行业没有面对过的问题,当模型能力足够自主发现漏洞,全量发布就变成了一种风险。


图源 / pexels

这解释了Fable 5和Mythos 5为什么要拆成两个版本。过去模型分级靠参数,大小之间是能力差距,现在同参数的模型也要分级,分的是信任门槛。

独立开发者展波认为,从安全角度来看这个逻辑很合理。Mythos级别的漏洞挖掘能力如果不加限制地开放给个人,会大幅降低攻击成本,容易被滥用于恶意攻击。先锁住、再逐步放开受信访问,是目前最稳妥的路径。

但安全只解释了为什么要分层。另一个问题在于,能用上Fable 5的普通用户,是不是都从中获益?

从Anthropic发布的跑分和案例来看,这一轮升级,优先服务的是程序员和工程团队。

展波用Fable 5协助优化了自己用Rust编写的解释型语言项目。在同等Web服务场景下,他将其与基于Python的FastAPI和基于Node.js的Hono做了对比。使用Fable 5的解释器驻留内存仅9.8MB,而FastAPI 和Hono分别为43.3MB和63.0MB,吞吐和延迟指标同样领先。

他认为同样一个任务,用Fable 5可能很快就完成,且效果更好。相比于价格,开发者更看重产出质量。只要模型能显著提升项目效果,高价是可以接受的。

李夏也提到,对程序员来说,模型生成质量和收入正相关。产出质量越高,提效越明显,回报越大。模型能力的提升可以直接换算成项目质量和时间节省,付费意愿自然会更强。

但换一个使用场景,结论就不一样了。

AI博主徐子龙以他的日常使用为例,他的日常工作分为写代码、做数据分析和写论文。他认为目前的大模型代码能力过剩,文字能力欠佳。对于科研工作者、内容创作者、法律和金融从业者等群体来说,对AI的核心需求集中在中文理解、长文写作和文档处理上。

展波提到,现在的趋势不是用户在挑模型,是模型在挑用户。编程重度用户被高端模型筛选出来,日常轻度用户被推向更有性价比的替代品。这说明,AI不再是一个普惠工具,而是一层层筛出不同支付能力和使用强度的用户。

即便是最强模型,也要在有需求的人手中才能物有所值。

03.用不起AI的时代,要来了吗?

Fable 5的API定价是输入10美元、输出50美元每百万Token,是Opus 4.8的两倍,也是目前全球公开可用的前沿模型中最贵的。


主流大模型API价格对比

但真正值得关注的不是价格翻了一倍,是付费方式变了。

Fable 5上线后,Pro、Max、Team等订阅用户可以免费使用两周。6月23日起,模型将从订阅计划中移出,继续使用需要额外购买credits,按API费率结算。订阅期内使用Fable 5,消耗的用量额度也是Opus 4.8的两倍。

先免费试用再移出订阅,也是在释放一种信号,把用户从固定月费推向按量计费。订阅制的好处是确定性,用户知道每月花多少钱;按量计费对平台更有利,用得多收得多,用户的花费上限被打开了。说白了,Anthropic想告诉用户:最先进的东西,本来就不该是包月的。

这个转变发生的时间点也值得注意。6月1日,Anthropic刚刚向SEC秘密提交了IPO招股书,估值达到9650亿美元,目标最早今年10月上市。从年初到5月底,Anthropic的年化收入从90亿美元增长至470亿美元,其中Claude Code贡献超过25亿美元,企业客户贡献了绝大部分收入。

一个即将上市的公司,需要向资本市场证明营收增长能力和定价权。把最强模型从固定订阅中拆出来、引导高价值用户按量付费,从财务叙事上看逻辑是通的。

而国产模型正在做完全相反的事。

5月底,DeepSeek宣布V4-Pro API永久降价75%。小米紧随其后,MiMo-V2.5-Pro降幅高达99%,价格几乎对齐DeepSeek。

一边是DeepSeek把价格打到地板,一边是Anthropic把天花板往上抬,不同玩家有不同的打法。

国产模型的降价一方面是技术红利的释放,底层架构发生了变化,省下的空间被用来换更大的市场。

Anthropic的逻辑正好反过来。它不需要靠低价抢市场,高价本身也是筛选器,把愿意为前沿能力付费的高价值用户留下来。

徐子龙认为未来AI会越来越贵,因为需求的扩张远远大于供给的扩张,算力涉及到电、芯片、模型训练,增长速度太慢。AI算力未来会像5G一样成为基础设施,但和5G不同,算力的供给远比带宽紧张,价格也就相应的增长。

从商业模式上看,AI行业正在出现类似云计算早期的分层结构。底层是高度标准化、价格趋近于零的通用能力,谁都能调用,靠走量变现;顶层是少数厂商把持的前沿能力,定价权集中,靠客单价变现。通用能力的价格会被持续压低,但前沿能力的溢价将长期存在。

从能力分级到付费分层,AI行业正在复制云计算走过的路。便宜的模型越来越多,最好的模型越来越贵。

*应受访者要求,文中李夏为化名。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。