实测「神话」级模型 Fable 5：强者世界里的最强者 | AI 上新

IP属地中国·北京 极客公园 时间：2026-06-10 18:37:10

Coding 和 Agent 非常强

作者｜金光浩
编辑｜靖宇
今天凌晨，
四月份的时候，Mythos 这个代号就已经在圈子里流传，但当时它只对四十来家网络安全机构开放，普通人不给用。很多人当时的判断是：这玩意儿能力太强，Anthropic 不敢放。
结果今天，他们用一个折中方案把门打开了「Claude Fable 5」——第一个面向公众开放的 Mythos-class 模型。
Fable 5 的底层模型架构和内部那个 Mythos 5 是同一个，： Fable 5 里塞了一层安全分类器，遇到特殊问题就回退给 Opus 4.8 处理。
我熬夜把它跑了一晚上，有几个发现想跟你聊聊。
先说结论：在编程和 Agent 这两件事上，它确实是目前我用过最强的，没有之一。
但「最强」这两个字背后，还藏着一些 Anthropic 不会主动告诉你的东西。
01
它把什么指标放在了最前面
看一个模型发布有哪些能力更新了，其实有个很取巧的办法：看厂商把哪个指标放在第一位。
因为模型厂商心里门儿清，自己这一代最想让你记住的是什么能力，就会把那个数字摆在最显眼的地方，往往也是对比友商最有震撼力的。
而 Fable 5 的榜单，开头两个就是SWE-bench Pro（coding）和 FrontierCode（agent）。
SWE-bench Pro 它拿了 80.3%，Opus 4.8 是 69.2%，GPT-5.5 是 58.6%。这个差距已经不小了。

但个人认为，SWE-bench Pro 这个指标有点水，更多的是衡量模型有多「听话」，而不代表它在真实世界处理问题的能力。
真正让我在意的指标是FrontierCode。
这个指标最近在 X 上特别火，它是 Cognition（就是做 Devin 那家）今年才推出的新基准，它不测「代码能不能跑通」，而是测「代码能不能被真实的开源项目接受、合并进主干」。
任务是从 Celery、Mattermost 这些项目里挑出来的，每一道题专业开发者要打磨四十多个小时。最难的 Diamond 那 50 道题，Opus 4.8 只能做对 13.4%，GPT-5.5 是 5.7%。

FrontierCode 指标｜anthropic
Fable 5 多少？29.3%，差不多是第二名的两倍多，可谓是「遥遥领先」。
要知道在这个榜单上，能多做出几道题都极其困难，因为它考的不是「会不会写」，而是「写出来的东西配不配进一个有几十万行代码、有自己规范和架构的真实工程」。
Anthropic 还放了个 Stripe 的案例：在一个 5000 万行的 Ruby 代码库里，Fable 5 用一天时间完成了整个库的迁移，而这件事原本要一整个团队干两个多月。
第一眼看到这些数字，说实话我是有点麻木的，因为这两年发布会上的 SOTA 已经太多了。
但当我自己上手体验了一整晚「Fable 5」之后，那种麻木的感觉，瞬间没了。
原来，这就是「强者」的世界吗？
02
它能直接「看懂」和「秒杀」难题了
回归现实的工作场景，我觉得 Agent 有几个能力比较重要：
一是指令遵循能力（逻辑推理、多步规划）；二是审美生成能力（视觉、创意产出的品味）。
它们分别对应着当下 AI 应用最多、商业化最好的几个领域：
1、指令遵循能力。
Coding 领域：2025 年最火的 Curosr、2026 年最火的 Claude Code、Codex。
Work 领域：2025 年最火的 Manus、2026 年日活最高的 WorkBuddy。
2、审美生成能力：
Design 领域：2025 年最火的 Lovart。
Movie 领域：2026 年最火的 Seedance2.0、GPT image2.0。
所以我先测的是今年的数学「高考卷」：数学好，逻辑和推理能力大概率就强。

2026 数学高考题｜linux.do
但我特意没用大家常见的那种测法：
前段时间高考结束，很多博主测大模型解高考数学卷，流程是这样的：先把试卷 PDF 转成 LaTeX 格式，再把整理好的文本喂给模型。
这个流程其实特别别扭：你想想，如果在现实里，你只是想问大模型一道题，还得先花半个钟头把图片里的公式、图形一个个抠成 LaTeX，那这个「AI 帮你解题」的价值基本就没了。等你转完格式，自己都快把题做出来了。
之前博主「卡尔的 AI 沃茨」的测评结果，GPT5.5 面对高考卷能拿 150 分，Opus 4.8 是 148 分，顶级的大模型都是清北的水平。

大模型数学高考水平｜linux.do
然后我拿 Fable 5 试的方式很简单：直接把试卷拍照截图扔进去，然后一句话提示让它做。

Fable 5 做高考题｜zenmux
它真的就直接读懂了。
比如像第 15 题里的几何图像、辅助线，它也能全看明白，然后一道一道往下解。

Fable 5 做高考题过程｜zenmux
最后我对了博主「集英苑」分享的参考答案：Fable 5 也是 150 满分，又一个姚班候选人。
当然，数学测的是单步推理的天花板，所以我又测了它的 Agent 能力。
这一点上，Fable 5 给我的体感是质变级的：
最近我在做一个项目，也是在设计一个 Agent，但是有个 Codex 的 GPT 5.5 解决不了的 bug，于是我拿 Claude Code + Mythos 试了下，发现可以一遍解决。
在社区里，这一点，我发现有人也和我体感相同：
Ethan Mollick（沃顿商学院教授）提前体验了这款模型，他也做了个测试：他让 Fable 5 自主构建一张等时线地图，它需要调用多个子代理，去收集 2200 多条航班信息和铁路数据，然后整合、清洗、可视化。
整个过程模型连续工作了将近 10 个小时，没有人类介入。他后来还让它从零开发了一个研究工具，9.5 小时自主完成，最终产出了 19 页设计文档外加可运行的代码。

Ethan Mollick 对 Fable 5 的评价｜oneusefulthing.org
Simon Willison（Django 联合创始人）也提前体验了这款模型，他是这样评价的：「挑战在于找到它无法完成的任务。」他让 Fable 5 做了好几件 Opus 4.8 之前搞不定的事，给自己的 LLM 工具库加暂停/恢复机制，Fable 5 也是全部一次性交付，前后大概 5.5 小时。

Simon Willison 对 Fable 5 的评价｜simonwillison.net
Fable 5 在 Agent 能力上，整体给我的感受是这样的：
以前的模型像个很聪明的实习生，你得把任务拆成小块一步步喂；Fable 5 更像一个你把目标甩给他、第二天早上来收活儿的独当一面的大厂「大头兵」：它能自己拆任务、自己调子代理、自己验证中间结果、自己处理异常。
这种体验，只有 GPT 5.5 让我体验过。而 Fable 5，又把这种体验往前推进了。
03
Fable 5 让我失望的部分
我测的第二个部分是审美，但是这一点上我比较失望。
按惯例我跑了金门大桥和那只鹈鹕（pelican）的 SVG 测试，这一块我拿了 GPT-5.5 作为参考对比。

左图 Fable 5，右图 GPT-5.5｜zenmux

左图 Fable 5，右图 GPT-5.5｜zenmux
不过说实话，结果都挺一般的。他们画出来的东西不能说难看，但也谈不上惊艳，我没有那种「哇」的瞬间。失望。
所以我个人的体感：这两个顶级模型的审美，也大概都和国产顶尖模型差不多一个水平。
这反而让我对这一代顶级大模型的优化方向更清楚了：它这次的主线，几乎全压在了商业价值最高的 coding 和 agent 上。审美、创意这些不那么好变现的能力，明显不是它这次想着重优化的范畴。
不过，从商业的角度，这确实也是个很务实，甚至有点冷酷的选择。
聊到这里，我也想聊一下让我比较失望的 Anthropic 的「护栏」：安全分类器。
Anthropic 给的官方说法很正面：因为 Mythos 级别能力太强，在网络安全、生物这些高危领域可能被滥用，所以加了一道分类器，遇到危险问题就回退给更保守的 Opus 4.8 来答。他们说这是「我们敢把 Fable 放出来的核心原因」。
听起来它们很负责任。
但你去看那张榜单的脚注会发现一个细节：带星号的那几项测试（网络安全的 ExploitBench、生物的 BioMysteryBench），Fable 5 的真实分数其实更高，但因为「安全回退」机制，公开版本会掉到接近 Opus 4.8 的水平。

Fable 5 的 benchmark 指标｜anthropic
换句话说，最强的能力被它自己锁住了一部分，只留给内部的 Mythos 5 和少数 Glasswing 合作伙伴。这对于消费者而言，本质和前段时间 Methods 公开没什么区别：只是给你看，不给你用。
这层「护栏」当然有真实的安全考量。但它客观上还干了两件事：
一是维持了 Anthropic 在最高端能力上的技术垄断，把真正的「神话」留在自己手里；二是让外部大模型公司很难通过提问去逆向、去蒸馏它最核心的那部分能力。
「道德」的外衣下面，往往也隐藏着「利益」的目的，这两件事常常一起出现。
官方说这个「护栏」超过 95% 的对话，不会触发，但社区的体感显然不是这样：
Reddit 上已经有一大堆人在骂这个分类器误判太狠了，有人发个猪肉拉面的购物清单就会被拦，有人问句绵羊的生物学常识被降级，甚至有人就打了个「嗨」也被回退。
04
它真正改变的，是「能做的事」的边界
说到这，我反而不太想纠结 benchmark 了：
我在想一个问题：Fable 5，到底让什么变得「可能」了。
过去有很多任务，是模型够不着的。不是它笨，而是任务的链条太长、太复杂，跨几十个步骤之后它就乱了、忘了、崩了。这些任务以前你只能自己干，或者花大价钱请人干。
Fable 5 这种级别的模型，把这个「够得着」的圈子又往外扩了一层：原本不可能的事，现在变成了有可能。
这就引出一个我觉得 2026 年最大的信息差：
舍得在模型上花钱的人做到的事，和不舍得花钱的人之间，差距正在指数级拉大。

karpathy 对 Fable 5 的评价｜X
很多人一看 Fable 5 的定价就劝退了：每百万输入 token 10 美元，输出 50 美元，是 Opus 4.8 的两倍，是永久降价之后的 Deepseek-V4-pro 的 50 倍。
贵，是真贵。有人在 200 美元一个月的 Max 套餐上，用了不到半小时就把额度跑光了。
但你换个场景算这笔账，你反而会觉得很划算。
请一个数学家教，一小时 500 块。而 100 万 token，按现在的价格还不到 500 块。一整套高考数学卷，让模型给你讲到彻底明白，花的钱比请一次家教还少，而且它不会累、不会赶时间、半夜两点也在。
贵和便宜，从来不是看绝对价格，而是看你把它放进了什么场景：放错地方，再便宜也是浪费；放对地方，再贵也划算得吓人。
归根结底，如果场景选对了，模型费用是投资，不是消费：你买的不是 token，是自己能力边界的外扩。
而对于掌握了 Fable 5 这种工具的人，也许最大的瓶颈不再是模型，而是自己驾驭模型的能力。
05
国产模型下半年的 KPI，藏在 Harness 里
最后我想顺着这个，聊点 Fable 5 可能对大模型领域产生的更深远的影响。
前阵子 Claude Code 源码泄漏，大家拆开一看，Harness 工程做得相当复杂。但 Anthropic 的 Claude Code 工程师 Boris Cherny 曾经说过一句很反直觉的话：未来的 Claude Code，可能只需要 100 行代码。
这话听着矛盾，但背后底层的逻辑非常之有意思：
Harness 工程的本质，是对大模型能力的一种「逆向补全」。模型哪里弱、哪里容易崩，你就用工程框架去兜住它、纠正它。所以模型越弱，Harness 就得越厚、越复杂；反过来，模型越强，Harness 就该越简单。因为很多原本需要外部框架去硬掰的事，模型自己就能想明白了。
所以 Fable 5 出来之后，harness 工程的逻辑也变了，感兴趣的可以读 Anthropic 内部人写的一篇文章：《Designing loops with Fable 5》。

《Designing loops with Fable 5》｜X
我在测 Fable 5 的时候有个特别直接的感受：它经常用更少的 token，就解出了一个更复杂的任务，而且答得比别的模型更对。这说明它把越来越多原本要靠外部工程去补的能力，内化成了一种「直觉」。
而这恰恰是国产模型下半年最该想清楚的事。
现在的局面有点残酷：Fable 5 这种模型，能力比你强一截，价格是你的 50 倍。它站在「强者」那一侧，用绝对的能力定一个高得离谱的价。
国产这边大概率会走另一条路。以 DeepSeek 为首的 AI 大善人（普惠派），会想办法把能力追到持平，然后把价格打到对方的十分之一甚至更低。这条路没错，过去一年 DeepSeek 也确实把价格打下来了不少。
但我心里始终有个隐隐的不安：国产模型比过去强了很多，这是事实。可不知道为什么，我很少有那种「它又进步了一大步」的兴奋感。
Fable 5 出来之后，我看清了这背后的真相：我们一直在追平、在降价、在做性价比，却很少有哪一刻，是我们先一步把某件「不可能的事」变成了「可能」。这个剧本过去两年重演了很多次，国产模型其实一直在进步，只是每次抬头，天花板又被推高了一截，这大概就是追赶者注定的命运。
所以当 Fable 5 出来之后，今年国产模型的 KPI 又被改了：在 2026 还剩的半年时间里，追上 Fable 5。
这个行业的格局越来越清晰：最强者定义标准、吃走最高利润；追赶者追平能力后打价格战，吃份额。但追赶者的悲哀在于——你每追平一次，前面的标准又被刷新一次。
对我们普通人来说，结论反而简单：天花板在涨，但梯子也在变长。
现在的问题不是「够不够得着」，而是「你愿不愿意伸手」。
Fable 5 已经把梯子递到面前了：接下来的事，它帮不了你。
*头图anthropic
本文为极客公园原创文章，转载请联系极客君微信 geekparkGO
极客一问
你会顶住巨量 Token 消耗压力
用 Fable 5吗？

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

把提示词刻在墓碑上！这届开发者用AI封装自己，死了能接单干活？

关注 | 重写生命密码，天津何以抢先一步

IPO前夜，SpaceX CFO详解“五位一体超级闭环”

重磅首发！奥尼AI Agent OS、Token工厂正式上线，构建智能体运行新生态

Meta被抓包，当5000万台智能眼镜里藏了人脸识别

华为钱包HDC 2026电子门票使用细则公布

全站最新

把提示词刻在墓碑上！这届开发者用AI封装自己，死了能接单干活？

关注 | 重写生命密码，天津何以抢先一步

IPO前夜，SpaceX CFO详解“五位一体超级闭环”

重磅首发！奥尼AI Agent OS、Token工厂正式上线，构建智能体运行新生态

热门推荐

把提示词刻在墓碑上！这届开发者用AI封装自己，死了能接单干活？

2026年618购机指南：折叠屏推荐 OPPO Find N6引领无感折痕标杆

618折叠屏多任务分屏、不卡顿横评：OPPO Find N6等五款旗舰对比

关注 | 重写生命密码，天津何以抢先一步

IPO前夜，SpaceX CFO详解“五位一体超级闭环”

重磅首发！奥尼AI Agent OS、Token工厂正式上线，构建智能体运行新生态

钉钉前员工控诉职场乱象阿里合伙人委员会发声

Meta被抓包，当5000万台智能眼镜里藏了人脸识别

速卖通：近400个品牌销量反超亚马逊

2026年男生娱乐用折叠屏推荐：轻薄、性能强、不卡顿的折叠怎么选

华为钱包HDC 2026电子门票使用细则公布

电动汽车业务损失惨重，多名本田退休高管要求CEO三部敏宏下台

Tribit趣倍小方块3代无线蓝牙音箱开售，499元

中汽协：5月传统燃料乘用车国内销量49.7万辆，同比下降41.8%

2026折叠屏推荐：OPPO Find N6领衔无感折痕开创者性价比之选