![]()
Coding 和 Agent 非常强
作者|金光浩
编辑|靖宇
今天凌晨,
四月份的时候,Mythos 这个代号就已经在圈子里流传,但当时它只对四十来家网络安全机构开放,普通人不给用。很多人当时的判断是:这玩意儿能力太强,Anthropic 不敢放。
结果今天,他们用一个折中方案把门打开了「Claude Fable 5」——第一个面向公众开放的 Mythos-class 模型。
Fable 5 的底层模型架构和内部那个 Mythos 5 是同一个,: Fable 5 里塞了一层安全分类器,遇到特殊问题就回退给 Opus 4.8 处理。
我熬夜把它跑了一晚上,有几个发现想跟你聊聊。
先说结论:在编程和 Agent 这两件事上,它确实是目前我用过最强的,没有之一。
但「最强」这两个字背后,还藏着一些 Anthropic 不会主动告诉你的东西。
01
它把什么指标放在了最前面
看一个模型发布有哪些能力更新了,其实有个很取巧的办法:看厂商把哪个指标放在第一位。
因为模型厂商心里门儿清,自己这一代最想让你记住的是什么能力,就会把那个数字摆在最显眼的地方,往往也是对比友商最有震撼力的。
而 Fable 5 的榜单,开头两个就是SWE-bench Pro(coding)和 FrontierCode(agent)。
SWE-bench Pro 它拿了 80.3%,Opus 4.8 是 69.2%,GPT-5.5 是 58.6%。这个差距已经不小了。
![]()
但个人认为,SWE-bench Pro 这个指标有点水,更多的是衡量模型有多「听话」,而不代表它在真实世界处理问题的能力。
真正让我在意的指标是FrontierCode。
这个指标最近在 X 上特别火,它是 Cognition(就是做 Devin 那家)今年才推出的新基准,它不测「代码能不能跑通」,而是测「代码能不能被真实的开源项目接受、合并进主干」。
任务是从 Celery、Mattermost 这些项目里挑出来的,每一道题专业开发者要打磨四十多个小时。最难的 Diamond 那 50 道题,Opus 4.8 只能做对 13.4%,GPT-5.5 是 5.7%。
![]()
FrontierCode 指标|anthropic
Fable 5 多少?29.3%,差不多是第二名的两倍多,可谓是「遥遥领先」。
要知道在这个榜单上,能多做出几道题都极其困难,因为它考的不是「会不会写」,而是「写出来的东西配不配进一个有几十万行代码、有自己规范和架构的真实工程」。
Anthropic 还放了个 Stripe 的案例:在一个 5000 万行的 Ruby 代码库里,Fable 5 用一天时间完成了整个库的迁移,而这件事原本要一整个团队干两个多月。
第一眼看到这些数字,说实话我是有点麻木的,因为这两年发布会上的 SOTA 已经太多了。
但当我自己上手体验了一整晚「Fable 5」之后,那种麻木的感觉,瞬间没了。
原来,这就是「强者」的世界吗?
02
它能直接「看懂」和「秒杀」难题了
回归现实的工作场景,我觉得 Agent 有几个能力比较重要:
一是指令遵循能力(逻辑推理、多步规划);二是审美生成能力(视觉、创意产出的品味)。
它们分别对应着当下 AI 应用最多、商业化最好的几个领域:
1、指令遵循能力。
Coding 领域:2025 年最火的 Curosr、2026 年最火的 Claude Code、Codex。
Work 领域:2025 年最火的 Manus、2026 年日活最高的 WorkBuddy。
2、审美生成能力:
Design 领域:2025 年最火的 Lovart。
Movie 领域:2026 年最火的 Seedance2.0、GPT image2.0。
所以我先测的是今年的数学「高考卷」:数学好,逻辑和推理能力大概率就强。
![]()
2026 数学高考题|linux.do
但我特意没用大家常见的那种测法:
前段时间高考结束,很多博主测大模型解高考数学卷,流程是这样的:先把试卷 PDF 转成 LaTeX 格式,再把整理好的文本喂给模型。
这个流程其实特别别扭:你想想,如果在现实里,你只是想问大模型一道题,还得先花半个钟头把图片里的公式、图形一个个抠成 LaTeX,那这个「AI 帮你解题」的价值基本就没了。等你转完格式,自己都快把题做出来了。
之前博主「卡尔的 AI 沃茨」的测评结果,GPT5.5 面对高考卷能拿 150 分,Opus 4.8 是 148 分,顶级的大模型都是清北的水平。
![]()
大模型数学高考水平|linux.do
然后我拿 Fable 5 试的方式很简单:直接把试卷拍照截图扔进去,然后一句话提示让它做。
![]()
Fable 5 做高考题|zenmux
它真的就直接读懂了。
比如像第 15 题里的几何图像、辅助线,它也能全看明白,然后一道一道往下解。
![]()
Fable 5 做高考题过程|zenmux
最后我对了博主「集英苑」分享的参考答案:Fable 5 也是 150 满分,又一个姚班候选人。
当然,数学测的是单步推理的天花板,所以我又测了它的 Agent 能力。
这一点上,Fable 5 给我的体感是质变级的:
最近我在做一个项目,也是在设计一个 Agent,但是有个 Codex 的 GPT 5.5 解决不了的 bug,于是我拿 Claude Code + Mythos 试了下,发现可以一遍解决。
在社区里,这一点,我发现有人也和我体感相同:
Ethan Mollick(沃顿商学院教授)提前体验了这款模型,他也做了个测试:他让 Fable 5 自主构建一张等时线地图,它需要调用多个子代理,去收集 2200 多条航班信息和铁路数据,然后整合、清洗、可视化。
整个过程模型连续工作了将近 10 个小时,没有人类介入。他后来还让它从零开发了一个研究工具,9.5 小时自主完成,最终产出了 19 页设计文档外加可运行的代码。
![]()
Ethan Mollick 对 Fable 5 的评价|oneusefulthing.org
Simon Willison(Django 联合创始人)也提前体验了这款模型,他是这样评价的:「挑战在于找到它无法完成的任务。」他让 Fable 5 做了好几件 Opus 4.8 之前搞不定的事,给自己的 LLM 工具库加暂停/恢复机制,Fable 5 也是全部一次性交付,前后大概 5.5 小时。
![]()
Simon Willison 对 Fable 5 的评价|simonwillison.net
Fable 5 在 Agent 能力上,整体给我的感受是这样的:
以前的模型像个很聪明的实习生,你得把任务拆成小块一步步喂;Fable 5 更像一个你把目标甩给他、第二天早上来收活儿的独当一面的大厂「大头兵」:它能自己拆任务、自己调子代理、自己验证中间结果、自己处理异常。
这种体验,只有 GPT 5.5 让我体验过。而 Fable 5,又把这种体验往前推进了。
03
Fable 5 让我失望的部分
我测的第二个部分是审美,但是这一点上我比较失望。
按惯例我跑了金门大桥和那只鹈鹕(pelican)的 SVG 测试,这一块我拿了 GPT-5.5 作为参考对比。
![]()
左图 Fable 5,右图 GPT-5.5|zenmux
![]()
左图 Fable 5,右图 GPT-5.5|zenmux
不过说实话,结果都挺一般的。他们画出来的东西不能说难看,但也谈不上惊艳,我没有那种「哇」的瞬间。失望。
所以我个人的体感:这两个顶级模型的审美,也大概都和国产顶尖模型差不多一个水平。
这反而让我对这一代顶级大模型的优化方向更清楚了:它这次的主线,几乎全压在了商业价值最高的 coding 和 agent 上。审美、创意这些不那么好变现的能力,明显不是它这次想着重优化的范畴。
不过,从商业的角度,这确实也是个很务实,甚至有点冷酷的选择。
聊到这里,我也想聊一下让我比较失望的 Anthropic 的「护栏」:安全分类器。
Anthropic 给的官方说法很正面:因为 Mythos 级别能力太强,在网络安全、生物这些高危领域可能被滥用,所以加了一道分类器,遇到危险问题就回退给更保守的 Opus 4.8 来答。他们说这是「我们敢把 Fable 放出来的核心原因」。
听起来它们很负责任。
但你去看那张榜单的脚注会发现一个细节:带星号的那几项测试(网络安全的 ExploitBench、生物的 BioMysteryBench),Fable 5 的真实分数其实更高,但因为「安全回退」机制,公开版本会掉到接近 Opus 4.8 的水平。
![]()
Fable 5 的 benchmark 指标|anthropic
换句话说,最强的能力被它自己锁住了一部分,只留给内部的 Mythos 5 和少数 Glasswing 合作伙伴。这对于消费者而言,本质和前段时间 Methods 公开没什么区别:只是给你看,不给你用。
这层「护栏」当然有真实的安全考量。但它客观上还干了两件事:
一是维持了 Anthropic 在最高端能力上的技术垄断,把真正的「神话」留在自己手里;二是让外部大模型公司很难通过提问去逆向、去蒸馏它最核心的那部分能力。
「道德」的外衣下面,往往也隐藏着「利益」的目的,这两件事常常一起出现。
官方说这个「护栏」超过 95% 的对话,不会触发,但社区的体感显然不是这样:
Reddit 上已经有一大堆人在骂这个分类器误判太狠了,有人发个猪肉拉面的购物清单就会被拦,有人问句绵羊的生物学常识被降级,甚至有人就打了个「嗨」也被回退。
04
它真正改变的,是「能做的事」的边界
说到这,我反而不太想纠结 benchmark 了:
我在想一个问题:Fable 5,到底让什么变得「可能」了。
过去有很多任务,是模型够不着的。不是它笨,而是任务的链条太长、太复杂,跨几十个步骤之后它就乱了、忘了、崩了。这些任务以前你只能自己干,或者花大价钱请人干。
Fable 5 这种级别的模型,把这个「够得着」的圈子又往外扩了一层:原本不可能的事,现在变成了有可能。
这就引出一个我觉得 2026 年最大的信息差:
舍得在模型上花钱的人做到的事,和不舍得花钱的人之间,差距正在指数级拉大。
![]()
karpathy 对 Fable 5 的评价|X
很多人一看 Fable 5 的定价就劝退了:每百万输入 token 10 美元,输出 50 美元,是 Opus 4.8 的两倍,是永久降价之后的 Deepseek-V4-pro 的 50 倍。
贵,是真贵。有人在 200 美元一个月的 Max 套餐上,用了不到半小时就把额度跑光了。
但你换个场景算这笔账,你反而会觉得很划算。
请一个数学家教,一小时 500 块。而 100 万 token,按现在的价格还不到 500 块。一整套高考数学卷,让模型给你讲到彻底明白,花的钱比请一次家教还少,而且它不会累、不会赶时间、半夜两点也在。
贵和便宜,从来不是看绝对价格,而是看你把它放进了什么场景:放错地方,再便宜也是浪费;放对地方,再贵也划算得吓人。
归根结底,如果场景选对了,模型费用是投资,不是消费:你买的不是 token,是自己能力边界的外扩。
而对于掌握了 Fable 5 这种工具的人,也许最大的瓶颈不再是模型,而是自己驾驭模型的能力。
05
国产模型下半年的 KPI,藏在 Harness 里
最后我想顺着这个,聊点 Fable 5 可能对大模型领域产生的更深远的影响。
前阵子 Claude Code 源码泄漏,大家拆开一看,Harness 工程做得相当复杂。但 Anthropic 的 Claude Code 工程师 Boris Cherny 曾经说过一句很反直觉的话:未来的 Claude Code,可能只需要 100 行代码。
这话听着矛盾,但背后底层的逻辑非常之有意思:
Harness 工程的本质,是对大模型能力的一种「逆向补全」。模型哪里弱、哪里容易崩,你就用工程框架去兜住它、纠正它。所以模型越弱,Harness 就得越厚、越复杂;反过来,模型越强,Harness 就该越简单。因为很多原本需要外部框架去硬掰的事,模型自己就能想明白了。
所以 Fable 5 出来之后,harness 工程的逻辑也变了,感兴趣的可以读 Anthropic 内部人写的一篇文章:《Designing loops with Fable 5》。
![]()
《Designing loops with Fable 5》|X
我在测 Fable 5 的时候有个特别直接的感受:它经常用更少的 token,就解出了一个更复杂的任务,而且答得比别的模型更对。这说明它把越来越多原本要靠外部工程去补的能力,内化成了一种「直觉」。
而这恰恰是国产模型下半年最该想清楚的事。
现在的局面有点残酷:Fable 5 这种模型,能力比你强一截,价格是你的 50 倍。它站在「强者」那一侧,用绝对的能力定一个高得离谱的价。
国产这边大概率会走另一条路。以 DeepSeek 为首的 AI 大善人(普惠派),会想办法把能力追到持平,然后把价格打到对方的十分之一甚至更低。这条路没错,过去一年 DeepSeek 也确实把价格打下来了不少。
但我心里始终有个隐隐的不安:国产模型比过去强了很多,这是事实。可不知道为什么,我很少有那种「它又进步了一大步」的兴奋感。
Fable 5 出来之后,我看清了这背后的真相:我们一直在追平、在降价、在做性价比,却很少有哪一刻,是我们先一步把某件「不可能的事」变成了「可能」。这个剧本过去两年重演了很多次,国产模型其实一直在进步,只是每次抬头,天花板又被推高了一截,这大概就是追赶者注定的命运。
所以当 Fable 5 出来之后,今年国产模型的 KPI 又被改了:在 2026 还剩的半年时间里,追上 Fable 5。
这个行业的格局越来越清晰:最强者定义标准、吃走最高利润;追赶者追平能力后打价格战,吃份额。但追赶者的悲哀在于——你每追平一次,前面的标准又被刷新一次。
对我们普通人来说,结论反而简单:天花板在涨,但梯子也在变长。
现在的问题不是「够不够得着」,而是「你愿不愿意伸手」。
Fable 5 已经把梯子递到面前了:接下来的事,它帮不了你。
*头图anthropic
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你会顶住巨量 Token 消耗压力
用 Fable 5吗?





京公网安备 11011402013531号