Fable平替登顶真相：它没打败Opus，它雇了Opus

IP属地中国·北京 编辑：周伟新智元 时间：2026-06-27 12:10:03

新智元报道
都当它是碾压GPT、Opus的新模型，它的真实身份却是个调度层。它打败的那几个，正是它雇来答题的那几个。
6月12日，美国一纸出口管制令，逼Anthropic把最强的两款模型Fable 5和Mythos从全球下架。
10天后，位于日本东京的Sakana AI放出新产品Fugu和旗舰版Fugu Ultra，称自己已经与Fable、Mythos并肩，可以带给用户前沿大模型的能力，又不必担出口管制的风险。
在Sakana AI官网贴出的一张跑分表里，fugu-ultra几乎一路飘红：GPQA-D 95.5、LiveCodeBench 93.2、TerminalBench 82.1，多项跑分冲到全场最高。
被它甩在身后的，是Gemini 3.1 Pro、GPT 5.5、Opus 4.8 (max)这些当下最前沿的模型。
Sakana官方跑分图，红色为Fugu／Fugu Ultra，灰色为基线模型。fugu-ultra在GPQA-D（95.5）、LiveCodeBench（93.2）等多项登顶，但SWE-bench Pro一栏，被不在它调用池里的Fable 5以80.0反超。（图源：Sakana AI官网）
fugu-ultra真的这么厉害吗？
它没有打败Opus
它雇了Opus
先把Fugu是什么说清楚。
Sakana AI在官网里给它的定义，是「一套作为基础模型交付的多智能体编排系统（multi-agent orchestration system）」，对外只露出一个API。
这背后是Sakana的一个核心信念：
最强的AI，不会是一个孤立堆大的单模型。它会是一群各有专长的智能体，协同作战的集合。
Fugu，就是这个信念落地的产物。
一个模型，号令所有模型。
它底层动态协调一池前沿模型（frontier model），自己决定派谁上、谁跟谁配合。
Sakana Fugu官方架构图。左：Fugu学习从一池开源与闭源模型里挑人调用；右：继续训练后，它能调用自己，形成递归自调用。
机制来自Sakana AI两篇ICLR 2026论文。
三位一体（Trinity）是用演化策略训出的协调器，给池子里的LLM轮流派思考者（Thinker）、执行者（Worker）、验证者（Verifier）三种角色；指挥家（Conductor）用强化学习设计智能体之间的通信拓扑，给每个被调用的模型写定向指令。
装起来也省事，一行就能塞进Codex。
它的模型池子里，装着GPT-5.5、Opus 4.8、Gemini 3.1 Pro，全是当下最前沿的模型。
Sakana官方也说得明白：凡是能公开访问的前沿模型，都在它的调用池里。
把这两句摆一起就有意思了。
它在跑分表里「打败」的那些对象，正是它自己在调用的对象。
换句话说，Fugu Ultra没在跟Opus比谁更聪明。它把Opus、Gemini、GPT都调过来，让它们一起答题，最后把整体得分记在自己名下。
更微妙的是，你还查不到它具体调用了谁。官方称：每次任务调用了哪些底层模型、怎么协同，属于商业机密，不对外公开。
所以它没打败Opus，它雇了Opus，更像是一场「租来的胜利」。
Fugu攒得起一池模型，可它对标的Fable 5和Mythos，恰恰因为出口管制不在这池子里，它自己也调不动。
一个连Fable都用不上的系统，宣称跟Fable并肩。这句话天生就没人能证伪。
跑分很猛
手感只是「还行」
发布不到24小时，跑分和真实手感的落差，就在社区传开了。
沃顿商学院的Ethan Mollick直接上手测。
他经常跑的shader（着色器）、交互场景，在Fugu Ultra上要等30分钟才出结果，效果他给的评价是「还行」，但不及Fable。
他还甩出一个Harbor Town的demo当证据。
这道题Mollick跑了三年多。同一句话喂给每一代模型：生成一座3D港口小镇，从公元前3000年一路演化到公元3000年，要好看，还得能上手调。一次成型，不许返工。
从GPT-3.5到今天的最强模型，同一道题、同一套打分，哪代AI强、强在什么地方，对照之下一目了然。
轮到Fugu Ultra：30分钟才跑完，港口小镇是做出来了，Mollick一句话定性：能看，但真用起来，它比不上Fable那种完成度。
Mollick的Harbor Town单题测试，fugu-ultra（Sakura Ultra High）版。代码与设计评分均为Advanced（14／20、13／20）。
另一个用户@LLMJunky更惨，一个提示词就把20美元档位一个月里5小时的配额烧了个精光。
慢和烧钱，确实是这套架构甩不掉的成本。但成本只是一面。
Mark Santos拿同一个Crossy Road小游戏测，Fugu Ultra用22分钟、7.32美元就做完了，而Opus 4.8花了79分钟、37.85美元，又慢又贵，中途还两次卡进重试循环，得人工拉回来。
数字上Fugu完胜：更快，更省。可Santos最后给的结论是，论应用的功能、质量和设计，赢家是Opus。
更快、更省，却不是更好。编排把成本压下去了，却没把质量提上来。
Fugu的跑分到底算谁的？
社区第一时间就吵开了。
一派看法很直接：调度系统的天花板，被池子里最强的那个单模型死死卡住。
10个笨蛋凑一屋，也凑不出一个爱因斯坦。照这个逻辑，Fugu分数再高，也高不过它能调到的最强模型。
另一派不服：最强单模型只是地板。真正的玩法，是按每道题派出最擅长那道题的模型，这本就可能超过「最强综合模型」。
让多个模型互相查作业，本来就能提精度。ChatGPT的pro模式、Gemini的Deep Think，干的就是这件事。
两派都有道理。可这么空对空地吵，谁也说不服谁。其实，有一栏跑分早就把答案摆出来了。
SWEBench Pro这一项，fugu-ultra拿到73.7，压过了它池子里的每一个成员，Opus 4.8的69.2、GPT 5.5的58.6，无一例外。
这说明把几个模型按题分工、互相校验，确实能爬到任何单个成员都够不到的高度。编排并非没用，它榨出了实打实的增量。
可同一栏里，真正排在最前面的，是Fable 5的80.0。而Fable，恰恰是它够不到、也调不动的那一个。
它打赢了所有能调用的，却仍输给那个被管制锁走的。
多模型协同这条路，大概率是对的。这样的组合会越来越多，已经有人开始数：这个3个模型，那个10个。
但在给这种系统测评的尺子造出来之前，每一张漂亮的成绩单，都得先回答同一个问题：这些得分是怎么来的，哪些是调用模型的，哪些是它自己的。
绕开管制
绕不开依赖
Sakana用Fugu讲了一个更大的故事：别把命门交给任何一家。
CEO David Ha曾做过Google Brain，也当过Stability AI的研究主管，联合创始人里还有Transformer论文作者Llion Jones。
Sakana反复强调的是，把关键基础设施押在单一厂商的API上，是一种实打实的脆弱性。
就在Fugu发布前，日本官方还公开表达过担忧：再不加速，国家恐怕要沦为「AI殖民地」。Fugu赶在出口管制十天后出场，时间点和卖点，都冲着这层焦虑来。
但批评者一句话就戳破了：池子里装的，全是美国管制之下的闭源模型。某家被掐了它能绕，可几家一起收紧，它的池子照样缩水。
绕开管制，并不等于真正自主。你没摆脱依赖，只是把它从一层，挪到了更深、也更看不清的另一层。社区有网友质疑：这跟把一种单一供应商依赖，换成另一种，区别在哪？
抛开这些质疑，Fugu所推崇的理念：当最强的模型可能一夜消失，别让任何单一模型，成为你架构里的承重墙。这个判断是正确的。
如何看待「并肩」Fable这件事
2025年2月，Sakana的AI CUDA Engineer号称给计算内核加速10到100倍。
结果几小时内被人扒出来，它钻的是评测沙盒的漏洞，有的案例非但没快，反而慢了3倍。
Sakana后来认了，承认模型「找到了作弊的办法」。它的AI Scientist经独立复核，被指出存在大量代码错误、结果幻觉、文献综述肤浅。
Sakana的创始团队是认真做研究的人，Llion Jones、David Ha推崇的那套「集体智能、鱼群协作」，多年来一以贯之，方向自洽。
这些过往，并不能证明Fugu这次的跑分有水分。
但对一份没有第三方复现、全靠厂商自报的成绩单，它天然该打一个问号。

标签：模型官方智能结果协同时间社区系统闭源代码底层漏洞质量 实打实 论文配额 基础设施 创始人 小时厂商调度信念幻觉错误沃顿一池 天花板 池子产物架构道题条路

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

传腾讯拟退出对多家日本游戏工作室投资，腾讯：保持对日本游戏市场的长期关注

0产品估值10个亿！老黄投了两位Anthropic前员工初创公司

中国电信突破6G星地融合关键技术：高/中轨卫星、地面无缝切换

AI批量造App，也在批量埋雷

Anthropic测试手机端Claude Cowork 支持远程管理AI长任务

消息称荣耀新机量产线测试12000mAh电池，实验室评估最大14000mAh±

全站最新

比亚迪大唐EV长沙上市：融合国风文化，开启华中高端纯电出行新体验

东方美学邂逅红毯盛宴岚图追光S四款华流车色惊艳白玉兰之夜

法拉利Luce亚洲首秀上海：纯电超跑新标杆，性能舒适空间三重飞跃

新车小剐蹭别盲目补漆！过来人血泪经验，新手省下几千维修费

热门推荐

中国移动旗下基金等入股友机技术

马斯克获批收购Mesh Optical，推进AI数据中心光通信技术新布局

OpenAI再升级数亿人默认模型：不拼智商拼“懂你”，重塑日常交互体验

京东在欧洲推出机器人维修服务

传腾讯拟退出对多家日本游戏工作室投资，腾讯：保持对日本游戏市场的长期关注

内存涨价“百年一遇”：库克诉苦、马斯克力挺、美光反击

0产品估值10个亿！老黄投了两位Anthropic前员工初创公司

中国电信突破6G星地融合关键技术：高/中轨卫星、地面无缝切换

AI批量造App，也在批量埋雷

Anthropic测试手机端Claude Cowork 支持远程管理AI长任务

消息称荣耀新机量产线测试12000mAh电池，实验室评估最大14000mAh±

苹果iOS 27 Beta 2固件代码曝光，百度视觉搜索组件现身

三星确认Galaxy A27手机不支持DeX：此前官网信息系复制粘贴错误

Fable平替登顶真相：它没打败Opus，它雇了Opus

B站迎17周年庆，陈睿称社区是优质内容最好的土壤