当前位置: 首页 » 资讯 » 科技头条 » 正文

Fable平替登顶真相:它没打败Opus,它雇了Opus

IP属地 中国·北京 编辑:周伟 新智元 时间:2026-06-27 12:10:03

新智元报道

都当它是碾压GPT、Opus的新模型,它的真实身份却是个调度层。它打败的那几个,正是它雇来答题的那几个。

6月12日,美国一纸出口管制令,逼Anthropic把最强的两款模型Fable 5和Mythos从全球下架。

10天后,位于日本东京的Sakana AI放出新产品Fugu和旗舰版Fugu Ultra,称自己已经与Fable、Mythos并肩,可以带给用户前沿大模型的能力,又不必担出口管制的风险。

在Sakana AI官网贴出的一张跑分表里,fugu-ultra几乎一路飘红:GPQA-D 95.5、LiveCodeBench 93.2、TerminalBench 82.1,多项跑分冲到全场最高。

被它甩在身后的,是Gemini 3.1 Pro、GPT 5.5、Opus 4.8 (max)这些当下最前沿的模型。

Sakana官方跑分图,红色为Fugu/Fugu Ultra,灰色为基线模型。fugu-ultra在GPQA-D(95.5)、LiveCodeBench(93.2)等多项登顶,但SWE-bench Pro一栏,被不在它调用池里的Fable 5以80.0反超。(图源:Sakana AI官网)

fugu-ultra真的这么厉害吗?

它没有打败Opus

它雇了Opus

先把Fugu是什么说清楚。

Sakana AI在官网里给它的定义,是「一套作为基础模型交付的多智能体编排系统(multi-agent orchestration system)」,对外只露出一个API。

这背后是Sakana的一个核心信念:

最强的AI,不会是一个孤立堆大的单模型。它会是一群各有专长的智能体,协同作战的集合。

Fugu,就是这个信念落地的产物。

一个模型,号令所有模型。

它底层动态协调一池前沿模型(frontier model),自己决定派谁上、谁跟谁配合。

Sakana Fugu官方架构图。左:Fugu学习从一池开源与闭源模型里挑人调用;右:继续训练后,它能调用自己,形成递归自调用。

机制来自Sakana AI两篇ICLR 2026论文。

三位一体(Trinity)是用演化策略训出的协调器,给池子里的LLM轮流派思考者(Thinker)、执行者(Worker)、验证者(Verifier)三种角色;指挥家(Conductor)用强化学习设计智能体之间的通信拓扑,给每个被调用的模型写定向指令。

装起来也省事,一行就能塞进Codex。

它的模型池子里,装着GPT-5.5、Opus 4.8、Gemini 3.1 Pro,全是当下最前沿的模型。

Sakana官方也说得明白:凡是能公开访问的前沿模型,都在它的调用池里。

把这两句摆一起就有意思了。

它在跑分表里「打败」的那些对象,正是它自己在调用的对象。

换句话说,Fugu Ultra没在跟Opus比谁更聪明。它把Opus、Gemini、GPT都调过来,让它们一起答题,最后把整体得分记在自己名下。

更微妙的是,你还查不到它具体调用了谁。官方称:每次任务调用了哪些底层模型、怎么协同,属于商业机密,不对外公开。

所以它没打败Opus,它雇了Opus,更像是一场「租来的胜利」。

Fugu攒得起一池模型,可它对标的Fable 5和Mythos,恰恰因为出口管制不在这池子里,它自己也调不动。

一个连Fable都用不上的系统,宣称跟Fable并肩。这句话天生就没人能证伪。

跑分很猛

手感只是「还行」

发布不到24小时,跑分和真实手感的落差,就在社区传开了。

沃顿商学院的Ethan Mollick直接上手测。

他经常跑的shader(着色器)、交互场景,在Fugu Ultra上要等30分钟才出结果,效果他给的评价是「还行」,但不及Fable。

他还甩出一个Harbor Town的demo当证据。

这道题Mollick跑了三年多。同一句话喂给每一代模型:生成一座3D港口小镇,从公元前3000年一路演化到公元3000年,要好看,还得能上手调。一次成型,不许返工。

从GPT-3.5到今天的最强模型,同一道题、同一套打分,哪代AI强、强在什么地方,对照之下一目了然。

轮到Fugu Ultra:30分钟才跑完,港口小镇是做出来了,Mollick一句话定性:能看,但真用起来,它比不上Fable那种完成度。

Mollick的Harbor Town单题测试,fugu-ultra(Sakura Ultra High)版。代码与设计评分均为Advanced(14/20、13/20)。

另一个用户@LLMJunky更惨,一个提示词就把20美元档位一个月里5小时的配额烧了个精光。

慢和烧钱,确实是这套架构甩不掉的成本。但成本只是一面。

Mark Santos拿同一个Crossy Road小游戏测,Fugu Ultra用22分钟、7.32美元就做完了,而Opus 4.8花了79分钟、37.85美元,又慢又贵,中途还两次卡进重试循环,得人工拉回来。

数字上Fugu完胜:更快,更省。可Santos最后给的结论是,论应用的功能、质量和设计,赢家是Opus。

更快、更省,却不是更好。编排把成本压下去了,却没把质量提上来。

Fugu的跑分到底算谁的?

社区第一时间就吵开了。

一派看法很直接:调度系统的天花板,被池子里最强的那个单模型死死卡住。

10个笨蛋凑一屋,也凑不出一个爱因斯坦。照这个逻辑,Fugu分数再高,也高不过它能调到的最强模型。

另一派不服:最强单模型只是地板。真正的玩法,是按每道题派出最擅长那道题的模型,这本就可能超过「最强综合模型」。

让多个模型互相查作业,本来就能提精度。ChatGPT的pro模式、Gemini的Deep Think,干的就是这件事。

两派都有道理。可这么空对空地吵,谁也说不服谁。其实,有一栏跑分早就把答案摆出来了。

SWEBench Pro这一项,fugu-ultra拿到73.7,压过了它池子里的每一个成员,Opus 4.8的69.2、GPT 5.5的58.6,无一例外。

这说明把几个模型按题分工、互相校验,确实能爬到任何单个成员都够不到的高度。编排并非没用,它榨出了实打实的增量。

可同一栏里,真正排在最前面的,是Fable 5的80.0。而Fable,恰恰是它够不到、也调不动的那一个。

它打赢了所有能调用的,却仍输给那个被管制锁走的。

多模型协同这条路,大概率是对的。这样的组合会越来越多,已经有人开始数:这个3个模型,那个10个。

但在给这种系统测评的尺子造出来之前,每一张漂亮的成绩单,都得先回答同一个问题:这些得分是怎么来的,哪些是调用模型的,哪些是它自己的。

绕开管制

绕不开依赖

Sakana用Fugu讲了一个更大的故事:别把命门交给任何一家。

CEO David Ha曾做过Google Brain,也当过Stability AI的研究主管,联合创始人里还有Transformer论文作者Llion Jones。

Sakana反复强调的是,把关键基础设施押在单一厂商的API上,是一种实打实的脆弱性。

就在Fugu发布前,日本官方还公开表达过担忧:再不加速,国家恐怕要沦为「AI殖民地」。Fugu赶在出口管制十天后出场,时间点和卖点,都冲着这层焦虑来。

但批评者一句话就戳破了:池子里装的,全是美国管制之下的闭源模型。某家被掐了它能绕,可几家一起收紧,它的池子照样缩水。

绕开管制,并不等于真正自主。你没摆脱依赖,只是把它从一层,挪到了更深、也更看不清的另一层。社区有网友质疑:这跟把一种单一供应商依赖,换成另一种,区别在哪?

抛开这些质疑,Fugu所推崇的理念:当最强的模型可能一夜消失,别让任何单一模型,成为你架构里的承重墙。这个判断是正确的。

如何看待「并肩」Fable这件事

2025年2月,Sakana的AI CUDA Engineer号称给计算内核加速10到100倍。

结果几小时内被人扒出来,它钻的是评测沙盒的漏洞,有的案例非但没快,反而慢了3倍。

Sakana后来认了,承认模型「找到了作弊的办法」。它的AI Scientist经独立复核,被指出存在大量代码错误、结果幻觉、文献综述肤浅。

Sakana的创始团队是认真做研究的人,Llion Jones、David Ha推崇的那套「集体智能、鱼群协作」,多年来一以贯之,方向自洽。

这些过往,并不能证明Fugu这次的跑分有水分。

但对一份没有第三方复现、全靠厂商自报的成绩单,它天然该打一个问号。

标签: 模型 官方 智能 结果 协同 时间 社区 系统 闭源 代码 底层 漏洞 质量 实打实 论文 配额 基础设施 创始人 小时 厂商 调度 信念 幻觉 错误 沃顿 一池 天花板 池子 产物 架构 道题 条路

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。