
新智元报道

Opus 4.7发布刚43天,Opus 4.8就来了!编程实力暴增,全面霸榜。Claude Code一口气放出上百个agent并行干活,一个人11天就能重写75万行代码、99.8%测试通过。更狠的Claude Mythos,几周后就来。
猝不及防,Anthropic深夜杀回来了!
就在刚刚,Claude Opus 4.8正式登场,一举夺回全球AI王座。
而且价格还一分没涨,跟上一代一模一样。

无论是编程、人类最后考试(HLE),还是在智能体、计算机使用任务中,Opus 4.8几乎无可匹敌。
最后,是一个专冲「人类能力天花板」去的榜单——FrontierSWE。
这里出的全是硬核系统工程的活儿,用Zig从零写一个PostgreSQL服务器、把git整个重写一遍、做一个Lua的原生编译器。
没想到,Opus 4.8以高达83%的胜率登顶,把第二名的GPT-5.5和前代4.7全压在身后。

不过,Opus 4.8也有够不着的地方。
在评估「Claude能否自动化AI研发」的核心指标上,它把Anthropic的能力前沿再往前推了一步。


这哪是4.8,分明是Opus 5
在第三方的实测中,Opus 4.8的实力完全就是Opus 5的存在。

Every团队一篇报告中,直言Opus 4.8的编码实力好太多,比上一代高出30分。
甚至,它完成了一次从0开始的生产级代码库重写,并且真的构建出了可运行的成果。
在写作方面,它比GPT-5.5高出6分,AI味儿瞬间淡了,生成的文本更加流畅。
而且,Opus 4.8撰写的报告、研究等知识工作任务中,表现极其出色,可以做到一次直出PPT。

沃顿商学院CS教授Ethan Mollick给出的评价是,「令人印象深刻」!
实测中,Opus 4.8一次性就生成了在twigl中运行的、效果炫酷的着色器。


再来看一个,Opus 4.8和Opus 4.7并排测试。


上百个Agent并行干活
11天重写底层
强成这样,它该使多大劲,这次居然轮到用户说了算。
先说effort control(思考力度)。模型旁边,多了个从Low到Max的五档选择。
简单问题挂Low,秒回还省额度;遇上硬骨头直接拉满Max,让它往死里想。

fast mode也跟着大降价,2.5倍速狂奔,价钱反倒砍到三分之一。
而五档之上,还埋着一个真正的狠角色,ultracode。
effort一旦顶到xhigh,它就自己掂量,这活儿值不值得叫上一整支agent大军。
这支大军,就是dynamic workflows,藏在Claude Code里的真正重武器。
它把AI干活的方式,从一个人改一道题,变成了开一座工厂。

需要注意的是,dynamic workflows的token消耗远高于普通session,建议先从小范围任务试起。

现在,Claude接到一个大活后不再自己埋头硬刚,而是当场写出一段调度脚本,把任务拆成几十上百个子任务,撒给一大群subagent并行去做。
做完还不算完,再派另一拨agent从不同角度反复盘问、互相挑刺,吵到答案收敛了,才汇总成一份结果交给你。
整个调度发生在对话之外,所以活儿再大,主线也不会乱。中途断了还能续上,不用从头再来。
举个例子,Bun的作者Jarred Sumner,想把这个比Node.js还快的JavaScript运行时,整个从Zig重写成内存更安全的Rust。
这种迁移,放在过去是一支团队按季度算的工程。

不过,这次Sumner有了dynamic workflows。
一个workflow先把Zig代码里每个结构体字段对应的Rust生命周期挨个标好,下一个workflow把每个文件逐一翻成行为一致的Rust版本,几百个agent同时开工,每份文件还配两个审查员,再用一个修复循环驱动编译和测试,一路推到全绿。
结果是,约75万行Rust代码,99.8%的原有测试通过。从第一次提交到合并,只用了11天。
社区当场炸了锅。这场迁移产生了六千多次提交,几乎没有经过人类逐行审查。

估值万亿美金
Claude Mythos要来
能力夺回第一的同时,Anthropic的身价也头一回压过了OpenAI。
就在刚刚,Anthropic完成了650亿美元H轮融资,估值9650亿美元,首次超越OpenAI(8520亿美元)。
一夜之间,它成了全球估值最高的AI初创公司!


然而,站在IPO前夜,这两大巨头的ASI的巅峰对决才真正开始。
正如博客所预告的那样,Anthropic手中最大的王牌——Claude Mythos将在未来几周上线。
届时,这场属于AI巨头间的终极拉锯战,才算拉开帷幕。





京公网安备 11011402013531号