当前位置: 首页 » 资讯 » 科技头条 » 正文

Anthropic刚递表IPO,但旗舰正在被全网疯狂吐槽

IP属地 中国·北京 编辑:赵磊 字母榜 时间:2026-06-02 14:33:10

Anthropic已经秘密向美国证券交易委员会(SEC)递交了 S-1注册声明草稿。这意味着一旦SEC审核通过,Anthropic就可以随时启动IPO。

公告中没有披露具体的发行股数和定价,只说“取决于市场条件和其他因素”。

就在递表的前一天,Anthropic才宣布完成650亿美元H轮融资,投后估值达9650亿美元,超越OpenAI的8520亿美元,成为全球估值最高的私营AI公司。并且Anthropic的发言人还称,公司年化运营收入已从去年底的100亿美元暴涨至470亿美元。

但Anthropic对得起它的估值吗?

现在市面上已经有两家公司上市了,智谱和MiniMax。而且大家也都明白一个道理,对上市的AI公司来说,市值与旗舰产品的表现强挂钩。

投资者买的不是过去的成就,是你未来的增长预期。Opus 4.8本该是Anthropic向市场证明“我们是全球第一”,结果却是一场灾难。

Claude Opus 4.8正式发布的时候,配套推出了dynamic workflows功能,号称能让Claude Code调度数百个并行子代理,完成“从启动到合并”的代码库级迁移。

但经过周末两天的发酵,无论是中文社区还是英文社区,全网都在吐槽Opus 4.8。

外媒论坛上,有人发现Opus 4.8在Max档位下审查一个PR花了10美元,而Opus 4.7只需要2到5美元。另一位用户拉出token使用记录,发现Opus 4.8开启思考模式后,每轮对话会生成并缓存高达90万个token,而Opus 4.7只有1.4万到3.4万。

原因是Anthropic把思考模式从“按需启动”改成了“始终开启”。

4.7会根据任务复杂度决定要不要思考,简单任务几乎不产生思考块。4.8只要开了思考模式,每一轮都生成完整思考块,无论任务多简单。上下文像滚雪球一样膨胀,几分钟就能耗尽了额度。

模型再聪明,如果过度解释,还不断重复上下文,那么模型就有可能在长对话中失焦,导致实际体验变差。

不止如此,如果你用中文问Opus 4.8是谁,它会回答你它是千问以及DeepSeek。还有网友调侃称,Opus 4.8用中文回答问题时,说话一股“豆包”味。

Anthropic现在可是全球最顶尖的AI公司,没有之一。如果这些事情都是真的,那对即将IPO的Anthropic来说,无疑是毁灭打击。

那Opus 4.8到底怎么样呢?

Anthropic这次主推的并不是什么模型性能提升,官方更新公告中也强调这事了。它主要推的是dynamic workflows 功能,目前只在Claude Code中以研究预览形式提供。

这个功能是一个多智能体编排系统,它让Claude能自动编写JavaScript脚本,将复杂任务拆分为子任务,调度数十到数百个并行子智能体协同处理并交叉验证结果,最终交付完整答案。

整个过程独立于对话上下文运行,支持断点续跑。

于是,我就以这个功能作为切入点,给Opus 4.8出了道题目,并且也把相同的题目抛给了GPT-5.5,以做对比。

Opus 4.8到底如何?

我给Opus 4.8的任务内容是这样的。

假如说你有一个成熟的商业软件,一共80万行代码,React前端、Node.js后端、PostgreSQL数据库、Redis缓存、后台任务队列、Stripe支付、邮件通知、管理后台。

现在要给它加上组织级的角色权限控制系统。五种角色,Owner老是板什么都能干,Admin是管理员也能管大部分事,Billing Manager是财务经理只能看账单,Read-only Auditor是审计员只能看报表但不能导出或修改数据,Member是普通成员权限最少。

要支持邀请成员、变更角色、限制不同页面的访问、记录审计日志。数据库要加新表、写迁移脚本、还要能回滚。API层要更新授权中间件,每个端点都要检查权限。

还有一个硬约束,最多只能用8个子代理,并且要解释为什么每一个都是必要的。这就逼着AI必须在粒度和效率之间找平衡,不能无限拆分,也不能粗暴合并。

80万行代码是什么概念?微信小程序大概几万行,一个中型电商网站可能十几万行,80万行意味着这是一个运行了好几年、有几十个工程师维护、功能非常复杂的大型系统。

为了不影响文章阅读,我把它俩的回答放到了文章末尾。

GPT-5.5先做一张权限表,把Owner、Admin、Member、Billing Manager、Auditor五种角色,分别对应到“能不能看账单、能不能进后台、能不能邀请成员、能不能导出报表”等具体动作。

规则定好后,它再派8个子代理分头看代码。

一个看后端接口,一个看数据库结构,一个看前端页面和按钮,一个看后台任务,一个专门设计测试,一个专门找越权风险,最后一个负责把所有结果合并成执行顺序。

Claude也是派8个子代理,但它写法像是清单。

第一步先扫描整个系统,找出哪些接口、页面、任务会受权限影响。第二步设计数据库表、迁移脚本和回滚方案。第三步写统一的权限检查逻辑。第四步分别处理前端页面、邀请成员、角色变更、后台任务。最后再做集成测试、安全测试、性能测试和回滚演练。

也就是说,GPT-5.5先把“谁能干什么”这件事定死,再让不同代理去找对应代码位置;Claude则先把整个改造工程拆成几个施工阶段,再给每个阶段安排代理、产出物和验收条件。

作为评委,我是这样看这两份答案的。

GPT-5.5的答案结构清晰,每个阶段要做什么、每个子代理负责什么、什么可以并行什么必须串行、怎么验证、怎么控制成本、容易在哪里翻车,全都说得很明白。

它的风格是务实,追求快速推进。它把重点放在避免浪费上面,先做文件类别发现而不是读整个仓库,每个子代理只返回路径和简洁发现而不是代码,规划之后就停止等待批准。

它列出的十大失败模式都是真实项目里最容易犯的错误,比如把前端隐藏当授权、忘记后台任务之类的,这些都是经验之谈。

Claude的答案更完整一些。

它不仅说要做什么,还解释为什么要这样做。每个子代理都有明确的必要性说明,每个阶段都有清晰的目标和产出,每个停止条件也都有可量化的指标。

Claude把重点放在质量保证上面,单元测试覆盖率要大于90%、缓存命中率要大于80%、邮件发送成功率要大于99%、测试要覆盖至少80%的作业。

它对每个子代理的输入输出都描述得非常具体,它不会说“权限检查库”之类笼统的话,它具体到“canAccessBilling、canAccessAdminDashboard”之类的各种函数。

但这道题测的不是哪个方案更好,而是哪个模型更理解这道题在问什么。

GPT-5.5理解的是“给我一个可以立刻执行的计划”。Claude理解的是“给我一个完整的系统设计”。

前者是工程师思维,后者是架构师思维。前者关注的是效率和风险控制,后者关注的是完整性和质量保证。

如果你要我选一个,我肯定选GPT。

原因很简单,题目要求是“React前端”,但Claude给我的答案里,它写的是“实现组件级权限指令(v-can、CanAccess 组件)”。

v-can是Vue的指令语法,React根本不用这种方式,才是React用的组件。

Opus 4.8在DeepSWE上

输给了GPT-5.5

你可以说我出的题目带有一些主观色彩,但是DeepSWE给的结果是绝对客观的。

5月31日,DeepSWE给出了最新的评分。GPT-5.5拿了70分,排第一。GPT-5.4拿了56分,排第二。Claude Opus 4.7拿了54分,排第三。

DeepSWE是一个专门测试AI编程能力的新benchmark。

它给模型一个真实的GitHub issue,让模型自己去修复,然后看能不能通过测试。

跟之前的SWE-Bench Pro不同,DeepSWE的任务更接近真实工作场景。平均每个任务要改668行代码、涉及7个文件,而且提示词很短,只有2158个字符。

模型必须自己读代码库、找入口、理解项目结构、跨文件修改、还不能破坏现有功能。

更关键的是成本。

GPT-5.5达到70%通过率,平均每次测试花5.8美元、耗时20分钟、输出4.7万个 token。GPT-5.4更划算,每次3.3美元就能拿到56%的通过率。

Claude Opus 4.8和4.7每次测试的成本要贵得多,而且输出token、耗时、成本都比其他模型高一个数量级。

DeepSWE还发现了一个更有意思的事。

SWE-Bench Pro是一个考AI写代码的考试。正常情况下,AI应该像程序员一样,看bug、改代码、跑测试,自己把问题修好。

但这个考试环境有个漏洞,它把项目以前的Git历史也一起放进去了。

Git 历史可以理解成“这道题以前是怎么被真人修好的记录”。也就是说,标准答案其实藏在考试电脑里。

大部分模型就算答案藏在那里,也不会去翻。

但Datacurve的分析说,Claude有时候会去翻这些历史记录,找到当年修复这个bug的commit,然后照着答案改。

这就像考试时,试卷旁边其实放着一本答案册。正常学生不会看,或者不知道能看。但Claude有时会把答案册翻出来抄。

DeepSWE修复了这个漏洞,只提供浅克隆和基础commit,不留金标准hash让模型去发现。

这就是为什么到了DeepSWE上,哪怕是最新的Claude Opus 4.8也远不如GPT-5.5。

DeepSWE的结果出来之后,Anthropic现在是两头堵。

性能不如GPT-5.5,价格还比GPT-5.5贵。

Opus 4.8的定价策略引发了大量用户的不满。X上有人说,本来想试试官方宣称的“2倍使用量”,结果30分钟就烧完了98%的使用量,于是这位用户直接退款,转去试Kimi K2.6。

更夸张的案例是,有用户发现 Opus 4.8在23分18秒内消耗了98.2万个token,按照Opus的定价来看,不到半个小时,就烧掉小200块钱。

虽然,Artificial Analysis表示,Opus 4.8完成同等任务比4.7少用15%的执行轮次和35%的输出token。

这是由于Opus 4.8通过更高效的工具调用和更直接的问题解决路径,用更少的执行步骤完成同等任务,最终降低了实际运行成本。

但用户的感受是,账单变贵了。

LINUX DO用户用官方API直接发包测试,问“你是什么模型”,Opus 4.8大概率回答“我是通义千问”,小概率回答“我是 DeepSeek”,就是不说自己是 Claude。

有人粗测了概率分布,Qwen占大头,DeepSeek占小头,Claude几乎为零。

看到这些新闻,此时的阿莫迪一定是焦头烂额。

因为就在Opus 4.8发布的同一天,Anthropic宣布完成650亿美元H轮融资,投后估值达9650亿美元,超越OpenAI 的8520亿美元,成为全球估值最高的私营AI公司。

这笔融资大概率是Anthropic上市前的最后一轮私募融资。Anthropic首任首席财务官克里希纳拉奥(Krishna Rao) 表示,公司年化运营收入已突破470亿美元,预计第二季度营收将达109亿美元,有望实现首个季度盈利。

与此同时,Anthropic还将在2026年下半年进行IPO。

就在这么个时间点上,一旦作为旗舰产品的Opus发生问题,那对Anthropic整个公司来说,都将面临毁灭性的灾难。

众叛亲离的前夜

阿莫迪现在需要的担心还不止是产品。

外媒在5月31日报道了Anthropic创立背后的一段往事。

这个故事的主角是格雷格布鲁克曼(Greg Brockman),OpenAI的联合创始人和总裁,同样也是一个技术天才。在公司内部,他以强硬、越权的“大脚”管理风格闻名。

他总是避免各种会议,把80%的时间都用在写代码上。然而他却经常在不了解背景的情况下,强行介入团队项目,践踏他人工作,招致大量同事的抱怨。

这种情况在OpenAI成立初期尤为严重。

布鲁克曼因过度干涉项目,导致项目的一位顶尖研究员备受排挤,这件事彻底激怒了当时的项目负责人,也就是后来Anthropic的创始人阿莫迪。

阿莫迪当时负责的那个项目,虽然并不是ChatGPT,但它是ChatGPT诞生前的一项关键工程项目。后来ChatGPT就是沿着这条技术路线发展出来的。

阿莫迪后来直接禁止布鲁克曼插手那个早期对话模型项目。

这段职场裂痕不仅促成了Amodei团队日后出走,并创立Anthropic,也为OpenAI后来的权力斗争埋下了伏笔。

2023年感恩节董事会“政变”中,联合创始人伊利亚苏兹科维(Ilya Sutskever)罢免奥特曼时,给出的核心理由之一便是奥特曼“管不住布鲁克曼”。

说明布鲁克曼的问题已经严重到,能够影响整个公司运作的程度了。

阿莫迪当年出走OpenAI,就是因为他不想在一个“大脚”随时会踩进来的环境里做事。他要的是一个技术纯粹、不被干扰的地方,一个可以按照自己节奏打磨产品的地方。

但现在,Anthropic自己也变成了一个“大脚”随时会踩进来的地方。

只不过这次踩进来的不是布鲁克曼,而是资本、上市压力、用户预期和竞争对手。

Opus 4.8的问题不是技术问题,是节奏问题。它被逼着在还没准备好的时候上场,因为Anthropic需要在IPO前证明自己还能打,需要告诉大家,Anthropic配得上9650亿美元的估值。

IPO的时间窗口正在收紧。

Anthropic在5月31日递交 S-1草稿后,按照SEC的审核流程,最快可能在三到四个月内完成审核并启动路演。这意味着Anthropic最早可能在9月或10月敲钟。

但现在的问题是,路演时投资者会看什么?

他们会看Q2和Q3的营收数据,会看用户增长曲线,会看Claude Code的留存率,会看企业客户的续约情况。而这些数字,全都直接受Opus 4.8表现的影响。

如果Opus 4.8的口碑持续恶化,那Q3的营收增速就会放缓。一旦增速放缓,投资者就会重新评估Anthropic的增长故事,9650亿美元的估值就会被打折扣。

更要命的是,Anthropic的竞争对手已经不按规则出牌了。

5月22日,就在Opus 4.8发布前一周,DeepSeek宣布将V4 Pro的75%折扣永久化。新价格是每百万token输入0.435美元、输出0.87美元。

假如有这么一个应用,1000万个输出token,那么它用DeepSeek V4就只需要花8.7美元,用Claude Opus要花250美元。

explainx.ai上就有这么个例子,他把代码审查和推理任务从Claude切换到DeepSeek V4 Pro后,不仅任务能够继续执行,成本还从1071美元降到了268美元。

这就是阿莫迪现在的处境。

他能逃离OpenAI的“大脚”,却没办法逃离商业世界的“大脚”。

区别只在于,当年他可以选择离开。如今,他无处可逃。

Opus 4.8

GPT-5.5

上下滑动布局+自动对齐

滑动时会有自动对齐的效果

只适合放图/SVG图片

通过设置宽高比来调整显示大小

需使用同步/插件上传到公众号后台

标签: 项目 任务 模型 用户 代码 问题 代理 权限 公司 估值 上市 成本 结果 功能 布鲁克 结构 答案 情况 大脚 产品 思维 角色 全球 记录 质量保证 专门 明白 技术 后者 前者 题目 大头

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。