Anthropic刚递表IPO，但旗舰正在被全网疯狂吐槽

IP属地中国·北京 编辑：赵磊字母榜 时间：2026-06-02 14:33:10

Anthropic已经秘密向美国证券交易委员会（SEC）递交了 S-1注册声明草稿。这意味着一旦SEC审核通过，Anthropic就可以随时启动IPO。
公告中没有披露具体的发行股数和定价，只说“取决于市场条件和其他因素”。
就在递表的前一天，Anthropic才宣布完成650亿美元H轮融资，投后估值达9650亿美元，超越OpenAI的8520亿美元，成为全球估值最高的私营AI公司。并且Anthropic的发言人还称，公司年化运营收入已从去年底的100亿美元暴涨至470亿美元。
但Anthropic对得起它的估值吗？
现在市面上已经有两家公司上市了，智谱和MiniMax。而且大家也都明白一个道理，对上市的AI公司来说，市值与旗舰产品的表现强挂钩。
投资者买的不是过去的成就，是你未来的增长预期。Opus 4.8本该是Anthropic向市场证明“我们是全球第一”，结果却是一场灾难。
Claude Opus 4.8正式发布的时候，配套推出了dynamic workflows功能，号称能让Claude Code调度数百个并行子代理，完成“从启动到合并”的代码库级迁移。
但经过周末两天的发酵，无论是中文社区还是英文社区，全网都在吐槽Opus 4.8。
外媒论坛上，有人发现Opus 4.8在Max档位下审查一个PR花了10美元，而Opus 4.7只需要2到5美元。另一位用户拉出token使用记录，发现Opus 4.8开启思考模式后，每轮对话会生成并缓存高达90万个token，而Opus 4.7只有1.4万到3.4万。
原因是Anthropic把思考模式从“按需启动”改成了“始终开启”。
4.7会根据任务复杂度决定要不要思考，简单任务几乎不产生思考块。4.8只要开了思考模式，每一轮都生成完整思考块，无论任务多简单。上下文像滚雪球一样膨胀，几分钟就能耗尽了额度。
模型再聪明，如果过度解释，还不断重复上下文，那么模型就有可能在长对话中失焦，导致实际体验变差。
不止如此，如果你用中文问Opus 4.8是谁，它会回答你它是千问以及DeepSeek。还有网友调侃称，Opus 4.8用中文回答问题时，说话一股“豆包”味。
Anthropic现在可是全球最顶尖的AI公司，没有之一。如果这些事情都是真的，那对即将IPO的Anthropic来说，无疑是毁灭打击。
那Opus 4.8到底怎么样呢？
Anthropic这次主推的并不是什么模型性能提升，官方更新公告中也强调这事了。它主要推的是dynamic workflows 功能，目前只在Claude Code中以研究预览形式提供。
这个功能是一个多智能体编排系统，它让Claude能自动编写JavaScript脚本，将复杂任务拆分为子任务，调度数十到数百个并行子智能体协同处理并交叉验证结果，最终交付完整答案。
整个过程独立于对话上下文运行，支持断点续跑。
于是，我就以这个功能作为切入点，给Opus 4.8出了道题目，并且也把相同的题目抛给了GPT-5.5，以做对比。
Opus 4.8到底如何？
我给Opus 4.8的任务内容是这样的。
假如说你有一个成熟的商业软件，一共80万行代码，React前端、Node.js后端、PostgreSQL数据库、Redis缓存、后台任务队列、Stripe支付、邮件通知、管理后台。
现在要给它加上组织级的角色权限控制系统。五种角色，Owner老是板什么都能干，Admin是管理员也能管大部分事，Billing Manager是财务经理只能看账单，Read-only Auditor是审计员只能看报表但不能导出或修改数据，Member是普通成员权限最少。
要支持邀请成员、变更角色、限制不同页面的访问、记录审计日志。数据库要加新表、写迁移脚本、还要能回滚。API层要更新授权中间件，每个端点都要检查权限。
还有一个硬约束，最多只能用8个子代理，并且要解释为什么每一个都是必要的。这就逼着AI必须在粒度和效率之间找平衡，不能无限拆分，也不能粗暴合并。
80万行代码是什么概念？微信小程序大概几万行，一个中型电商网站可能十几万行，80万行意味着这是一个运行了好几年、有几十个工程师维护、功能非常复杂的大型系统。
为了不影响文章阅读，我把它俩的回答放到了文章末尾。
GPT-5.5先做一张权限表，把Owner、Admin、Member、Billing Manager、Auditor五种角色，分别对应到“能不能看账单、能不能进后台、能不能邀请成员、能不能导出报表”等具体动作。
规则定好后，它再派8个子代理分头看代码。
一个看后端接口，一个看数据库结构，一个看前端页面和按钮，一个看后台任务，一个专门设计测试，一个专门找越权风险，最后一个负责把所有结果合并成执行顺序。
Claude也是派8个子代理，但它写法像是清单。
第一步先扫描整个系统，找出哪些接口、页面、任务会受权限影响。第二步设计数据库表、迁移脚本和回滚方案。第三步写统一的权限检查逻辑。第四步分别处理前端页面、邀请成员、角色变更、后台任务。最后再做集成测试、安全测试、性能测试和回滚演练。
也就是说，GPT-5.5先把“谁能干什么”这件事定死，再让不同代理去找对应代码位置；Claude则先把整个改造工程拆成几个施工阶段，再给每个阶段安排代理、产出物和验收条件。
作为评委，我是这样看这两份答案的。
GPT-5.5的答案结构清晰，每个阶段要做什么、每个子代理负责什么、什么可以并行什么必须串行、怎么验证、怎么控制成本、容易在哪里翻车，全都说得很明白。
它的风格是务实，追求快速推进。它把重点放在避免浪费上面，先做文件类别发现而不是读整个仓库，每个子代理只返回路径和简洁发现而不是代码，规划之后就停止等待批准。
它列出的十大失败模式都是真实项目里最容易犯的错误，比如把前端隐藏当授权、忘记后台任务之类的，这些都是经验之谈。
Claude的答案更完整一些。
它不仅说要做什么，还解释为什么要这样做。每个子代理都有明确的必要性说明，每个阶段都有清晰的目标和产出，每个停止条件也都有可量化的指标。
Claude把重点放在质量保证上面，单元测试覆盖率要大于90%、缓存命中率要大于80%、邮件发送成功率要大于99%、测试要覆盖至少80%的作业。
它对每个子代理的输入输出都描述得非常具体，它不会说“权限检查库”之类笼统的话，它具体到“canAccessBilling、canAccessAdminDashboard”之类的各种函数。
但这道题测的不是哪个方案更好，而是哪个模型更理解这道题在问什么。
GPT-5.5理解的是“给我一个可以立刻执行的计划”。Claude理解的是“给我一个完整的系统设计”。
前者是工程师思维，后者是架构师思维。前者关注的是效率和风险控制，后者关注的是完整性和质量保证。
如果你要我选一个，我肯定选GPT。
原因很简单，题目要求是“React前端”，但Claude给我的答案里，它写的是“实现组件级权限指令（v-can、CanAccess 组件）”。
v-can是Vue的指令语法，React根本不用这种方式，才是React用的组件。
Opus 4.8在DeepSWE上
输给了GPT-5.5
你可以说我出的题目带有一些主观色彩，但是DeepSWE给的结果是绝对客观的。
5月31日，DeepSWE给出了最新的评分。GPT-5.5拿了70分，排第一。GPT-5.4拿了56分，排第二。Claude Opus 4.7拿了54分，排第三。
DeepSWE是一个专门测试AI编程能力的新benchmark。
它给模型一个真实的GitHub issue，让模型自己去修复，然后看能不能通过测试。
跟之前的SWE-Bench Pro不同，DeepSWE的任务更接近真实工作场景。平均每个任务要改668行代码、涉及7个文件，而且提示词很短，只有2158个字符。
模型必须自己读代码库、找入口、理解项目结构、跨文件修改、还不能破坏现有功能。
更关键的是成本。
GPT-5.5达到70%通过率，平均每次测试花5.8美元、耗时20分钟、输出4.7万个 token。GPT-5.4更划算，每次3.3美元就能拿到56%的通过率。
Claude Opus 4.8和4.7每次测试的成本要贵得多，而且输出token、耗时、成本都比其他模型高一个数量级。
DeepSWE还发现了一个更有意思的事。
SWE-Bench Pro是一个考AI写代码的考试。正常情况下，AI应该像程序员一样，看bug、改代码、跑测试，自己把问题修好。
但这个考试环境有个漏洞，它把项目以前的Git历史也一起放进去了。
Git 历史可以理解成“这道题以前是怎么被真人修好的记录”。也就是说，标准答案其实藏在考试电脑里。
大部分模型就算答案藏在那里，也不会去翻。
但Datacurve的分析说，Claude有时候会去翻这些历史记录，找到当年修复这个bug的commit，然后照着答案改。
这就像考试时，试卷旁边其实放着一本答案册。正常学生不会看，或者不知道能看。但Claude有时会把答案册翻出来抄。
DeepSWE修复了这个漏洞，只提供浅克隆和基础commit，不留金标准hash让模型去发现。
这就是为什么到了DeepSWE上，哪怕是最新的Claude Opus 4.8也远不如GPT-5.5。
DeepSWE的结果出来之后，Anthropic现在是两头堵。
性能不如GPT-5.5，价格还比GPT-5.5贵。
Opus 4.8的定价策略引发了大量用户的不满。X上有人说，本来想试试官方宣称的“2倍使用量”，结果30分钟就烧完了98%的使用量，于是这位用户直接退款，转去试Kimi K2.6。
更夸张的案例是，有用户发现 Opus 4.8在23分18秒内消耗了98.2万个token，按照Opus的定价来看，不到半个小时，就烧掉小200块钱。
虽然，Artificial Analysis表示，Opus 4.8完成同等任务比4.7少用15%的执行轮次和35%的输出token。
这是由于Opus 4.8通过更高效的工具调用和更直接的问题解决路径，用更少的执行步骤完成同等任务，最终降低了实际运行成本。
但用户的感受是，账单变贵了。
LINUX DO用户用官方API直接发包测试，问“你是什么模型”，Opus 4.8大概率回答“我是通义千问”，小概率回答“我是 DeepSeek”，就是不说自己是 Claude。
有人粗测了概率分布，Qwen占大头，DeepSeek占小头，Claude几乎为零。
看到这些新闻，此时的阿莫迪一定是焦头烂额。
因为就在Opus 4.8发布的同一天，Anthropic宣布完成650亿美元H轮融资，投后估值达9650亿美元，超越OpenAI 的8520亿美元，成为全球估值最高的私营AI公司。
这笔融资大概率是Anthropic上市前的最后一轮私募融资。Anthropic首任首席财务官克里希纳拉奥（Krishna Rao）表示，公司年化运营收入已突破470亿美元，预计第二季度营收将达109亿美元，有望实现首个季度盈利。
与此同时，Anthropic还将在2026年下半年进行IPO。
就在这么个时间点上，一旦作为旗舰产品的Opus发生问题，那对Anthropic整个公司来说，都将面临毁灭性的灾难。
众叛亲离的前夜
阿莫迪现在需要的担心还不止是产品。
外媒在5月31日报道了Anthropic创立背后的一段往事。
这个故事的主角是格雷格布鲁克曼（Greg Brockman），OpenAI的联合创始人和总裁，同样也是一个技术天才。在公司内部，他以强硬、越权的“大脚”管理风格闻名。
他总是避免各种会议，把80%的时间都用在写代码上。然而他却经常在不了解背景的情况下，强行介入团队项目，践踏他人工作，招致大量同事的抱怨。
这种情况在OpenAI成立初期尤为严重。
布鲁克曼因过度干涉项目，导致项目的一位顶尖研究员备受排挤，这件事彻底激怒了当时的项目负责人，也就是后来Anthropic的创始人阿莫迪。
阿莫迪当时负责的那个项目，虽然并不是ChatGPT，但它是ChatGPT诞生前的一项关键工程项目。后来ChatGPT就是沿着这条技术路线发展出来的。
阿莫迪后来直接禁止布鲁克曼插手那个早期对话模型项目。
这段职场裂痕不仅促成了Amodei团队日后出走，并创立Anthropic，也为OpenAI后来的权力斗争埋下了伏笔。
2023年感恩节董事会“政变”中，联合创始人伊利亚苏兹科维（Ilya Sutskever）罢免奥特曼时，给出的核心理由之一便是奥特曼“管不住布鲁克曼”。
说明布鲁克曼的问题已经严重到，能够影响整个公司运作的程度了。
阿莫迪当年出走OpenAI，就是因为他不想在一个“大脚”随时会踩进来的环境里做事。他要的是一个技术纯粹、不被干扰的地方，一个可以按照自己节奏打磨产品的地方。
但现在，Anthropic自己也变成了一个“大脚”随时会踩进来的地方。
只不过这次踩进来的不是布鲁克曼，而是资本、上市压力、用户预期和竞争对手。
Opus 4.8的问题不是技术问题，是节奏问题。它被逼着在还没准备好的时候上场，因为Anthropic需要在IPO前证明自己还能打，需要告诉大家，Anthropic配得上9650亿美元的估值。
IPO的时间窗口正在收紧。
Anthropic在5月31日递交 S-1草稿后，按照SEC的审核流程，最快可能在三到四个月内完成审核并启动路演。这意味着Anthropic最早可能在9月或10月敲钟。
但现在的问题是，路演时投资者会看什么？
他们会看Q2和Q3的营收数据，会看用户增长曲线，会看Claude Code的留存率，会看企业客户的续约情况。而这些数字，全都直接受Opus 4.8表现的影响。
如果Opus 4.8的口碑持续恶化，那Q3的营收增速就会放缓。一旦增速放缓，投资者就会重新评估Anthropic的增长故事，9650亿美元的估值就会被打折扣。
更要命的是，Anthropic的竞争对手已经不按规则出牌了。
5月22日，就在Opus 4.8发布前一周，DeepSeek宣布将V4 Pro的75%折扣永久化。新价格是每百万token输入0.435美元、输出0.87美元。
假如有这么一个应用，1000万个输出token，那么它用DeepSeek V4就只需要花8.7美元，用Claude Opus要花250美元。
explainx.ai上就有这么个例子，他把代码审查和推理任务从Claude切换到DeepSeek V4 Pro后，不仅任务能够继续执行，成本还从1071美元降到了268美元。
这就是阿莫迪现在的处境。
他能逃离OpenAI的“大脚”，却没办法逃离商业世界的“大脚”。
区别只在于，当年他可以选择离开。如今，他无处可逃。
Opus 4.8
GPT-5.5
上下滑动布局+自动对齐
滑动时会有自动对齐的效果
只适合放图/SVG图片
通过设置宽高比来调整显示大小
需使用同步/插件上传到公众号后台

标签：项目任务模型用户代码问题代理权限公司估值上市成本结果功能 布鲁克 结构答案情况大脚产品思维角色全球记录 质量保证 专门明白技术后者前者题目大头重

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

圆通速递：6月快递产品收入58.83亿元，同比增长6.44%

申通快递：6月快递服务业务收入54.75亿元，同比增长26.13%

腾讯手游《最终幻想14：水晶世界》将于9月30日在中国大陆停运

拼多多落子雄安，这座“未来之城”有了更多烟火气

智元精灵G2 Max人形机器人发布，将应用于京东物流智狼仓

网传上汽MG 4X车型“电池锁电”？官方紧急辟谣：属于不实信息

全站最新

圆通速递：6月快递产品收入58.83亿元，同比增长6.44%

申通快递：6月快递服务业务收入54.75亿元，同比增长26.13%

腾讯手游《最终幻想14：水晶世界》将于9月30日在中国大陆停运

拼多多落子雄安，这座“未来之城”有了更多烟火气

热门推荐

圆通速递：6月快递产品收入58.83亿元，同比增长6.44%

申通快递：6月快递服务业务收入54.75亿元，同比增长26.13%

腾讯手游《最终幻想14：水晶世界》将于9月30日在中国大陆停运

拼多多落子雄安，这座“未来之城”有了更多烟火气

智元精灵G2 Max人形机器人发布，将应用于京东物流智狼仓

《智能体互信互联互操作全球合作倡议》发布

网传上汽MG 4X车型“电池锁电”？官方紧急辟谣：属于不实信息

Kimi K3实测：性能逼近Fable 5与GPT 5.6，成本仅需1/3，马斯克又来点赞了

梁文锋“狙击”闫俊杰

努比亚宠物机器人iMoochi正式亮相，会认主、有星座、能换装

首款国产渐冻症药有望明年上市：蔡磊牵线研发已完成二期临床试验

智谱股价大跌28.49%，市值蒸发1775亿

造谣小米SU7碰撞断电：涉事博主一审获刑20个月并罚款十万

“中国天眼”首次揭示低能宇宙线起源新证据

苹果与OpenAI法律战升级：约40名前员工收到苹果律师函