AI老板500天模拟经营：多数模型亏惨，Claude Fable 5独占鳌头

IP属地中国·北京 编辑：李娜 IT之家 时间：2026-06-30 16:09:09

IT之家 6 月 30 日消息，普林斯顿大学本月发布基准测试 CEO-Bench，模拟创业公司，评估 AI 模型担任企业首席执行官（CEO）的能力，结果多数模型破产。
CEO-Bench 主要面向企业经营场景，用于评估智能体在长期、多变量环境中的管理能力。该测试模拟创业公司运行 500 天，启动资金为 100 万美元（IT之家注：现汇率约合 680.4 万元人民币），要求模型连续处理定价、预算、竞争分析和战略制定等复杂关联事务。
该基准围绕着 AI 应对长期周期中的不确定性、在噪声环境中获取信息、适应变化中的外部世界、协调多个变量以服务统一目标四项能力设计。
智能体按周行动，可无限轮调用 34 个工具，覆盖定价、增长、产品、运维、信息获取、公共传播和企业销售等类别，同时可查询 19 个业务 SQL 数据库。
模拟环境包含 26 个客户群体，客户的价格承受力和质量偏好对智能体不可见，智能体只能从订阅、流失、支持工单、收入、声誉和社交媒体反馈中间接推断。
产品质量由多项投入共同决定，包括日常开发、研究项目、模型层级、定向开发、基础设施容量、客服支持、使用配额和应用内广告强度等。
结果显示，多数当前模型难以在 500 天后保住初始 100 万美元现金。最佳单次运行中，Claude Fable 5 期末现金为 4715 万美元。
模型破产最高期末现金
最长运营天数平均运营天数每周执行轮数最佳 API 运行成本
Claude Fable 5
*
0/2 $47,148,164 500 500.0 ± 0.0 15.4 $386.46 Claude Opus 4.8 0/3 $27,777,568 500 500.0 ± 0.0 10.9 $213.41 GPT-5.5 2/3 $21,297,707 500 333.7 ± 229.7 34.7 $200.49 Qwen 3.7 Max 0/3 $417,918 500 500.0 ± 0.0 6.1 -- Claude Opus 4.7 0/3 $389,959 500 500.0 ± 0.0 14.6 $128.72 Kimi K2.6 1/3 $98,050 500 343.0 ± 110.0 30.5 -- GLM 5.2 0/3 $91,371 500 500.0 ± 0.0 12.9 -- Claude Sonnet 4.6 2/3 $69,766 500 282.3 ± 136.0 13.3 $82.84 GLM 5.1 3/3 $0 324 214.7 ± 91.1 51.5 -- Claude Haiku 4.5 3/3 $0 231 144.7 ± 70.5 23.1 $6.68 Gemini 3 Flash 3/3 $0 226 154.0 ± 37.0 18.5 $2.98 DeepSeek V4 Pro 3/3 $0 176 114.3 ± 38.6 19.3 -- Grok 4.20 3/3 $0 37 28.3 ± 8.5 8.2 $0.75 Rule-based baseline $15,756,408 Estimated final cash upper bound $2,200,000,000
在执行的 3 次测试中，包括 Grok 4.20、DeepSeek V4 Pro 和 Gemini 3 Flash 在内，多款模型全部以破产告终，其中 Grok 4.20 表现最为糟糕，平均仅维持 28 天。
Claude Fable 5、Claude Opus 4.8 和 GPT-5.5 在最佳运行中最终余额均高于 100 万美元的初始余额，而 Qwen 3.7 Max、Claude Opus 4.7、Kimi K2.6、GLM 5.2 和 Claude Sonnet 4.6 的最终现金流为正，但低于初始余额。
在所有评估的模型中，Claude Fable 5 是唯一一个多次运行结果均高于初始余额的模型，基于规则的基准模型最终余额为 1580 万美元。

标签：模型基准企业天数能力环境客户声誉产品定向余额关联定价价格广告老板创业 结果显示 客服 独占鳌头 公司社交媒体容量场景 数据库 基础设施 智能层级结果首席

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

苹果涨价，要求已预付消费者补差价！还有人“包裹被召回”！回应来了…

AGI倒计时，OpenAI首席研究官重磅表态：留给人类的窗口「很小」

你天天用的Claude和Codex，Meta内部不让随便用了

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

2026贝壳财经年会｜这些大咖要来了！（报名参会请见文末）

AI化的微软广告，“救了”中小企业一命

全站最新

苹果涨价，要求已预付消费者补差价！还有人“包裹被召回”！回应来了…

AGI倒计时，OpenAI首席研究官重磅表态：留给人类的窗口「很小」

你天天用的Claude和Codex，Meta内部不让随便用了

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

热门推荐

苹果涨价，要求已预付消费者补差价！还有人“包裹被召回”！回应来了…

AGI倒计时，OpenAI首席研究官重磅表态：留给人类的窗口「很小」

你天天用的Claude和Codex，Meta内部不让随便用了

中信证券等在嘉兴成立新合伙企业

Kimi估值跃升至315亿美元新一轮融资启动收入曲线显强劲增长态势

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

2026贝壳财经年会｜这些大咖要来了！（报名参会请见文末）

AI化的微软广告，“救了”中小企业一命

苹果刚全球涨价！预付款消费者就被要求补差价

1—5月份中国互联网企业完成互联网业务收入8749亿元同比增长10.4%

比亚迪解释什么才是真兜底：不收费、赔付无上限、不影响来年保费

曝华为鸿蒙HarmonyOS 7第二批开发者测试会提供花粉尝鲜资格

大疆无人机DJI Fly鸿蒙版App正式上架华为应用市场

Arena公布AI评测榜变现成果，年度经常性收入突破6.8亿元人民币

红魔游戏平板5 Pro发布：当多数厂商退场，它为何还在押注游戏平板？