AI CEO大赛结果:仅3个模型盈利,Fable 5赚4715万美元,rule-based算法排第四

2026/06/29 16:23阅读量 2

普林斯顿大学CEO-Bench模拟让AI运营SaaS公司500天,14个AI CEO中仅4个保住本金,其中3个LLM盈利,Claude Fable 5以4715万美元夺冠。一个纯规则算法排第四,收益超多数大模型。研究指出探索策略优于保守,且通用编程Agent框架不适用于CEO场景。

事件概述

普林斯顿大学发布CEO-Bench,模拟让AI运营一家虚拟SaaS初创公司,初始本金100万美元,零客户,周期500天。目标是在模拟中最大化期末账面余额,若中途余额跌破零则破产。14个模型作为CEO参赛,最终仅4个保住本金,其中3个LLM实现正收益,一个纯规则算法排在第四。

核心数据

  • 冠军:Claude Fable 5,期末余额4715万美元,本金翻47倍,断层领先。
  • 亚军:Claude Opus 4.8,2780万美元。
  • 季军:GPT-5.5,2130万美元。
  • 第四名:纯rule-based启发式算法,赚1576万美元,超过Qwen 3.7 Max、Opus 4.7、GLM 5.2、Kimi K2.6等大模型。
  • 破产离场:GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20等5个模型中途破产。

关键发现

  1. 探索优于谨慎:GPT-5.5和Opus 4.8不断尝试新策略(调整广告、层级、预算),而Opus 4.7采取保守削减成本策略,虽未破产但未能盈利。商业环境中仅“活着”意义不大。
  2. 编程Agent并非万金油:使用Claude Code运行Opus 4.7、Codex运行GPT-5.5后,行动次数显著减少,表现大幅下降。分析认为,编程Agent的系统提示词针对软件开发场景优化,硬套CEO角色反而成束缚。不同行业需要特定Harness框架和垂直场景深度适配。

研究启示

CEO-Bench展示了长程决策任务的复杂性:成本即时消耗但回报延迟,关键指标(客户满意度、支付意愿等)需从间接信号反推,外部环境动态变化。模型在发现隐藏信息、预测未来、快速适应变化、提前规划四个维度上的能力与其盈利能力正相关。研究指出,当前AI在“纯直觉”驱动的战略级决策(如乔布斯画2×2矩阵重构苹果产品线)方面仍无法替代人类。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。