AI CEO大赛结果：仅3个模型盈利，Fable 5赚4715万美元，rule-based算法排第四

2026/06/29 16:23阅读量 2

普林斯顿大学CEO-Bench模拟让AI运营SaaS公司500天，14个AI CEO中仅4个保住本金，其中3个LLM盈利，Claude Fable 5以4715万美元夺冠。一个纯规则算法排第四，收益超多数大模型。研究指出探索策略优于保守，且通用编程Agent框架不适用于CEO场景。

事件概述

普林斯顿大学发布CEO-Bench，模拟让AI运营一家虚拟SaaS初创公司，初始本金100万美元，零客户，周期500天。目标是在模拟中最大化期末账面余额，若中途余额跌破零则破产。14个模型作为CEO参赛，最终仅4个保住本金，其中3个LLM实现正收益，一个纯规则算法排在第四。

核心数据

冠军：Claude Fable 5，期末余额4715万美元，本金翻47倍，断层领先。
亚军：Claude Opus 4.8，2780万美元。
季军：GPT-5.5，2130万美元。
第四名：纯rule-based启发式算法，赚1576万美元，超过Qwen 3.7 Max、Opus 4.7、GLM 5.2、Kimi K2.6等大模型。
破产离场：GLM 5.1、Claude Haiku 4.5、Gemini 3 Flash、DeepSeek V4 Pro、Grok 4.20等5个模型中途破产。

关键发现

探索优于谨慎：GPT-5.5和Opus 4.8不断尝试新策略（调整广告、层级、预算），而Opus 4.7采取保守削减成本策略，虽未破产但未能盈利。商业环境中仅“活着”意义不大。
编程Agent并非万金油：使用Claude Code运行Opus 4.7、Codex运行GPT-5.5后，行动次数显著减少，表现大幅下降。分析认为，编程Agent的系统提示词针对软件开发场景优化，硬套CEO角色反而成束缚。不同行业需要特定Harness框架和垂直场景深度适配。

研究启示

CEO-Bench展示了长程决策任务的复杂性：成本即时消耗但回报延迟，关键指标（客户满意度、支付意愿等）需从间接信号反推，外部环境动态变化。模型在发现隐藏信息、预测未来、快速适应变化、提前规划四个维度上的能力与其盈利能力正相关。研究指出，当前AI在“纯直觉”驱动的战略级决策（如乔布斯画2×2矩阵重构苹果产品线）方面仍无法替代人类。

阅读原文详情

事件概述

核心数据

关键发现

研究启示

准备好启动您的定制项目了吗？