大厂AI的三笔糊涂账:榜单水分、成本倒挂、ARR纯度存疑
文章剖析了当前AI大厂普遍面临的三笔糊涂账:能力账(榜单含水分)、成本账(API定价低于成本,单位经济性为负)、回报账(AI收入/ARR纯度存疑)。以字节跳动为典型样本,指出其虽跑得最快但未上市披露,这三笔账内部也需算清。
能力账:打榜竞赛的真实成色
过去两年,国内大模型厂商在MMLU、CEval、Chatbot Arena等数十个基准测试中频繁宣称“第一”。但业内普遍存在测试集泄漏(benchmark contamination)、选择性发布强项结果等手法,公开分数含水分。字节跳动的豆包模型也从Chatbot Arena中游冲至前列,但这类榜单更多反映用户偏好(更长、更礼貌的回答更容易赢),不等于真正的智能能力。斯坦福CRFM和加州伯克利的研究指出,主流大模型公开benchmark分数普遍含有水分。当用户口碑积累、差异化场景显现时,纸面上的“第一”与实际口碑可能出现劈叉,预期回调风险最大者将是跑得最快、声量最大的厂商。
成本账:Token经济学下的价格战与亏损
2024年5月,字节火山引擎宣布豆包通用模型pro-32k输入价格0.8元/百万Tokens,比当时行业便宜99.3%,引发全行业价格战。阿里、百度、腾讯等纷纷跟进,国内大模型API价格从0.1-0.12元/千Token跌至0.001元级别。但硅谷芯片分析机构SemiAnalysis测算,以GPT-4级别模型推理,单位全成本(含芯片折旧、电费、机房、运维)约为2-4元/百万Token。国内主流API定价1-3元/百万Token,全部贴着或低于成本线,单位经济性为负。
2025年五四青年节,豆包App开始向C端用户推收费订阅,这是一个诚实的信号:免费撑不住了。AI时代DAU意味着成本,而非收入。字节2025年资本开支约1500亿元,其中约一半投向AI算力;2026年规划资本开支1600-2000亿元。对着一份单位经济性为负的API市场和刚起步的付费产品,算力账单年达几十亿级别,字节的广告收入能补上窟窿但难以持续。OpenAI的Sam Altman也承认ChatGPT Pro 200美元/月订阅是亏钱的。当前价格战的逻辑是赌未来算力成本下降、用户规模摊薄成本、对手先撑不住,但每个赌注都不确定。
回报账:AI收入与ARR的纯度疑云
财报季,大厂纷纷晒出AI相关收入:阿里AI年化收入(ARR)达358亿元,微软Azure AI ARR为370亿美元,Google云backlog达1550亿美元。但这些数字的“纯度”值得怀疑:AI收入的定义模糊,包含所有“用了AI技术的传统云服务”(如云服务器、对象存储、向量数据库),未披露AI收入的纯度。ARR中的“经常性”面临三大挑战:大量PoC项目(技术验证后大概率不续约)、关联交易(集团内部转账算收入)、未来价格战可能导致收入腰斩。微软的370亿美元中,多少是Copilot订阅、多少是Azure OpenAI算力转售、多少是原IT预算的“AI标签化”,至今未公开拆分。在当下市场情绪中,叙事等于估值,大厂拼命将AI收入喊高以支撑股价。
字节因非上市无需披露AI收入口径,既受益于无市场噪声,也积压了风险——一旦IPO重启,市场会用同一把尺子拆解其AI收入纯度。
总结
大厂AI的三笔糊涂账——榜单水分、成本倒挂、ARR纯度存疑——揭示了当前AI行业的泡沫风险。字节作为跑得最快的样本,不上市的红利是无需披露,但内部必须算清这三笔账,否则可能成为最大的吞金黑洞。
