都在说缺算力,90%的AI芯片却被“浪费”了?
2026/06/27 18:11阅读量 2
当前AI行业普遍喊缺算力,但实际上大量AI芯片利用率极低,前沿实验室GPU利用率不足10%。GPU因存储IO瓶颈有30%-65%时间处于“数据饥饿”闲置状态,且闲置时仍大量耗电。专家指出,若将利用率从10%提升至60%,等效算力可扩大6倍,AI竞赛正从拼规模转向拼效率。
核心事实
- 巨量采购下的算力浪费:Epoch AI估算,到2025年底OpenAI等效算力约170万块H100,两年暴增17倍。但前沿实验室GPU利用率可能不足10%,超过75%的企业在峰值负载下GPU利用率低于70%,VentureBeat判断95%的AI基础设施开支被浪费。
- 结构性闲置原因:AI训练中GPU有30%-65%的时间因存储IO速度跟不上计算速度而处于“数据饥饿”闲置状态。即使处于深层空闲状态,GPU仍大量耗电(数据中心40%功耗来自GPU)。通用监控指标(如集群级SM利用率)无法反映真实能效,大量计算周期用于数据搬运、等待通信等无效计算。
效率破局方向
- “产出最大化”路径:顶尖团队模型浮点运算利用率(MFU)最高达60%-70%,行业均值远低于此。若普通团队将利用率从10%提升至60%,无需额外投入即可将有效算力扩大6倍。
- 历史类比:2000年代初期物理服务器利用率仅10%-15%,经虚拟化、容器化技术提升至60%-70%,催生万亿美元云计算产业。当前AI算力处于类似2005年服务器市场的效率转型拐点。
- 商业模式倒逼:早期固定费用许可和“捆绑Token”模式鼓励浪费,随行业转向按使用量计费,闲置成本成为紧急事项。同时环境成本也在推动效率革命。
范式转移
AI竞赛的护城河正从“谁能买到更多算力”转向“谁能从同等算力中榨取更多智能”。前者是资本消耗战,后者是依赖技术理解的工程精密战。未来关键问题将从“能制造多少算力”转向“已有多少算力真正用于产生智能”。
