马斯克55万块GPU利用率仅11%，AI算力浪费揭示集群调度难题

2026/05/05 12:05阅读量 2

xAI运营约55万块英伟达H100/H200 GPU，但模型算力利用率仅11%，相当于只有6万块GPU实际生效。瓶颈在于超大规模集群中高带宽内存读写和跨服务器通信延迟，以及训练间歇性闲置。行业普遍存在算力浪费，部分团队故意跑无意义任务刷高利用率。xAI计划通过软件优化将利用率提升至50%，并推进自研芯片项目。

事件概述

马斯克旗下xAI在Memphis和Colossus数据中心部署了约55万块英伟达H100/H200 GPU（上代产品），但模型算力利用率（MFU）仅11%，相当于实际可用算力仅约6万块GPU。该数据由《The Information》报道，暴露了超大规模AI集群的调度与优化难题。

核心信息

低利用率原因：在十万级GPU集群中，高带宽内存（HBM）读写速度和跨服务器网络通信成为瓶颈。数据微延迟会导致GPU频繁等待；同时训练间歇性（参数调整、数据分析时GPU闲置）进一步拉低利用率。
行业潜规则：算力浪费是普遍现象。部分大厂研究人员为避免配额被抢或受管理层批评，会故意重复运行无意义任务来刷高利用率数据。
对比与目标：Meta和谷歌通过深度优化实现43%-46%的利用率，而xAI的11%显著偏低。xAI已设定利用率达50%的目标，但暂无具体时间表。
后续举措：xAI将聚焦基础设施与软件堆栈优化，并推进自研芯片项目“TeraFab”，拟采用英特尔14A制程技术构建专用硬件平台，未来可能开放GPU租赁服务。

值得关注

该案例表明AI竞赛已从“买到GPU”转向“用好GPU”。硬件规模（55万块）远超现有软件架构的调度能力，全局优化需覆盖数据、算法、网络等多环节。xAI的困境为行业敲响警钟：效率成为下一阶段核心竞争力。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？