GPU帝国松动:推理芯片正在重写AI算力格局
2026/07/04 05:28阅读量 5
通用GPU难以适配AI推理新需求,专用推理芯片正推动算力格局重构,行业进入多芯片分工的异构时代。Cerebras、Groq、谷歌TPU 8i、Fractile、d-Matrix、SambaNova等厂商推出不同技术路线,围绕内存墙创新,关注低延迟、低成本和高能效。英伟达通过收购Groq、构建异构系统等方式维持护城河,推理芯片市场份额已增长至74%,但格局已开始生变。
事件概述
通用GPU在AI推理阶段暴露出成本高、延迟大、难以适应分布式需求的缺陷。智能体多轮推理使token消耗成倍放大,持续运营成本高企,token经济尚未确立。HBM与先进封装瓶颈、电力机房约束下,企业开始拆分AI工作负载,将非核心任务交给专用推理芯片。推理芯片正成为与CPU、GPU并列的算力选择,甚至推理内部的预填充和解码阶段也出现芯片分化。
主要推理芯片路线
- 晶圆级计算路线(Cerebras):将整片晶圆做成巨型处理器WSE-3,拥有4万亿晶体管、125 PFLOPS算力,将跨芯片通信压缩到晶圆内部降低延迟。OpenAI已将其作为低延迟推理合作方案,分阶段上线750MW算力。
- 确定性流式LPU路线(Groq,已被英伟达收购):以片上高带宽SRAM加速token生成,英伟达将其与Rubin GPU组成异构系统(Vera Rubin NVL72+LPX),结合GPU大HBM容量与LPU高带宽以满足长上下文、高吞吐与低延迟需求。每个LPU机架拥有256个LPU、128GB SRAM、40PB/s SRAM带宽。
- 训练推理明确分化路线(谷歌TPU 8代):TPU 8t面向训练,TPU 8i专门面向推理。TPU 8i通过扩大片上SRAM(较上一代增加3倍)、新增集体加速引擎、Boardfly拓扑(1024芯片节点网络直径从16跳降到7跳)降低尾延迟,配备288GB HBM、8,601GB/s HBM带宽。
- 近内存/存内计算路线(Fractile、d-Matrix):将计算靠近或融入内存,缓解冯·诺依曼架构的数据搬运瓶颈。d-Matrix的Corsair平台宣称可在Llama3 70B单机架实现30,000 tokens/s、2ms/token性能。Fractile宣称前沿模型推理速度提升25倍、成本降至1/10,但商业可用性预计到2027年。
- 异构分工路线(英特尔+SambaNova):明确采用GPU做预填充、SambaNova RDU(第五代SN50)做高吞吐解码、Xeon 6 CPU做工具编排。SambaNova RDU采用数据流架构和三层内存架构,支持模型驻留和快速切换。
- Etched(新披露):为Transformer定制芯片,放弃通用性换取效率,在台积电4nm完成流片,声称能让万亿参数级稀疏MoE在80%以上峰值FLOPs下运行。采用HBM/SRAM混合设计的集群规模内存,首批机架将于2025年夏季交付。
新方案的核心共识与挑战
共识:
- 围绕“内存墙”创新,不再以FLOPS为核心指标,关注首token延迟、单位token成本、单位能耗产出、高并发下延迟保持等。
- 普遍采用“数据流化”设计(将模型图映射到硬件流水线)。
- 都作为异构算力的组成部分,训练、预填充、解码、KV缓存等任务分工明确。
- 核心目标是服务智能体推理的低延迟解码需求。
挑战:
- SRAM低容量高成本,无法解决全场景模型容量需求。
- 软件生态迁移难度大(CUDA、PyTorch、vLLM等生态依赖)。
- 低延迟与高吞吐存在天然矛盾,不同场景需权衡。
- 创新架构面临量产良率、数据中心适配等供应链考验。
英伟达的护城河
推理芯片创新推动市场碎片化,但未直接动摇英伟达核心优势。英伟达护城河已从GPU芯片扩展到软硬协同生态(CUDA、系统级优化)和战略防御纵深(从供应链到应用)。通过资产负债表支持生态项目锁定客户与技术。黄仁勋预判格局变化,通过收购Groq、推出Vera Rubin+LPX异构方案,将推理创新内化到自身系统。目前英伟达在推理芯片市场份额已增长至74%。
参考文献
- Groq与英伟达非独家推理技术许可协议
- SambaNova SN50 RDU产品介绍
- OpenAI与Cerebras合作伙伴关系
- Cerebras WSE-3芯片与系统规格
- NVIDIA Groq 3 LPX推理加速器
- NVIDIA Vera Rubin POD技术博客
- Google Cloud TPU 8t/8i技术深度解读
