GPU帝国松动：推理芯片正在重写AI算力格局

2026/07/04 05:28阅读量 5

通用GPU难以适配AI推理新需求，专用推理芯片正推动算力格局重构，行业进入多芯片分工的异构时代。Cerebras、Groq、谷歌TPU 8i、Fractile、d-Matrix、SambaNova等厂商推出不同技术路线，围绕内存墙创新，关注低延迟、低成本和高能效。英伟达通过收购Groq、构建异构系统等方式维持护城河，推理芯片市场份额已增长至74%，但格局已开始生变。

事件概述

通用GPU在AI推理阶段暴露出成本高、延迟大、难以适应分布式需求的缺陷。智能体多轮推理使token消耗成倍放大，持续运营成本高企，token经济尚未确立。HBM与先进封装瓶颈、电力机房约束下，企业开始拆分AI工作负载，将非核心任务交给专用推理芯片。推理芯片正成为与CPU、GPU并列的算力选择，甚至推理内部的预填充和解码阶段也出现芯片分化。

主要推理芯片路线

晶圆级计算路线（Cerebras）：将整片晶圆做成巨型处理器WSE-3，拥有4万亿晶体管、125 PFLOPS算力，将跨芯片通信压缩到晶圆内部降低延迟。OpenAI已将其作为低延迟推理合作方案，分阶段上线750MW算力。
确定性流式LPU路线（Groq，已被英伟达收购）：以片上高带宽SRAM加速token生成，英伟达将其与Rubin GPU组成异构系统（Vera Rubin NVL72+LPX），结合GPU大HBM容量与LPU高带宽以满足长上下文、高吞吐与低延迟需求。每个LPU机架拥有256个LPU、128GB SRAM、40PB/s SRAM带宽。
训练推理明确分化路线（谷歌TPU 8代）：TPU 8t面向训练，TPU 8i专门面向推理。TPU 8i通过扩大片上SRAM（较上一代增加3倍）、新增集体加速引擎、Boardfly拓扑（1024芯片节点网络直径从16跳降到7跳）降低尾延迟，配备288GB HBM、8,601GB/s HBM带宽。
近内存/存内计算路线（Fractile、d-Matrix）：将计算靠近或融入内存，缓解冯·诺依曼架构的数据搬运瓶颈。d-Matrix的Corsair平台宣称可在Llama3 70B单机架实现30,000 tokens/s、2ms/token性能。Fractile宣称前沿模型推理速度提升25倍、成本降至1/10，但商业可用性预计到2027年。
异构分工路线（英特尔+SambaNova）：明确采用GPU做预填充、SambaNova RDU（第五代SN50）做高吞吐解码、Xeon 6 CPU做工具编排。SambaNova RDU采用数据流架构和三层内存架构，支持模型驻留和快速切换。
Etched（新披露）：为Transformer定制芯片，放弃通用性换取效率，在台积电4nm完成流片，声称能让万亿参数级稀疏MoE在80%以上峰值FLOPs下运行。采用HBM/SRAM混合设计的集群规模内存，首批机架将于2025年夏季交付。

新方案的核心共识与挑战

共识：

围绕“内存墙”创新，不再以FLOPS为核心指标，关注首token延迟、单位token成本、单位能耗产出、高并发下延迟保持等。
普遍采用“数据流化”设计（将模型图映射到硬件流水线）。
都作为异构算力的组成部分，训练、预填充、解码、KV缓存等任务分工明确。
核心目标是服务智能体推理的低延迟解码需求。

挑战：

SRAM低容量高成本，无法解决全场景模型容量需求。
软件生态迁移难度大（CUDA、PyTorch、vLLM等生态依赖）。
低延迟与高吞吐存在天然矛盾，不同场景需权衡。
创新架构面临量产良率、数据中心适配等供应链考验。

英伟达的护城河

推理芯片创新推动市场碎片化，但未直接动摇英伟达核心优势。英伟达护城河已从GPU芯片扩展到软硬协同生态（CUDA、系统级优化）和战略防御纵深（从供应链到应用）。通过资产负债表支持生态项目锁定客户与技术。黄仁勋预判格局变化，通过收购Groq、推出Vera Rubin+LPX异构方案，将推理创新内化到自身系统。目前英伟达在推理芯片市场份额已增长至74%。

参考文献

Groq与英伟达非独家推理技术许可协议
SambaNova SN50 RDU产品介绍
OpenAI与Cerebras合作伙伴关系
Cerebras WSE-3芯片与系统规格
NVIDIA Groq 3 LPX推理加速器
NVIDIA Vera Rubin POD技术博客
Google Cloud TPU 8t/8i技术深度解读

阅读原文详情

事件概述

主要推理芯片路线

新方案的核心共识与挑战

英伟达的护城河

参考文献

准备好启动您的定制项目了吗？