英伟达押注SRAM架构：AI推理进入低延迟时代，存储层级重构

2026/03/18 13:09阅读量 55

在GTC 2026大会上，英伟达发布集成Groq LPU架构的推理芯片，单芯片集成500MB片上SRAM，带宽高达150TB/s，标志着AI计算重心从训练转向对低延迟敏感的推理场景。OpenAI已承诺投入300亿美元采购该算力，并确认成为首批客户。这一趋势表明SRAM将作为关键缓存层与HBM互补，重塑数据中心内存架构，利好台积电等先进制程代工厂及具备SRAM设计能力的厂商。

事件概述

2026年3月17日，在加州圣何塞SAP中心举行的GTC 2026主题演讲中，英伟达正式发布了集成Groq LPU架构的新一代推理芯片，标志着AI硬件架构因应“推理优先”趋势发生根本性转变。黄仁勋宣布，该芯片由三星电子代工，已进入生产阶段，预计今年下半年出货；OpenAI已确定为首批客户，并承诺投入300亿美元采购相关推理算力。

核心信息与技术细节

1. SRAM回归的技术逻辑

需求转变：随着AI应用从实验室走向大众，用户体验的核心指标已从“模型大小”和“训练速度”转向“首字生成时间（Time-to-First-Token）”和“尾时延”。德勤预测，到2026年，“推理”将占据全部AI计算能力的三分之二。
架构痛点：传统GPU依赖片外HBM存储参数，在逐字生成的Decode阶段，数据搬运导致高延迟和高能耗。SRAM（静态随机存取存储器）虽成本高、容量小，但具备纳秒级访问时延和确定性带宽，能显著降低访存延迟与抖动。
性能对比：
- Groq 3 LPU：单芯片集成500MB片上SRAM，存储带宽达150TB/s（主流GPU HBM4带宽约22TB/s）。机架级方案（Groq 3 LPX）搭载256个LPU，提供128GB片上SRAM，总推理加速带宽高达40PB/s。
- 实测表现：在Llama 3.3 70B模型测试中，Groq平台维持200-300+ token/s的稳定速度；Cerebras WSE-3芯片集成44GB SRAM，在OpenAI GPT-OSS 120B任务中实现超3000 tokens/s输出，比主流GPU快约15倍。

2. 英伟达的战略布局

技术路线：英伟达并未采用3D堆叠LPU于GPU核心的激进方案，而是推出独立的Groq 3 LPU推理加速器，与Rubin GPU协同构成Vera Rubin平台。未来AI芯片将形成异构内存层级：底层负责Prefill的计算晶圆，中间层通过3D堆叠提供巨大SRAM缓存用于高速Decode，侧边通过CoWoS封装大容量HBM存储KV Cache。
资本运作：去年12月，英伟达斥资200亿美元获得Groq知识产权的非独家授权，并吸纳其核心工程团队，以弥补GPU在串行推理场景的短板。
生态竞争：Cerebras近期完成10亿美元H轮融资，估值达230亿美元，并与OpenAI签署100亿美元合同部署750兆瓦定制芯片，OpenAI已在其加速器上运行GPT-5.3-Codex-Spark预览版。

3. 产业链影响与市场误读澄清

SRAM与HBM关系：SRAM单元面积是DRAM的5-10倍，成本极高，无法替代HBM作为主内存的角色。两者是互补关系：HBM承载模型“长期记忆”，SRAM处理“瞬时反应”。内存层级细分反而扩大了市场总规模。
受益方转移：
- 晶圆代工：SRAM直接集成在逻辑芯片内部，高度依赖先进逻辑制程。台积电被明确点名为最大受益者，因其N3P等先进制程是打造下一代LPU的关键。
- 台湾供应链：华邦电（PSRAM业务）、力积电（3D AI Foundry策略）、钰创（38/63nm SRAM产品）及爱普（ApSRAM）因具备相关IP设计或量产能力而受到关注。
韩系厂商风险：市场担忧SRAM普及会减少HBM需求，但专业机构指出，由于SRAM无法承担大模型全量权重存储，HBM需求不会因此萎缩，真正风险在于GPU采购比例变化可能间接影响HBM搭载率。

阅读原文详情

事件概述

核心信息与技术细节

1. SRAM回归的技术逻辑

2. 英伟达的战略布局

3. 产业链影响与市场误读澄清

准备好启动您的定制项目了吗？