英伟达押注SRAM架构:AI推理进入低延迟时代,存储层级重构
在GTC 2026大会上,英伟达发布集成Groq LPU架构的推理芯片,单芯片集成500MB片上SRAM,带宽高达150TB/s,标志着AI计算重心从训练转向对低延迟敏感的推理场景。OpenAI已承诺投入300亿美元采购该算力,并确认成为首批客户。这一趋势表明SRAM将作为关键缓存层与HBM互补,重塑数据中心内存架构,利好台积电等先进制程代工厂及具备SRAM设计能力的厂商。
事件概述
2026年3月17日,在加州圣何塞SAP中心举行的GTC 2026主题演讲中,英伟达正式发布了集成Groq LPU架构的新一代推理芯片,标志着AI硬件架构因应“推理优先”趋势发生根本性转变。黄仁勋宣布,该芯片由三星电子代工,已进入生产阶段,预计今年下半年出货;OpenAI已确定为首批客户,并承诺投入300亿美元采购相关推理算力。
核心信息与技术细节
1. SRAM回归的技术逻辑
- 需求转变:随着AI应用从实验室走向大众,用户体验的核心指标已从“模型大小”和“训练速度”转向“首字生成时间(Time-to-First-Token)”和“尾时延”。德勤预测,到2026年,“推理”将占据全部AI计算能力的三分之二。
- 架构痛点:传统GPU依赖片外HBM存储参数,在逐字生成的Decode阶段,数据搬运导致高延迟和高能耗。SRAM(静态随机存取存储器)虽成本高、容量小,但具备纳秒级访问时延和确定性带宽,能显著降低访存延迟与抖动。
- 性能对比:
- Groq 3 LPU:单芯片集成500MB片上SRAM,存储带宽达150TB/s(主流GPU HBM4带宽约22TB/s)。机架级方案(Groq 3 LPX)搭载256个LPU,提供128GB片上SRAM,总推理加速带宽高达40PB/s。
- 实测表现:在Llama 3.3 70B模型测试中,Groq平台维持200-300+ token/s的稳定速度;Cerebras WSE-3芯片集成44GB SRAM,在OpenAI GPT-OSS 120B任务中实现超3000 tokens/s输出,比主流GPU快约15倍。
2. 英伟达的战略布局
- 技术路线:英伟达并未采用3D堆叠LPU于GPU核心的激进方案,而是推出独立的Groq 3 LPU推理加速器,与Rubin GPU协同构成Vera Rubin平台。未来AI芯片将形成异构内存层级:底层负责Prefill的计算晶圆,中间层通过3D堆叠提供巨大SRAM缓存用于高速Decode,侧边通过CoWoS封装大容量HBM存储KV Cache。
- 资本运作:去年12月,英伟达斥资200亿美元获得Groq知识产权的非独家授权,并吸纳其核心工程团队,以弥补GPU在串行推理场景的短板。
- 生态竞争:Cerebras近期完成10亿美元H轮融资,估值达230亿美元,并与OpenAI签署100亿美元合同部署750兆瓦定制芯片,OpenAI已在其加速器上运行GPT-5.3-Codex-Spark预览版。
3. 产业链影响与市场误读澄清
- SRAM与HBM关系:SRAM单元面积是DRAM的5-10倍,成本极高,无法替代HBM作为主内存的角色。两者是互补关系:HBM承载模型“长期记忆”,SRAM处理“瞬时反应”。内存层级细分反而扩大了市场总规模。
- 受益方转移:
- 晶圆代工:SRAM直接集成在逻辑芯片内部,高度依赖先进逻辑制程。台积电被明确点名为最大受益者,因其N3P等先进制程是打造下一代LPU的关键。
- 台湾供应链:华邦电(PSRAM业务)、力积电(3D AI Foundry策略)、钰创(38/63nm SRAM产品)及爱普(ApSRAM)因具备相关IP设计或量产能力而受到关注。
- 韩系厂商风险:市场担忧SRAM普及会减少HBM需求,但专业机构指出,由于SRAM无法承担大模型全量权重存储,HBM需求不会因此萎缩,真正风险在于GPU采购比例变化可能间接影响HBM搭载率。
