LLM推理硬件危机:内存瓶颈远超想象,图灵奖得主提出四方向破解

2026/05/04 20:12阅读量 2

Google DeepMind与UC Berkeley图灵奖得主联合发表论文指出,LLM推理阶段(尤其是解码)的内存瓶颈比算力瓶颈更严重,现有GPU/TPU架构并不适合推理。论文提出高带宽闪存、近存计算、3D内存逻辑堆叠和低延迟互连四个方向,呼吁产业界与学术界重新合作开发专用于推理场景的评估工具。

事件概述

Google DeepMind 工程师 Xiaoyu Ma 与 UC Berkeley 教授、图灵奖得主 David Patterson 联合发表论文,系统揭示了当前大语言模型(LLM)推理面临的硬件架构危机。论文指出,现有硬件是为训练设计的,推理阶段的内存带宽瓶颈远比算力瓶颈严重,并提出四个颠覆性的硬件发展方向。

核心信息

  • 推理的硬件困境:LLM推理分为预填充(计算密集型)和解码(内存密集型)两个阶段。当前GPU/TPU以强大算力为核心,但解码阶段每次只输出一个 token,需要频繁访问内存读取权重和上下文,计算量小但内存访问开销巨大。
  • 算力与内存差距持续扩大:2012至2022年,NVIDIA GPU算力增长80倍,但内存带宽仅增长17倍。HBM(高带宽内存)成本持续上升(2023-2025年每GB容量成本涨1.35倍),而传统DDR内存成本则在下降。
  • 模型趋势加剧矛盾:MoE架构(如DeepSeek v3有256个专家)使参数总量暴增;长上下文使KV Cache内存需求激增;推理模型生成大量“思考”token拉长输出长度,三重叠加使内存瓶颈更加严峻。
  • SRAM方案失败:Cerebras、Groq等尝试用片上SRAM绕过DRAM,但因容量不足,最终仍需外挂DRAM。

值得关注的四个方向

  1. 高带宽闪存(HBF):将闪存芯片像HBM一样堆叠,带宽接近HBM(1638 GBps),但容量是HBM的十倍以上(512GB vs 48GB),每GB功耗更低。适合存储模型权重、知识库等“慢变上下文”数据,可大幅缩小推理系统尺寸。缺点是写入寿命有限、延迟高,不适用于KV Cache。

  2. 近存计算(PNM):在内存芯片旁边放置独立的小处理器,而非将处理器集成在内存芯片内部(PIM)。PNM可使用更成熟工艺,散热更好,能按更大粒度处理数据。AMD、三星、Marvell等已开始探索(如3D堆叠DRAM与逻辑芯片、AXDIMM等)。

  3. 3D内存逻辑堆叠:将处理器芯片直接堆叠在内存芯片之上,通过TSV垂直连接,大大缩短数据路径,带宽和能效可超越HBM,功耗降低2-3倍。主要挑战是散热,但可通过降低时钟频率和电压来适应解码阶段本就较低的计算强度。

  4. 低延迟互连:推理阶段数据量小但频率高,延迟比带宽更重要。可采用高连通性拓扑(树状、dragonfly)减少通信跳数。更激进的思路是“网络内计算”(如NVLink交换机支持in-switch reduction)和“非完美通信”——当消息超时时使用近似结果,只要误差小于模型自身不确定性即可大幅降低延迟。

核心启示

  • AI硬件发展方向应从堆算力转向解决内存带宽、容量和通信延迟这些推理的真正瓶颈。
  • 计算机体系结构研究社区急需一个专用于推理场景的性能模拟器,这需要产业界与学术界重新紧密合作。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。