LLM推理硬件危机：内存瓶颈远超想象，图灵奖得主提出四方向破解

2026/05/04 20:12阅读量 2

Google DeepMind与UC Berkeley图灵奖得主联合发表论文指出，LLM推理阶段（尤其是解码）的内存瓶颈比算力瓶颈更严重，现有GPU/TPU架构并不适合推理。论文提出高带宽闪存、近存计算、3D内存逻辑堆叠和低延迟互连四个方向，呼吁产业界与学术界重新合作开发专用于推理场景的评估工具。

事件概述

Google DeepMind 工程师 Xiaoyu Ma 与 UC Berkeley 教授、图灵奖得主 David Patterson 联合发表论文，系统揭示了当前大语言模型（LLM）推理面临的硬件架构危机。论文指出，现有硬件是为训练设计的，推理阶段的内存带宽瓶颈远比算力瓶颈严重，并提出四个颠覆性的硬件发展方向。

核心信息

推理的硬件困境：LLM推理分为预填充（计算密集型）和解码（内存密集型）两个阶段。当前GPU/TPU以强大算力为核心，但解码阶段每次只输出一个 token，需要频繁访问内存读取权重和上下文，计算量小但内存访问开销巨大。
算力与内存差距持续扩大：2012至2022年，NVIDIA GPU算力增长80倍，但内存带宽仅增长17倍。HBM（高带宽内存）成本持续上升（2023-2025年每GB容量成本涨1.35倍），而传统DDR内存成本则在下降。
模型趋势加剧矛盾：MoE架构（如DeepSeek v3有256个专家）使参数总量暴增；长上下文使KV Cache内存需求激增；推理模型生成大量“思考”token拉长输出长度，三重叠加使内存瓶颈更加严峻。
SRAM方案失败：Cerebras、Groq等尝试用片上SRAM绕过DRAM，但因容量不足，最终仍需外挂DRAM。

值得关注的四个方向

高带宽闪存（HBF）：将闪存芯片像HBM一样堆叠，带宽接近HBM（1638 GBps），但容量是HBM的十倍以上（512GB vs 48GB），每GB功耗更低。适合存储模型权重、知识库等“慢变上下文”数据，可大幅缩小推理系统尺寸。缺点是写入寿命有限、延迟高，不适用于KV Cache。
近存计算（PNM）：在内存芯片旁边放置独立的小处理器，而非将处理器集成在内存芯片内部（PIM）。PNM可使用更成熟工艺，散热更好，能按更大粒度处理数据。AMD、三星、Marvell等已开始探索（如3D堆叠DRAM与逻辑芯片、AXDIMM等）。
3D内存逻辑堆叠：将处理器芯片直接堆叠在内存芯片之上，通过TSV垂直连接，大大缩短数据路径，带宽和能效可超越HBM，功耗降低2-3倍。主要挑战是散热，但可通过降低时钟频率和电压来适应解码阶段本就较低的计算强度。
低延迟互连：推理阶段数据量小但频率高，延迟比带宽更重要。可采用高连通性拓扑（树状、dragonfly）减少通信跳数。更激进的思路是“网络内计算”（如NVLink交换机支持in-switch reduction）和“非完美通信”——当消息超时时使用近似结果，只要误差小于模型自身不确定性即可大幅降低延迟。

核心启示

AI硬件发展方向应从堆算力转向解决内存带宽、容量和通信延迟这些推理的真正瓶颈。
计算机体系结构研究社区急需一个专用于推理场景的性能模拟器，这需要产业界与学术界重新紧密合作。

阅读原文详情

事件概述

核心信息

值得关注的四个方向

核心启示

准备好启动您的定制项目了吗？