被遗忘十年的LPU翻红：推理时代的新工种，还是独立公司的一门难生意？

2026/06/25 17:45阅读量 2

随着AI从训练转向推理，通用GPU架构触及效率边界，专业化分工成为趋势。Groq的LPU（语言处理单元）被英伟达纳入Vera Rubin平台，标志着专用推理芯片首次进入主流AI基础设施体系。LPU凭借编译器静态调度和高带宽SRAM（单颗150 TB/s）在低延迟推理上表现突出，但其容量小、成本高、对动态模型架构适配不足等争议持续存在。市场对独立LPU公司前景持谨慎态度：最需要LPU的大客户可能自研，市场培育周期长，且商业模式依赖于短期内找到愿意买单的客户。

事件概述

当AI从训练转向推理时代，单一通用架构（GPU）开始触及效率瓶颈，芯片行业形成专业化分工共识。Groq LPU（语言处理单元）被英伟达纳入新一代Vera Rubin平台，以LPX系统形式专攻Transformer推理中的FFN（前馈神经网络）工作流，GPU与LPU协同运行的方案成为现实。这标志着推理基础设施开始接受不同芯片处理不同任务，LPU这一曾被忽视十年的技术路线重新进入主流视野。

核心讨论：LPU的两张王牌与争议

1. 编译器及静态调度能力

Groq编译器能实现多芯片、机柜间、集群间的精确编排，被部分专家认为是LPU最深的护城河。
但反对观点认为：Transformer算子高度收敛，编译器优化空间收窄；MoE等动态架构使全静态系统在推理时无法提前获知专家组合，必须先为最坏情况预留冗余，部分理论优势被抵消。

2. 高带宽SRAM

单颗Groq 3 LPU集成约500MB SRAM，带宽达150 TB/s，约为H100 HBM3的45倍；256颗LPU组成的LPX机柜总带宽达40 PB/s。
高带宽可绕开HBM供应链瓶颈——HBM占AI芯片组件成本已从2024年初的52%升至2025年底的63%。
争议点：SRAM容量小（几百MB vs HBM几十GB），且单位成本远高于DRAM（6晶体管 vs 1晶体管+1电容）。一方认为SRAM像“法拉利”，性能好但性价比低；另一方则认为，在容量差距面前，HBM总成本反而更高，且单位 Token 成本才是更优评价指标。

3. 评价体系的切换

行业正从“系统成本”（多少张卡部署模型）转向“Token成本”。更大的集群虽增加系统成本，但可带来更高带宽与更低单位Token成本，SRAM的价值因此被重新衡量。

商业化前景：独立公司能活下去吗？

利好因素：Groq已拿下沙特推理基础设施项目、欧洲算力中心部署，并进入Meta Llama生态；异构推理方案（如Attention与FFN解耦）趋势下，研发成本可通过规模摊薄。
挑战：最需要LPU的大模型公司和互联网大厂有能力自研，潜在客户可能变成竞争对手；市场培育周期长（CPU/GPU普及历经十年），LPU作为高度专用化ASIC依赖当前主流模型架构，存在被替代风险。多位业内人士认为，独立LPU公司需要找到类似“大众”（通用需求）的基础客户，而非仅提供“法拉利”式的高性能方案。

整体来看，LPU已获得推理时代的入场券，但能否成为独立公司长期盈利的生意，仍取决于能否在市场成熟前找到稳定客户、场景与生态。

阅读原文详情