被遗忘十年的LPU翻红:推理时代的新工种,还是独立公司的一门难生意?
2026/06/25 17:45阅读量 2
随着AI从训练转向推理,通用GPU架构触及效率边界,专业化分工成为趋势。Groq的LPU(语言处理单元)被英伟达纳入Vera Rubin平台,标志着专用推理芯片首次进入主流AI基础设施体系。LPU凭借编译器静态调度和高带宽SRAM(单颗150 TB/s)在低延迟推理上表现突出,但其容量小、成本高、对动态模型架构适配不足等争议持续存在。市场对独立LPU公司前景持谨慎态度:最需要LPU的大客户可能自研,市场培育周期长,且商业模式依赖于短期内找到愿意买单的客户。
事件概述
当AI从训练转向推理时代,单一通用架构(GPU)开始触及效率瓶颈,芯片行业形成专业化分工共识。Groq LPU(语言处理单元)被英伟达纳入新一代Vera Rubin平台,以LPX系统形式专攻Transformer推理中的FFN(前馈神经网络)工作流,GPU与LPU协同运行的方案成为现实。这标志着推理基础设施开始接受不同芯片处理不同任务,LPU这一曾被忽视十年的技术路线重新进入主流视野。
核心讨论:LPU的两张王牌与争议
1. 编译器及静态调度能力
- Groq编译器能实现多芯片、机柜间、集群间的精确编排,被部分专家认为是LPU最深的护城河。
- 但反对观点认为:Transformer算子高度收敛,编译器优化空间收窄;MoE等动态架构使全静态系统在推理时无法提前获知专家组合,必须先为最坏情况预留冗余,部分理论优势被抵消。
2. 高带宽SRAM
- 单颗Groq 3 LPU集成约500MB SRAM,带宽达150 TB/s,约为H100 HBM3的45倍;256颗LPU组成的LPX机柜总带宽达40 PB/s。
- 高带宽可绕开HBM供应链瓶颈——HBM占AI芯片组件成本已从2024年初的52%升至2025年底的63%。
- 争议点:SRAM容量小(几百MB vs HBM几十GB),且单位成本远高于DRAM(6晶体管 vs 1晶体管+1电容)。一方认为SRAM像“法拉利”,性能好但性价比低;另一方则认为,在容量差距面前,HBM总成本反而更高,且单位 Token 成本才是更优评价指标。
3. 评价体系的切换
- 行业正从“系统成本”(多少张卡部署模型)转向“Token成本”。更大的集群虽增加系统成本,但可带来更高带宽与更低单位Token成本,SRAM的价值因此被重新衡量。
商业化前景:独立公司能活下去吗?
- 利好因素:Groq已拿下沙特推理基础设施项目、欧洲算力中心部署,并进入Meta Llama生态;异构推理方案(如Attention与FFN解耦)趋势下,研发成本可通过规模摊薄。
- 挑战:最需要LPU的大模型公司和互联网大厂有能力自研,潜在客户可能变成竞争对手;市场培育周期长(CPU/GPU普及历经十年),LPU作为高度专用化ASIC依赖当前主流模型架构,存在被替代风险。多位业内人士认为,独立LPU公司需要找到类似“大众”(通用需求)的基础客户,而非仅提供“法拉利”式的高性能方案。
整体来看,LPU已获得推理时代的入场券,但能否成为独立公司长期盈利的生意,仍取决于能否在市场成熟前找到稳定客户、场景与生态。
