云厂商集体自研NPU，英伟达GPU垄断地位面临重构

2026/04/24 09:41阅读量 4

谷歌在Google Cloud Next活动上发布第八代TPU芯片（TPU8t/TPU8i），性能大幅提升，标志着AI算力重心从训练向推理转移。亚马逊、微软及国内阿里、百度等云厂商纷纷布局自研NPU，旨在降低算力成本并摆脱对英伟达的依赖。尽管英伟达凭借CUDA生态仍具优势，但专用NPU通过“去通用化”设计正在重塑AI算力架构与商业模式。

事件概述

美国时间4月22日，谷歌在Google Cloud Next活动上正式推出两款第八代NPU芯片：TPU8t（用于AI训练）和TPU8i（用于AI推理）。这一动作被视为云厂商集体自研芯片、挑战英伟达（NVIDIA）十年统治地位的关键信号。

核心数据与进展

性能突破：
- TPU8t每瓦性能较前代提升124%。
- TPU8i每瓦性能提升117%，每美元性能提升80%。
技术规格升级：
- 内存墙突破：TPU8i的HBM容量从216GB增至288GB，带宽从6528GB/s提升至8601GB/s，片上SRAM提升三倍至384MB。
- 集群规模：支持集群规模从数万颗扩展至13.4万颗，最大可连接100万颗芯片。
供应链与合作：
- TPU8t由**博通（Broadcom）设计，TPU8i由联发科（MediaTek）**设计。
- 两颗芯片均基于台积电2nm工艺，预计于2027年底量产。

行业趋势：云厂商“去英伟达化”浪潮

全球云服务巨头正加速构建自有NPU生态，不再满足于单纯采购英伟达硬件：

国际巨头：
- 亚马逊（AWS）：2018年发布首款推理NPU Inferentia1，2023年推出Inferentia2及训练用Trainium3。
- 微软（Azure）：2023年发布云端NPU Maia 100，今年初推出Maia 200。
中国厂商：
- 阿里巴巴：2019年发布含光800 NPU。
- 百度：2018年起迭代昆仑芯至第三代。
- 字节跳动：计划于2026年3月底前交付代号SeedChip的首批自研NPU样品，专为AI推理设计。

技术逻辑：从“通用并行”到“专用加速”

NPU（Neural Processing Unit）的本质是ASIC（专用集成电路），与GPU存在根本性差异：

特性	GPU (通用计算)	NPU/ASIC (专用计算)
设计逻辑	通用并行架构，擅长大规模并行计算	针对特定任务（如神经网络）定制，数据流固定
灵活性	高，通过软件（如CUDA）调度任务	低，功能固化在硅片中，难以更改
能效比	较低，功耗高，单价高	极高，功耗低，单价低
定位	图形渲染、通用AI训练与推理	专注AI推理或特定训练场景

战略影响与未来展望

算力重心转移：行业预测到2030年，75%-80%的AI算力将用于推理。谁能将推理成本压至极低（如从1分降至0.1分），谁将掌握主动权。
生态博弈：英伟达的护城河在于拥有400万开发者的CUDA生态。TPU等功能单一，短期内难以完全替代GPU，但可能形成“GPU作为通用底座 + NPU作为专用加速层”的混合架构。
英伟达的应对：英伟达已意识到趋势，于2025年底斥资200亿美元收购Groq（其LPU运行大模型速度是传统GPU的10倍以上），试图在专用加速领域补强。

结论：NPU的崛起并非简单替代GPU，而是将AI算力从“软件定义”推向“物理固化”的重构时代。云厂商通过自研芯片，意在打破英伟达的定价权，重塑AI时代的成本结构与商业模式。

阅读原文详情

事件概述

核心数据与进展

行业趋势：云厂商“去英伟达化”浪潮

技术逻辑：从“通用并行”到“专用加速”

战略影响与未来展望

准备好启动您的定制项目了吗？