云厂商集体自研NPU,英伟达GPU垄断地位面临重构

2026/04/24 09:41阅读量 4

谷歌在Google Cloud Next活动上发布第八代TPU芯片(TPU8t/TPU8i),性能大幅提升,标志着AI算力重心从训练向推理转移。亚马逊、微软及国内阿里、百度等云厂商纷纷布局自研NPU,旨在降低算力成本并摆脱对英伟达的依赖。尽管英伟达凭借CUDA生态仍具优势,但专用NPU通过“去通用化”设计正在重塑AI算力架构与商业模式。

事件概述

美国时间4月22日,谷歌在Google Cloud Next活动上正式推出两款第八代NPU芯片:TPU8t(用于AI训练)和TPU8i(用于AI推理)。这一动作被视为云厂商集体自研芯片、挑战英伟达(NVIDIA)十年统治地位的关键信号。

核心数据与进展

  • 性能突破
    • TPU8t每瓦性能较前代提升124%
    • TPU8i每瓦性能提升117%,每美元性能提升80%
  • 技术规格升级
    • 内存墙突破:TPU8i的HBM容量从216GB增至288GB,带宽从6528GB/s提升至8601GB/s,片上SRAM提升三倍至384MB。
    • 集群规模:支持集群规模从数万颗扩展至13.4万颗,最大可连接100万颗芯片。
  • 供应链与合作
    • TPU8t由**博通(Broadcom)设计,TPU8i由联发科(MediaTek)**设计。
    • 两颗芯片均基于台积电2nm工艺,预计于2027年底量产。

行业趋势:云厂商“去英伟达化”浪潮

全球云服务巨头正加速构建自有NPU生态,不再满足于单纯采购英伟达硬件:

  • 国际巨头
    • 亚马逊(AWS):2018年发布首款推理NPU Inferentia1,2023年推出Inferentia2及训练用Trainium3。
    • 微软(Azure):2023年发布云端NPU Maia 100,今年初推出Maia 200。
  • 中国厂商
    • 阿里巴巴:2019年发布含光800 NPU。
    • 百度:2018年起迭代昆仑芯至第三代。
    • 字节跳动:计划于2026年3月底前交付代号SeedChip的首批自研NPU样品,专为AI推理设计。

技术逻辑:从“通用并行”到“专用加速”

NPU(Neural Processing Unit)的本质是ASIC(专用集成电路),与GPU存在根本性差异:

特性GPU (通用计算)NPU/ASIC (专用计算)
设计逻辑通用并行架构,擅长大规模并行计算针对特定任务(如神经网络)定制,数据流固定
灵活性高,通过软件(如CUDA)调度任务低,功能固化在硅片中,难以更改
能效比较低,功耗高,单价高极高,功耗低,单价低
定位图形渲染、通用AI训练与推理专注AI推理或特定训练场景

战略影响与未来展望

  1. 算力重心转移:行业预测到2030年,75%-80%的AI算力将用于推理。谁能将推理成本压至极低(如从1分降至0.1分),谁将掌握主动权。
  2. 生态博弈:英伟达的护城河在于拥有400万开发者的CUDA生态。TPU等功能单一,短期内难以完全替代GPU,但可能形成“GPU作为通用底座 + NPU作为专用加速层”的混合架构。
  3. 英伟达的应对:英伟达已意识到趋势,于2025年底斥资200亿美元收购Groq(其LPU运行大模型速度是传统GPU的10倍以上),试图在专用加速领域补强。

结论:NPU的崛起并非简单替代GPU,而是将AI算力从“软件定义”推向“物理固化”的重构时代。云厂商通过自研芯片,意在打破英伟达的定价权,重塑AI时代的成本结构与商业模式。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。