百万GPU采购背后的战略:AWS自研芯片与NVIDIA的“竞合共生”

AWS确认将在2027年底前向NVIDIA采购一百万颗GPU及全套网络芯片,同时其自研Trainium系列已部署超140万颗并服务Anthropic等核心客户。这一举措标志着AWS采取“计算层自研、平台层合作”的双轨策略:短期利用NVIDIA产能填补时间窗口,长期通过Trainium4接入NVLink Fusion平台实现成本优化与生态融合。这种模式既非完全独立也非单纯依赖,而是双方在AI基础设施利润池中的新型博弈。

事件概述

2026年3月,AWS与NVIDIA达成一项涉及百万级GPU及七种不同芯片组件的巨额交易,计划于2027年底前完成交付。与此同时,AWS自研的Trainium系列芯片已大规模部署,累计数量达140万颗,成为支撑Anthropic Claude模型及Amazon Bedrock服务的关键算力底座。这一“一边大购NVIDIA硬件,一边推广自研芯片”的现象,揭示了云厂商在AI算力军备竞赛中务实的“竞合共生”策略。

核心事实与数据

  • 交易规模:NVIDIA确认将在2027年底前向AWS交付一百万颗GPU,并搭售Spectrum网络芯片和Groq推理芯片。按Blackwell架构估算,交易金额可能在300亿至500亿美元量级。
  • 自研进展:截至2026年3月,AWS三代Trainium芯片累计部署140万颗。其中,Anthropic承诺采购100万颗Trainium芯片,其Claude模型运行在超过100万颗Trainium2上;全球最大的AI集群之一Project Rainier集成了50万颗Trainium2。
  • 财务回报:AWS对Anthropic的80亿美元投资账面价值已飙升至606亿美元(增长七倍);Trainium业务已被AWS CEO Andy Jassy定义为“数十亿美元级业务”。
  • 技术规格:Trainium3采用台积电3纳米制程,配备144GB高带宽内存,AI计算性能翻倍,宣称同等性能下运行成本比传统云服务器低50%。

战略逻辑分析

1. 时间窗口的残酷算术

尽管Trainium3性能激进,但其液冷版本量产爬坡需要时间。相比之下,NVIDIA的GB200 NVL72已在2025年上半年出货。在AI模型训练迭代周期仅为6-12个月的背景下,AWS无法单靠自研芯片满足爆发式需求。百万GPU订单并非对自研的否定,而是为了填补供应链的时间差,确保OpenAI等深度依赖CUDA生态的客户能即时获得算力支持。

2. “计算自研 + 平台合作”的双轨制

  • 计算层:AWS坚持自研Trainium,旨在掌握数据中心成本占比最大的计算单元,通过Neuron SDK开源化和PyTorch兼容层逐步削弱CUDA护城河。
  • 平台层:AWS宣布下一代Trainium4将全面接入NVIDIA的NVLink Fusion平台。这意味着Trainium4的计算芯片虽由AWS设计,但其互联架构、机架系统、网络交换机及管理软件将深度绑定NVIDIA生态。这是一种理性的利益切割:AWS赚取计算芯片的成本差价,NVIDIA则通过销售平台级基础设施获利。

3. 异构化与统一化的路线分歧

NVIDIA采取“加法”策略,构建包含GPU、Groq推理芯片、Spectrum网络等七种芯片的异构矩阵,追求各环节极致性能;AWS则倾向于“减法”,试图用一颗Trainium芯片统合训练与推理,仅在特定场景引入Cerebras等外部盟友以降低软件栈复杂度。

潜在风险与挑战

  • 平台依赖加深:Trainium4接入NVLink Fusion意味着AWS在互联和机架层面将高度依赖NVIDIA。若后续代际产品继续收缩自研边界,AWS可能仅保留计算Die的自主权,面临被锁定在NVIDIA平台的风险。
  • 双轨运营复杂度:AWS需同时维护NVIDIA GPU集群和Trainium集群两套完全不同的软件栈、网络方案及运维流程,隐性运营成本高昂。
  • 产能瓶颈悖论:Trainium的成功反而暴露了产能不足,导致AWS不得不持续购买NVIDIA GPU填补缺口,这可能进一步强化NVIDIA的议价能力。

结论

AWS的百万GPU订单不是自研失败的投降书,而是应对AI算力爆炸式增长的扩容账单。其核心战略是在计算层保持自主可控以获取成本优势,同时在平台层与NVIDIA合作以换取生态兼容性和开发效率。这场博弈的终局取决于未来几年Trainium产能爬坡速度、OpenAI工作负载迁移进度以及双方对基础设施利润池的重新分配。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。