百万GPU采购背后的战略：AWS自研芯片与NVIDIA的“竞合共生”

2026/03/26 17:24阅读量 80

AWS确认将在2027年底前向NVIDIA采购一百万颗GPU及全套网络芯片，同时其自研Trainium系列已部署超140万颗并服务Anthropic等核心客户。这一举措标志着AWS采取“计算层自研、平台层合作”的双轨策略：短期利用NVIDIA产能填补时间窗口，长期通过Trainium4接入NVLink Fusion平台实现成本优化与生态融合。这种模式既非完全独立也非单纯依赖，而是双方在AI基础设施利润池中的新型博弈。

事件概述

2026年3月，AWS与NVIDIA达成一项涉及百万级GPU及七种不同芯片组件的巨额交易，计划于2027年底前完成交付。与此同时，AWS自研的Trainium系列芯片已大规模部署，累计数量达140万颗，成为支撑Anthropic Claude模型及Amazon Bedrock服务的关键算力底座。这一“一边大购NVIDIA硬件，一边推广自研芯片”的现象，揭示了云厂商在AI算力军备竞赛中务实的“竞合共生”策略。

核心事实与数据

交易规模：NVIDIA确认将在2027年底前向AWS交付一百万颗GPU，并搭售Spectrum网络芯片和Groq推理芯片。按Blackwell架构估算，交易金额可能在300亿至500亿美元量级。
自研进展：截至2026年3月，AWS三代Trainium芯片累计部署140万颗。其中，Anthropic承诺采购100万颗Trainium芯片，其Claude模型运行在超过100万颗Trainium2上；全球最大的AI集群之一Project Rainier集成了50万颗Trainium2。
财务回报：AWS对Anthropic的80亿美元投资账面价值已飙升至606亿美元（增长七倍）；Trainium业务已被AWS CEO Andy Jassy定义为“数十亿美元级业务”。
技术规格：Trainium3采用台积电3纳米制程，配备144GB高带宽内存，AI计算性能翻倍，宣称同等性能下运行成本比传统云服务器低50%。

战略逻辑分析

1. 时间窗口的残酷算术

尽管Trainium3性能激进，但其液冷版本量产爬坡需要时间。相比之下，NVIDIA的GB200 NVL72已在2025年上半年出货。在AI模型训练迭代周期仅为6-12个月的背景下，AWS无法单靠自研芯片满足爆发式需求。百万GPU订单并非对自研的否定，而是为了填补供应链的时间差，确保OpenAI等深度依赖CUDA生态的客户能即时获得算力支持。

2. “计算自研 + 平台合作”的双轨制

计算层：AWS坚持自研Trainium，旨在掌握数据中心成本占比最大的计算单元，通过Neuron SDK开源化和PyTorch兼容层逐步削弱CUDA护城河。
平台层：AWS宣布下一代Trainium4将全面接入NVIDIA的NVLink Fusion平台。这意味着Trainium4的计算芯片虽由AWS设计，但其互联架构、机架系统、网络交换机及管理软件将深度绑定NVIDIA生态。这是一种理性的利益切割：AWS赚取计算芯片的成本差价，NVIDIA则通过销售平台级基础设施获利。

3. 异构化与统一化的路线分歧

NVIDIA采取“加法”策略，构建包含GPU、Groq推理芯片、Spectrum网络等七种芯片的异构矩阵，追求各环节极致性能；AWS则倾向于“减法”，试图用一颗Trainium芯片统合训练与推理，仅在特定场景引入Cerebras等外部盟友以降低软件栈复杂度。

潜在风险与挑战

平台依赖加深：Trainium4接入NVLink Fusion意味着AWS在互联和机架层面将高度依赖NVIDIA。若后续代际产品继续收缩自研边界，AWS可能仅保留计算Die的自主权，面临被锁定在NVIDIA平台的风险。
双轨运营复杂度：AWS需同时维护NVIDIA GPU集群和Trainium集群两套完全不同的软件栈、网络方案及运维流程，隐性运营成本高昂。
产能瓶颈悖论：Trainium的成功反而暴露了产能不足，导致AWS不得不持续购买NVIDIA GPU填补缺口，这可能进一步强化NVIDIA的议价能力。

结论

AWS的百万GPU订单不是自研失败的投降书，而是应对AI算力爆炸式增长的扩容账单。其核心战略是在计算层保持自主可控以获取成本优势，同时在平台层与NVIDIA合作以换取生态兼容性和开发效率。这场博弈的终局取决于未来几年Trainium产能爬坡速度、OpenAI工作负载迁移进度以及双方对基础设施利润池的重新分配。

阅读原文详情