亚马逊自研芯片业务爆发:从内部降本工具到200亿美元新增长极

2026/04/14 08:47阅读量 2

亚马逊CEO安迪·杰西在股东信中披露,其自研芯片业务(含Graviton、Trainium和Nitro)年化收入已超200亿美元,若独立运营规模可达500亿美元。通过Project Rainier等算力集群,亚马逊成功绑定Anthropic、OpenAI及苹果等大客户,实现了从底层芯片到云服务的垂直整合。尽管面临部分场景性能不及英伟达的挑战,但凭借成本优势和生态控制力,亚马逊正逐步重塑AI算力市场的竞争格局。

事件概述

亚马逊CEO安迪·杰西(Andy Jassy)在最新股东信中确认,公司自研芯片业务已进入爆发期。包含Graviton处理器、Trainium训练芯片和Nitro网络芯片在内的自研硬件业务,年化收入已超过200亿美元,并保持三位数同比增长。杰西指出,若将芯片业务独立拆分并像英伟达或英特尔那样直接向第三方销售,其年化营收规模预计可达500亿美元。这标志着亚马逊的芯片业务已从单纯的“内部降本工具”转型为具备独立造血能力的新增长极。

核心信息与技术演进

1. 芯片产品矩阵与迭代

亚马逊的自研芯片战略始于2011年收购以色列公司Annapurna Labs,历经十余年发展已形成完整的产品线:

  • Graviton系列:基于Arm架构的服务器CPU,旨在替代传统x86处理器。目前已成为商业闭环最成功的产品,AWS弹性计算产品中超过90%的最大客户正在使用,覆盖Web服务、数据库及企业应用等通用负载。
  • Inferentia系列:专为推理任务设计的机器学习芯片。2019年推出的Inf1实例相比搭载英伟达T4 GPU的方案,吞吐量提升最高3倍,单次推理成本降低40%。
  • Trainium系列:面向大模型训练的专用芯片。
    • Trainium:2021年发布,特定工作负载下每Token成本比A100集群低54%,吞吐量与A100相当但成本减半。
    • Trainium2:2023年底发布,采用5纳米工艺,计算核心数量翻倍,针对生成式AI优化,价格性能比基于H200/H100的配置提升30%-40%。
    • Trainium3:2024年底公布,全球首款采用3纳米工艺的AI芯片,集成于Trn3 UltraServer中,能效比前代提升约4倍,部分场景成本可压至英伟达方案的一半。

2. 关键客户与算力部署

亚马逊通过深度绑定头部AI公司,构建了庞大的非英伟达算力生态:

  • Anthropic:作为最大客户,其Claude模型训练完全依托亚马逊芯片。双方合作建立了全球最大的非Nvidia算力集群之一——Project Rainier。该集群位于印第安纳州New Carlisle,2024年底部署约50万颗Trainium2芯片,2025年底规模扩大至100万颗。Anthropic甚至直接参与了Trainium3芯片的设计。
  • OpenAI:2025年底达成380亿美元长期云合作承诺;2026年2月,亚马逊宣布向OpenAI投资500亿美元,确认其将通过AWS基础设施消耗约2吉瓦的Trainium计算容量。
  • 苹果:搜索产品采用Graviton 4和Inferentia 2,推理效率提升40%以上;并在早期测试Trainium 2,预训练效率提升50%。

3. 资本投入与未来规划

  • 资本支出:2025年亚马逊资本支出约1250亿美元,主要流向AI数据中心、电力和芯片;2026年预计达到2000亿美元,超出分析师预期近40%。
  • 电力扩容:2025年新增3.9吉瓦电力容量,预计2027年底总电力容量翻倍。

挑战与行业影响

面临的挑战

尽管进展显著,亚马逊芯片仍面临性能与生态兼容性的挑战:

  • 性能差距:2025年7月曝光的内部文档显示,Cohere和Stability AI等公司反馈Trainium 1/2在某些场景下性能不及英伟达H100 GPU,延迟表现不佳。
  • 迁移成本:客户需使用AWS Neuron SDK进行代码适配。Anthropic工程师透露,将训练流程迁移至Trainium3约需三周时间,虽较早期大幅缩短,但仍构成工程门槛。
  • 架构限制:部分依赖CUDA特定操作的模型架构无法在Trainium上运行,且对极限算力有需求的客户仍倾向于选择英伟达产品。

行业格局重塑

  • 云厂商竞争:谷歌TPU已迭代至第五代,微软Maia芯片因量产推迟和性能问题暂未大规模对外释放。亚马逊凭借先发优势和全栈整合能力,在云巨头自研芯片竞赛中处于领先地位。
  • 市场分化:未来AI芯片市场可能分化为英伟达主导的通用市场和云巨头各自的封闭生态。深度依赖AWS Trainium的客户将面临较高的迁移成本。
  • 战略意义:亚马逊造芯片的核心逻辑在于掌握控制权。通过构建从芯片、数据中心到软件平台(Bedrock)的完整堆栈,亚马逊能够针对特定负载进行端到端优化,从而在不依赖英伟达的情况下维持高利润率,并倒逼芯片巨头降价加速迭代。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。