Cerebras 以晶圆级芯片挑战英伟达:推理性能突破与生态壁垒并存

Cerebras 推出拥有90万核心的WSE-3晶圆级芯片,通过消除内存墙在AI推理速度上显著超越英伟达GPU,并已获得OpenAI、AWS及Oracle等巨头的大额订单。尽管在单点性能上具备优势,但CUDA生态的成熟度、高昂的单系统功耗以及制造良率风险仍是其大规模替代传统方案的主要障碍。随着行业重心从训练转向推理,非GPU架构正试图通过专用硬件降低延迟和成本,重塑算力市场格局。

事件概述

2026年3月,Cerebras Systems 凭借独特的晶圆级引擎(Wafer-Scale Engine, WSE)架构,正式进入超大型企业采购视野。Oracle在财报会议上将其与Nvidia、AMD并列为核心加速器供应商;AWS宣布部署Cerebras CS-3系统至自有数据中心并通过Amazon Bedrock提供服务;OpenAI则签署了价值超100亿美元、提供750兆瓦算力的多年合作协议。

这一系列动作标志着AI基础设施正从“通用GPU集群”向“专用推理架构”演进,旨在解决大模型爆发带来的数据移动瓶颈和延迟问题。

核心信息:技术突破与性能表现

1. 硬件架构革新:打破内存墙

Cerebras 的 WSE-3 芯片是目前规模最大的人工智能芯片,其核心特性包括:

  • 规模:面积46,255平方毫米,集成4万亿个晶体管,拥有90万个AI优化内核。
  • 算力对比:提供125 PFLOPS AI算力,晶体管数量是英伟达B200的19倍,算力是其28倍。
  • 内存架构:配备44GB片上SRAM,内部带宽高达27PB/s(是最新一代NVLink的206倍),彻底消除了数据在芯片间传输的延迟。
  • 扩展能力:最多可组合2048套系统,提供256 EFLOPS算力,支持训练参数规模高达24万亿的模型。

2. 推理性能实测数据

根据 Artificial Analysis 的测评,Cerebras CS-3 在推理场景下展现出显著优势:

  • 大模型测试:在 Meta Llama 4 Maverick(400B 参数)模型上,Cerebras 达到 2,522 tokens/秒,领先英伟达 Blackwell B200(1,038 tokens/秒)约 2.4 倍。
  • 小模型测试:在 Llama 3.1 8B 模型上,Cerebras 可达约 1,800 t/s,而英伟达 H100 约为 90 t/s,差距约 20 倍。
  • 成本优势:DeepSeek V3 在 Cerebras 上的云服务定价极具竞争力(输入$0.20/百万tokens,输出$0.50/百万tokens)。

3. 行业趋势转变

AI 行业重心正从“训练为主”转向“推理为主”。推理市场对延迟极为敏感,ChatGPT 对话、多步骤智能体(Agentic AI)等场景对 tokens/秒有严苛要求。预计 AI 推理市场规模将从 2025 年的 1,062 亿美元增长至 2030 年的 2,550 亿美元(CAGR 约 19%)。

挑战与风险

尽管性能突出,Cerebras 要撕开英伟达的“算力围城”仍面临多重阻碍:

1. 生态壁垒(CUDA 护城河)

英伟达最强大的武器并非硬件,而是成熟的 CUDA 生态。开发者转向 Cerebras 需适配专有编译器,且目前对动态控制流等高级 AI 特性的支持尚不完整。全球数百万 AI 工程师深度依赖 CUDA,迁移涉及重写代码、重新培训员工及重谈合同,学习成本和转换成本极高。

2. 物理与基础设施限制

  • 功耗:CS-3 单系统功耗高达 50kW,远超单台 GPU 服务器,对传统数据中心的电力和空间构成巨大挑战。
  • 良率风险:采用整块 300mm 晶圆作为单颗芯片,任何一处缺陷都可能导致芯片报废,制造良率控制难度远高于传统 GPU 的小芯片切割模式。

3. 商业与客户集中度风险

  • 客户依赖:阿联酋 G42 贡献了 Cerebras 2024 年上半年 87% 的营收(对应一份 14.3 亿美元的合同)。若地缘政治变化导致出口管制趋严,将对营收造成重大冲击。
  • 交付压力:面对 OpenAI 和 AWS 的大规模部署需求,Cerebras 在 2026-2028 年间面临极大的产能扩张压力,实际交付时间线存在不确定性。

竞争格局:英伟达的反制与其他玩家

英伟达的防御策略

英伟达并未坐以待毙,正在通过以下方式巩固推理市场地位:

  • 收购 Groq:收购推理初创公司 Groq 的核心资产。Groq 的 LPU(语言处理单元)架构追求“快速、可预测、低成本”,通过去掉缓存和乱序机制实现流水线式执行,大幅降低单位 token 的计算成本和能耗。
  • 推出 NIM 微服务:通过软件定义加速,进一步降低推理门槛。
  • 持续迭代:Blackwell 架构的快速迭代保持硬件竞争力。

其他非 GPU 玩家

  • SambaNova:采用可重配置数据流架构(RDU)+ 三级内存(SRAM/HBM/DDR),在标准芯片上实现接近单片大芯片的效率。其在 Llama 3.3 70B 上实现了低批量 9 倍、高批量 4 倍的速度提升,且能效显著优于 Nvidia H200。但 SambaNova 目前估值停滞,正在寻找新的融资方或买家。

结论

在赢者通吃的市场中,仅比竞争对手好 10% 往往不足以撼动现有格局。Cerebras 虽然在推理速度和特定场景成本上具备“好 10 倍”的潜力,但要真正取代英伟达,不仅需要证明硬件性能的绝对优势,更需要解决生态迁移成本、基础设施适配以及供应链稳定性等系统性难题。未来,AI 算力市场可能呈现“训练靠 GPU,推理多元化”的混合架构格局。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。