Cerebras的故事:一颗餐盘大小的芯片
Cerebras 开发了全球最大的晶圆级 AI 芯片(面积是英伟达最大 GPU 的 56 倍),内部带宽极快但片上存储仅 44GB、对外互联带宽极窄,存在结构性瓶颈。AI 训练时代无人问津,2025 年后 Agentic AI 使推理速度变得值钱,OpenAI 与其签下超 100 亿美元推理算力合同并深度绑定(贷款、认股权证、持股 12%),公司于 2026 年 5 月上市,市值一度达 600 亿美元。市场押注蒸馏技术进步速度会快于 SRAM 缩放停滞的摩尔定律,若蒸馏能将万亿参数模型压缩至 1200 亿参数以内,Cerebras 将成为推理时代核心基础设施。
疯狂方案:不切晶圆的巨型芯片
Cerebras 认为 GPU 的数据搬运效率低下,解决方案是不将硅晶圆切割,直接利用整片晶圆做成一颗芯片,从物理上消除数据跨芯片搬运的瓶颈。这颗餐盘大小的芯片面积是英伟达最大 GPU 的 56 倍,从构想到上市耗时十年,研发三年累计烧掉近 2 亿美元。通过冗余设计解决良率问题,并定制了液冷、供电和专用组装工具,2019 年才研发出第一代产品 WSE-1。
物理囚笼:结构性瓶颈无法突破
最新 WSE-3 采用台积电 5nm 工艺,拥有 4 万亿晶体管、90 万个 AI 核心。一半面积用于片上 SRAM 存储(共 44GB),片上带宽达 21 PB/s,约为 GPU HBM 带宽的一千倍,推理速度可达每秒 1000 个 Token。
但芯片存在三大硬约束:
- 片上存储上限:44GB 远小于英伟达最新 Rubin GPU 的 288GB,大模型无法放入。
- 对外互联瓶颈:受晶圆均匀印刷的几何限制,对外带宽仅 150 GB/s,不足英伟达单颗 GPU 的六分之一,多芯片流水线时速度优势大幅缩水。
- SRAM 缩放停滞:从 5nm 到 3nm 存储密度零增长,容量锁死在 44GB 天花板。
行业转向:推理需求带来翻盘契机
2019 年亮相后五年间,AI 行业侧重训练,Cerebras 芯片只擅长推理,长期无人问津。2024 年近九成收入来自阿布扎比 G42,IPO 因外资背景撤回。
2025 年后 Agentic AI 普及,开发者对推理延迟敏感度大幅提升,出现宁愿保留低参数更快模型也不切换高参数慢模型的情况。2026 年 OpenAI 与 Cerebras 签下超 100 亿美元推理算力合同,同年 Cerebras 在纳斯达克上市,市值一度达 600 亿美元,为 2019 年以来美国最大科技 IPO。
深度绑定 OpenAI
OpenAI 不仅是 Cerebras 最大客户,还提供 10 亿美元担保贷款(年息 6%,以算力交付可免息),同时获得约等于白送的 3345 万股认股权证,完全摊薄后持股 12%。Cerebras 承担巨额交付压力:2026-2028 年需部署 750 兆瓦推理算力,而自有租赁产能可能仅约 43 兆瓦,2028 年前需交付的服务器总量比成立以来出货量总和还多一个数量级。
终极对赌:蒸馏速度能否跑赢摩尔定律
当前 600 亿美元市值的本质,是行业押注蒸馏技术进步速度快于摩尔定律。若蒸馏足够快,一年内 1200 亿参数小模型就能追上当前万亿参数前沿模型水平,44GB 容量即可满足主流推理需求,Cerebras 将成为推理时代核心基础设施。若蒸馏速度不足,物理瓶颈将永久困住这颗巨型芯片。对赌结果大概率一年内揭晓。
