推理成本砍半的幕后:OpenAI 开始全面效仿 DeepSeek 的降本路线
2026/07/02 18:21阅读量 2
OpenAI 正从软件与硬件两个方向大幅降低推理成本:软件层面通过 KV cache 优化(类似 DeepSeek 的 MLA)可将成本削减一半以上,硬件层面自研推理芯片 Jalapeño 也已将服务成本降低约 50%。2025 年公司运营亏损达 209 亿美元,控制成本成为其商业化与潜在上市的关键。
事件概述
OpenAI 正在系统性地降低大模型推理成本,最新系统优化方案据称可将模型推理成本削减一半以上,过去需要数万张 GPU 的需求如今只需几百张。降本路径与 DeepSeek 此前采用的技术(MLA 机制)高度相似。
核心信息
1. 软件优化:KV cache 压缩
- OpenAI 的推理优化主要围绕 KV cache(键值缓存),即模型在生成 token 时留下的“笔记”。未加缓存时,模型每生成一个新 token 都需要重复读取全部上下文,导致算力浪费。
- OpenAI 早在 2024 年 10 月就推出了 Prompt Caching(提示词缓存)机制,复用相同前缀的中间结果,可将延迟降低 80%,输入 token 成本降低 90%。
- 2024 年 5 月 DeepSeek 在 V2 技术报告中提出的 Multi-head Latent Attention(MLA)即通过压缩 KV cache 实现推理效率跃升,相比 DeepSeek 67B 减少 93.3% 的 KV cache,吞吐提升 5.76 倍。OpenAI 此次优化被认为是在走 DeepSeek 已走过的路。
2. 硬件自研与合作
- Jalapeño 芯片:OpenAI 与博通联合推出的首款 AI 推理定制芯片,从设计到问世仅用 9 个月,核心目标是降低 LLM 服务成本约 50%。该芯片无法运行通用任务,专为大模型推理而设。
- Cerebras 合作:2026 年 1 月,OpenAI 与 Cerebras 签署超 100 亿美元协议,采购 750MW 推理算力(至 2028/2029 年,可扩展至 2GW)。Cerebras 的晶圆级芯片 WSE-3 通过减少跨芯片通信延迟,推理速度可比 GPU 方案快 15 倍,GPT-5.3-Codex-Spark 在其上可达超 1000 tokens/秒。
- 叠加软件与硬件优化后,OpenAI 推理成本有望降低一个数量级。
3. 财务压力驱动
- 2025 年 OpenAI 全年收入 130.7 亿美元,总成本与费用高达 340 亿美元,运营亏损 209 亿美元。其中向微软支付的云计算账单超过 172 亿美元。
- 2026 年预计推理与训练支出 141 亿美元。API 业务毛利率已从低位提升至 2026 年 Q1 的 39%,目标年底达 52%。
- 控制成本是 OpenAI 潜在上市(推迟至 2027 年后)的重要前提。
值得关注
- 推理成本下降不会减少总 HBM(高带宽显存)需求,因为模型厂商会将节省的资源用于更长上下文、更高并发和更复杂的 Agent 场景,HBM 容量与带宽仍是长期瓶颈。
- 软件与硬件双线降本后,DeepSeek 与 OpenAI 的竞争将更多聚焦于架构效率与定价策略。
