推理成本砍半的幕后：OpenAI 开始全面效仿 DeepSeek 的降本路线

2026/07/02 18:21阅读量 2

OpenAI 正从软件与硬件两个方向大幅降低推理成本：软件层面通过 KV cache 优化（类似 DeepSeek 的 MLA）可将成本削减一半以上，硬件层面自研推理芯片 Jalapeño 也已将服务成本降低约 50%。2025 年公司运营亏损达 209 亿美元，控制成本成为其商业化与潜在上市的关键。

事件概述

OpenAI 正在系统性地降低大模型推理成本，最新系统优化方案据称可将模型推理成本削减一半以上，过去需要数万张 GPU 的需求如今只需几百张。降本路径与 DeepSeek 此前采用的技术（MLA 机制）高度相似。

核心信息

1. 软件优化：KV cache 压缩

OpenAI 的推理优化主要围绕 KV cache（键值缓存），即模型在生成 token 时留下的“笔记”。未加缓存时，模型每生成一个新 token 都需要重复读取全部上下文，导致算力浪费。
OpenAI 早在 2024 年 10 月就推出了 Prompt Caching（提示词缓存）机制，复用相同前缀的中间结果，可将延迟降低 80%，输入 token 成本降低 90%。
2024 年 5 月 DeepSeek 在 V2 技术报告中提出的 Multi-head Latent Attention（MLA）即通过压缩 KV cache 实现推理效率跃升，相比 DeepSeek 67B 减少 93.3% 的 KV cache，吞吐提升 5.76 倍。OpenAI 此次优化被认为是在走 DeepSeek 已走过的路。

2. 硬件自研与合作

Jalapeño 芯片：OpenAI 与博通联合推出的首款 AI 推理定制芯片，从设计到问世仅用 9 个月，核心目标是降低 LLM 服务成本约 50%。该芯片无法运行通用任务，专为大模型推理而设。
Cerebras 合作：2026 年 1 月，OpenAI 与 Cerebras 签署超 100 亿美元协议，采购 750MW 推理算力（至 2028/2029 年，可扩展至 2GW）。Cerebras 的晶圆级芯片 WSE-3 通过减少跨芯片通信延迟，推理速度可比 GPU 方案快 15 倍，GPT-5.3-Codex-Spark 在其上可达超 1000 tokens/秒。
叠加软件与硬件优化后，OpenAI 推理成本有望降低一个数量级。

3. 财务压力驱动

2025 年 OpenAI 全年收入 130.7 亿美元，总成本与费用高达 340 亿美元，运营亏损 209 亿美元。其中向微软支付的云计算账单超过 172 亿美元。
2026 年预计推理与训练支出 141 亿美元。API 业务毛利率已从低位提升至 2026 年 Q1 的 39%，目标年底达 52%。
控制成本是 OpenAI 潜在上市（推迟至 2027 年后）的重要前提。

值得关注

推理成本下降不会减少总 HBM（高带宽显存）需求，因为模型厂商会将节省的资源用于更长上下文、更高并发和更复杂的 Agent 场景，HBM 容量与带宽仍是长期瓶颈。
软件与硬件双线降本后，DeepSeek 与 OpenAI 的竞争将更多聚焦于架构效率与定价策略。

阅读原文详情