OpenAI迈出关键一步:KV cache优化砍半推理成本,路线与DeepSeek趋同
2026/07/02 18:29阅读量 2
OpenAI通过KV cache系统优化将模型推理成本削减一半以上,该技术路线与DeepSeek早前提出的MLA机制一脉相承。同时,OpenAI在芯片层面联合博通、Cerebras布局软硬协同降本,核心动力来自其2025年运营亏损209亿美元、计划2027年上市的财务压力。
事件概述
OpenAI近期找到一种新的系统优化方案,能将模型推理成本砍掉一半以上。外媒报道指出,过去需要数万张GPU才能满足的算力需求,优化后仅需几百张。该优化方向主要来自KV cache上的技术改进,其底层逻辑与DeepSeek在2024年5月提出的MLA(Multi-head Latent Attention)机制高度一致。
核心信息
- KV cache优化:KV cache是大模型在生成每个新token时频繁读取的“笔记”。Prompt Caching机制可复用相同前缀的中间结果,最高将延迟降低80%、输入token成本降低90%。DeepSeek-V2通过MLA将KV cache减少93.3%,最大生成吞吐提升5.76倍。OpenAI此次走的是DeepSeek已验证过的路线。
- HBM产业逻辑:KV cache属于热数据,必须存放在GPU的高带宽显存HBM中。HBM容量与带宽直接决定长上下文、高并发推理的服务上限。当前HBM4带宽达2.8TB/s,产能已被英伟达预订;英特尔推出成本更低的替代方案ZAM,带宽约2.5TB/s。KV cache优化后单个请求所需HBM容量下降,但厂商会将节省的显存用于更长上下文、更高并发、更复杂Agent,整体HBM总需求不会降低。
- OpenAI的软硬协同布局:硬件层面,OpenAI联合博通开发专为LLM推理设计的芯片Jalapeño,可将推理成本砍约50%,叠加KV cache优化后成本有望下降一个数量级;同时与Cerebras签下超100亿美元推理算力协议,Cerebras晶圆级芯片推理速度可达传统GPU方案的15倍,GPT-5.4已可运行其上。软件层面则通过系统优化进一步压降成本。
- 上市财务压力:OpenAI 2025年收入130.7亿美元,总成本340亿美元,运营亏损209亿美元,其中仅微软云计算账单就超172亿美元。2027年计划上市,控制推理成本是改善财务表现的关键。
