OpenAI迈出关键一步：KV cache优化砍半推理成本，路线与DeepSeek趋同

2026/07/02 18:29阅读量 2

OpenAI通过KV cache系统优化将模型推理成本削减一半以上，该技术路线与DeepSeek早前提出的MLA机制一脉相承。同时，OpenAI在芯片层面联合博通、Cerebras布局软硬协同降本，核心动力来自其2025年运营亏损209亿美元、计划2027年上市的财务压力。

事件概述

OpenAI近期找到一种新的系统优化方案，能将模型推理成本砍掉一半以上。外媒报道指出，过去需要数万张GPU才能满足的算力需求，优化后仅需几百张。该优化方向主要来自KV cache上的技术改进，其底层逻辑与DeepSeek在2024年5月提出的MLA（Multi-head Latent Attention）机制高度一致。

核心信息

KV cache优化：KV cache是大模型在生成每个新token时频繁读取的“笔记”。Prompt Caching机制可复用相同前缀的中间结果，最高将延迟降低80%、输入token成本降低90%。DeepSeek-V2通过MLA将KV cache减少93.3%，最大生成吞吐提升5.76倍。OpenAI此次走的是DeepSeek已验证过的路线。
HBM产业逻辑：KV cache属于热数据，必须存放在GPU的高带宽显存HBM中。HBM容量与带宽直接决定长上下文、高并发推理的服务上限。当前HBM4带宽达2.8TB/s，产能已被英伟达预订；英特尔推出成本更低的替代方案ZAM，带宽约2.5TB/s。KV cache优化后单个请求所需HBM容量下降，但厂商会将节省的显存用于更长上下文、更高并发、更复杂Agent，整体HBM总需求不会降低。
OpenAI的软硬协同布局：硬件层面，OpenAI联合博通开发专为LLM推理设计的芯片Jalapeño，可将推理成本砍约50%，叠加KV cache优化后成本有望下降一个数量级；同时与Cerebras签下超100亿美元推理算力协议，Cerebras晶圆级芯片推理速度可达传统GPU方案的15倍，GPT-5.4已可运行其上。软件层面则通过系统优化进一步压降成本。
上市财务压力：OpenAI 2025年收入130.7亿美元，总成本340亿美元，运营亏损209亿美元，其中仅微软云计算账单就超172亿美元。2027年计划上市，控制推理成本是改善财务表现的关键。

阅读原文详情

事件概述

核心信息

准备好启动您的定制项目了吗？