DeepSeek通过软硬件融合优化，有望为中国AI基建节省近1万亿美元

2026/06/01 19:27阅读量 2

DeepSeek通过改造注意力机制（MLA）、混合专家架构（MoE）和计算缓存复用等软硬件协同优化，使同等AI硬件的Token产出提升约4倍，等效减少75%硬件投资。基于麦肯锡预测的2030年全球AI硬件投资5.2万亿美元，若中国占其中四分之一，DeepSeek有望为国内AI基建节省近1万亿美元，降低对最稀缺高端GPU的依赖，将成本压力转向更具优势的存储和工程领域。

事件概述

DeepSeek通过软硬件融合优化，显著提升AI硬件Token产能，降低对高端稀缺硬件的依赖。据测算，在相同硬件条件下，其有效Token产出可提升约4倍，等效节省75%硬件投资。结合麦肯锡预测2030年全球AI硬件投资达5.2万亿美元，中国若按相应比例计算，DeepSeek有望为中国AI基础设施建设节省近1万亿美元。

核心信息

三大优化方向：
1. MLA注意力机制：通过低秩压缩技术，将KV缓存占用大幅减少。以DeepSeek-V4-Pro为例，在100万Token上下文场景下，仅需10%的缓存占用和27%的推理算力，且几乎不损失模型效果。
2. MoE结构：采用混合专家模型，每次推理仅激活少量参数。V4-Pro总参数1.6万亿，激活参数490亿；V4-Flash总参数2840亿，激活参数130亿。同时将模型参数分块存储，大部分不常用参数可置于低价普通内存甚至固态硬盘中。
3. 计算缓存复用：将重复计算结果缓存，用时直接读取，用低成本内存读取替代高成本运算，并已将此项优化落地到商业定价，鼓励缓存命中。
成本对比：
- 月跑十亿Token的中等规模应用：DeepSeek V4-Pro月费约522美元，GPT-5.5和Claude Opus 4.7约9000-10000美元，差距达17-19倍。
- 反复读取10万Token代码库一百次：DeepSeek约0.036美元，GPT-5.5和Claude Opus 4.7约5美元，差距超百倍。
战略意义：不改变英伟达的硬件报价，但改变了硬件产出率。核心在于用更便宜的、中国更有产能优势的存储（如国产DRAM）替代最稀缺的高带宽显存，提升AI产业链安全性。

值得关注

DeepSeek的优化并非“用存储替代算力”，而是系统性地降低对最尖端GPU的边际依赖，将压力转移到更可获得的存储、缓存和系统工程上。
中国日均Token消耗已进入百万亿级，正向千万亿级快速推进，效率提升在低流量时的节省有限，但在大规模流量下将节省成数千座智算中心。
需要指出，频繁搬运参数可能带来功耗和调度挑战，该路线是权衡后的工程优化，并非无脑省钱。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？