DeepSeek通过软硬件融合优化,有望为中国AI基建节省近1万亿美元
2026/06/01 19:27阅读量 2
DeepSeek通过改造注意力机制(MLA)、混合专家架构(MoE)和计算缓存复用等软硬件协同优化,使同等AI硬件的Token产出提升约4倍,等效减少75%硬件投资。基于麦肯锡预测的2030年全球AI硬件投资5.2万亿美元,若中国占其中四分之一,DeepSeek有望为国内AI基建节省近1万亿美元,降低对最稀缺高端GPU的依赖,将成本压力转向更具优势的存储和工程领域。
事件概述
DeepSeek通过软硬件融合优化,显著提升AI硬件Token产能,降低对高端稀缺硬件的依赖。据测算,在相同硬件条件下,其有效Token产出可提升约4倍,等效节省75%硬件投资。结合麦肯锡预测2030年全球AI硬件投资达5.2万亿美元,中国若按相应比例计算,DeepSeek有望为中国AI基础设施建设节省近1万亿美元。
核心信息
- 三大优化方向:
- MLA注意力机制:通过低秩压缩技术,将KV缓存占用大幅减少。以DeepSeek-V4-Pro为例,在100万Token上下文场景下,仅需10%的缓存占用和27%的推理算力,且几乎不损失模型效果。
- MoE结构:采用混合专家模型,每次推理仅激活少量参数。V4-Pro总参数1.6万亿,激活参数490亿;V4-Flash总参数2840亿,激活参数130亿。同时将模型参数分块存储,大部分不常用参数可置于低价普通内存甚至固态硬盘中。
- 计算缓存复用:将重复计算结果缓存,用时直接读取,用低成本内存读取替代高成本运算,并已将此项优化落地到商业定价,鼓励缓存命中。
- 成本对比:
- 月跑十亿Token的中等规模应用:DeepSeek V4-Pro月费约522美元,GPT-5.5和Claude Opus 4.7约9000-10000美元,差距达17-19倍。
- 反复读取10万Token代码库一百次:DeepSeek约0.036美元,GPT-5.5和Claude Opus 4.7约5美元,差距超百倍。
- 战略意义:不改变英伟达的硬件报价,但改变了硬件产出率。核心在于用更便宜的、中国更有产能优势的存储(如国产DRAM)替代最稀缺的高带宽显存,提升AI产业链安全性。
值得关注
- DeepSeek的优化并非“用存储替代算力”,而是系统性地降低对最尖端GPU的边际依赖,将压力转移到更可获得的存储、缓存和系统工程上。
- 中国日均Token消耗已进入百万亿级,正向千万亿级快速推进,效率提升在低流量时的节省有限,但在大规模流量下将节省成数千座智算中心。
- 需要指出,频繁搬运参数可能带来功耗和调度挑战,该路线是权衡后的工程优化,并非无脑省钱。
