DeepSeek 重构 DeepGEMM：引入 Mega MoE 与 FP4 精度优化

2026/04/17 11:13阅读量 195

DeepSeek 更新其 DeepGEMM 代码库，推出名为 Mega MoE 的核心技术，将 MoE 模型的分散计算流程融合为单一内核并实现计算与通信重叠。该更新同时探索了 FP8×FP4 混合精度及 FP4 Indexer 等极限压缩方案，旨在提升大规模 GPU 集群的算力效率。这一基础设施层面的重构暗示 DeepSeek 可能仍在使用英伟达 B 系列加速卡进行训练。

事件概述

DeepSeek 近期对其底层高性能 Tensor Core 库 DeepGEMM 进行了更新，重点引入了 Mega MoE 技术及多项极限优化策略。此次更新并非针对特定模型版本，而是侧重于基础设施层的工程重构，旨在解决大规模 MoE（Mixture of Experts）架构在部署中的效率瓶颈。

核心技术创新

Mega MoE 融合计算：
- 将传统 MoE 中分散的计算步骤（Token 分发、线性变换、激活函数 SwiGLU、结果合并）融合为一个单一的 mega-kernel，消除了多 Kernel 切换带来的开销。
- 实现 计算与通信重叠：利用 Tensor Core 进行计算的同时，通过 NVLink 并行传输数据，解决了以往“算一会儿、等一会儿”的低效问题，显著提升了多卡大规模场景下的 GPU 利用率。
极限精度优化：
- 采用 FP8 × FP4 混合精度组合，并引入 FP4 Indexer 用于 MQA（Multi-Query Attention）logits 处理，进一步压缩算力消耗。
- 结合 GEMM 重构与 JIT（即时编译）加速技术，系统性逼近硬件性能边界。

战略意义与社区信号

统一计算原语库：DeepGEMM 被定位为整合 FP8、FP4、BF16 GEMM、Mega MoE 及 HyperConnection 等关键原语的 unified CUDA 代码库，所有内核通过轻量级 JIT 模块在运行时编译，无需安装时编译 CUDA。
工程化落地：项目目标是将 MoE 从理论优势转化为可高效运行的工程实践，为未来大规模模型部署铺路。
硬件线索：更新内容明确提及 NVLink 和 Tensor Core 优化，且未涉及国产卡相关描述，这打破了此前关于 DeepSeek 全面转向国产训练卡的传言，暗示其训练集群仍包含英伟达顶级 B 系列加速卡。

当前进展状态

持续优化中：DeepSeek 明确表示 Mega MoE 为持续优化项目，暂未公布具体性能数据，后续需在不同规模、拓扑结构和负载下进行调优。
方向确认：此次开源更新主要向社区释放信号，表明其在 MoE 效率优化上的技术路线已确立。

阅读原文详情

事件概述

核心技术创新

战略意义与社区信号

当前进展状态

准备好启动您的定制项目了吗？