DeepSeek 重构 DeepGEMM:引入 Mega MoE 与 FP4 精度优化

2026/04/17 11:13阅读量 2

DeepSeek 更新其 DeepGEMM 代码库,推出名为 Mega MoE 的核心技术,将 MoE 模型的分散计算流程融合为单一内核并实现计算与通信重叠。该更新同时探索了 FP8×FP4 混合精度及 FP4 Indexer 等极限压缩方案,旨在提升大规模 GPU 集群的算力效率。这一基础设施层面的重构暗示 DeepSeek 可能仍在使用英伟达 B 系列加速卡进行训练。

事件概述

DeepSeek 近期对其底层高性能 Tensor Core 库 DeepGEMM 进行了更新,重点引入了 Mega MoE 技术及多项极限优化策略。此次更新并非针对特定模型版本,而是侧重于基础设施层的工程重构,旨在解决大规模 MoE(Mixture of Experts)架构在部署中的效率瓶颈。

核心技术创新

  • Mega MoE 融合计算

    • 将传统 MoE 中分散的计算步骤(Token 分发、线性变换、激活函数 SwiGLU、结果合并)融合为一个单一的 mega-kernel,消除了多 Kernel 切换带来的开销。
    • 实现 计算与通信重叠:利用 Tensor Core 进行计算的同时,通过 NVLink 并行传输数据,解决了以往“算一会儿、等一会儿”的低效问题,显著提升了多卡大规模场景下的 GPU 利用率。
  • 极限精度优化

    • 采用 FP8 × FP4 混合精度组合,并引入 FP4 Indexer 用于 MQA(Multi-Query Attention)logits 处理,进一步压缩算力消耗。
    • 结合 GEMM 重构与 JIT(即时编译)加速技术,系统性逼近硬件性能边界。

战略意义与社区信号

  • 统一计算原语库:DeepGEMM 被定位为整合 FP8、FP4、BF16 GEMM、Mega MoE 及 HyperConnection 等关键原语的 unified CUDA 代码库,所有内核通过轻量级 JIT 模块在运行时编译,无需安装时编译 CUDA。
  • 工程化落地:项目目标是将 MoE 从理论优势转化为可高效运行的工程实践,为未来大规模模型部署铺路。
  • 硬件线索:更新内容明确提及 NVLink 和 Tensor Core 优化,且未涉及国产卡相关描述,这打破了此前关于 DeepSeek 全面转向国产训练卡的传言,暗示其训练集群仍包含英伟达顶级 B 系列加速卡。

当前进展状态

  • 持续优化中:DeepSeek 明确表示 Mega MoE 为持续优化项目,暂未公布具体性能数据,后续需在不同规模、拓扑结构和负载下进行调优。
  • 方向确认:此次开源更新主要向社区释放信号,表明其在 MoE 效率优化上的技术路线已确立。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。