DeepSeek V4技术报告详解：484天演进路、百万Token架构与国产芯片适配

2026/04/25 11:27阅读量 2

DeepSeek发布V4技术报告，公开了从V3到V4历时484天的技术演进路径，核心突破在于通过mHC约束残差连接和混合注意力机制（CSA/HCA），实现了1M token上下文下KV cache缩减至前代10%。模型采用Muon优化器替代AdamW，并支持华为昇腾算力，预计下半年批量上市。评测显示其开源版本在代码和数学任务上匹敌头部闭源模型，但在前沿推理任务上仍落后约3-6个月。

DeepSeek V4 技术报告核心内容提炼

事件概述

DeepSeek 于 2026 年 4 月 25 日发布 V4 系列技术报告，详细披露了过去 484 天（自 V3 发布起）的技术迭代细节。报告重点展示了在有限硬件条件下，如何通过架构创新实现百万 token 上下文的高效处理，并确认了对国产算力（华为昇腾）的适配进展。

核心架构升级

V4 是 DeepSeek 系列中改动最大的一代，主要包含以下三大架构创新：

1. mHC（Manifold-Constrained Hyper-Connections）

背景：传统残差连接在深层网络中易出现数值不稳定。Kimi 团队提出的 Hyper-Connections (HC) 虽增加并行通道但存在训练崩溃风险。
方案：DeepSeek 将矩阵 B 约束在「双随机矩阵」流形（Birkhoff polytope）上，确保行和列归一化为 1。
效果：
- 谱范数天然不超过 1，防止梯度爆炸。
- 配合 Sinkhorn-Knopp 迭代算法（20 次收敛），实测 wall-time 开销控制在重叠流水线（overlapped pipeline）的 6.7%。
- 输入/输出映射通过 Sigmoid 保证非负有界，避免信号抵消。

2. 混合注意力机制（Hybrid Attention）

为解决长文效率问题，V4 交替使用两种注意力结构：

CSA (Compressed Sparse Attention)：
- 流程：先对 KV entries 进行压缩（每 m 个 token 压成一个），再通过 Lightning Indexer + Top-k 选择稀疏块，最后执行 Multi-Query Attention。
- 优势：适合 Token 级别的精细检索，将 1M token 序列的注意力计算量降至仅需关注 1024 个压缩块。
- 细节：Head dimension 设为 512（V3.2 为 128），采用分组投影降低计算成本；引入 Partial RoPE 仅对最后 64 维施加旋转位置编码。
HCA (Heavily Compressed Attention)：
- 策略：更激进的压缩率（m'=128），不做稀疏选择，直接对所有压缩 KV 进行 Dense Attention。
- 分工：负责长距离全局信号汇总，与 CSA 层层交替叠加（Pro 版 61 层，Flash 版 43 层）。
辅助技巧：
- Q/KV Normalization：防止 Attention Logits 爆炸。
- Sliding Window Attention：补偿近距离依赖（最近 128 个 token）。
- Attention Sink：引入可学习的 Sink Logit，允许 Attention Score 总和不等于 1，避免长序列注意力均摊。

3. Muon 优化器

应用：取代 AdamW，用于绝大多数参数的训练（Embedding、Prediction Head 等仍用 AdamW）。
实现：采用 Hybrid Newton-Schulz 迭代（10 步分两段），前 8 步激进系数推奇异值至 1，后 2 步温和系数稳定。
对比：不同于 Kimi K2 需配合 QK-Clip，DeepSeek 利用 V4 的注意力架构特性（RMSNorm）从源头抑制爆炸，未使用 QK-Clip。

模型规格与训练数据

模型版本	层数	隐藏维度	MoE 结构	总参数	激活参数
V4-Flash	43	4096	1 Shared + 256 Routed (Top-6)	284B	13B
V4-Pro	61	7168	1 Shared + 384 Routed (Top-6)	1.6T	49B

数据规模：预训练 Token 量翻倍。V4-Flash 消耗 32T，V4-Pro 消耗 33T（V3 为 14.8T）。
数据构成：优先收录科学论文和技术报告等长文档；Tokenizer 沿用 V3 的 128K 词表。
训练调度：序列长度分段（4K → 16K → 64K → 1M）；前 1T Token 使用 Dense Attention Warmup。
后训练方法：废弃 Mixed RL，全面采用 On-Policy Distillation (OPD)。先训四个领域专家（数学、代码、Agent、指令），再通过 OPD 合并至统一 Student 模型。

实验结论与性能表现

开源领先：SimpleQA-Verified 得分 57.9，领先其他开源模型约 20 个百分点。
匹敌闭源：Codeforces Rating 3206，超越 GPT-5.4 (3168) 和 Gemini-3.1-Pro (3052)，人类选手榜单排名第 23。
差距仍在：HLE 基准测试中略逊于 Gemini-3.1-Pro 和 Claude-Opus-4.6-Max；知识类及最前沿推理任务落后约 3-6 个月。
内部验证：内部 R&D 代码 Benchmark 得分 67%（接近 Claude Opus 4.5 的 70%），91% 的内部开发者将其作为主力 Coding 模型。

关键事实与未来方向

国产化适配：已支持华为算力，预计 2026 年下半年昇腾 950 超节点批量上市。
成本突破：1M 上下文场景下，单 Token FLOPs 仅为 V3.2 的 27%，KV Cache 仅为 10%，有望缓解 HBM 短缺压力。
技术取舍：
- mHC：进入 V4。
- Engram（条件记忆模块）：未进入 V4，被明确留给 V5。
- DualPipe：继续使用并针对 mHC 调整。
未来探索：新维度的 Sparsity（Engram 方向）、低延迟架构、长时程多轮 Agentic 任务、多模态及数据 Curation。

注：DeepSeek 在报告中坦诚承认部分训练 Trick（Anticipatory Routing 和 SwiGLU Clamping）底层机理尚不明确，体现了工程实践中的诚实态度。

阅读原文详情