DeepSeek V4技术报告详解:484天演进路、百万Token架构与国产芯片适配
2026/04/25 11:27阅读量 2
DeepSeek发布V4技术报告,公开了从V3到V4历时484天的技术演进路径,核心突破在于通过mHC约束残差连接和混合注意力机制(CSA/HCA),实现了1M token上下文下KV cache缩减至前代10%。模型采用Muon优化器替代AdamW,并支持华为昇腾算力,预计下半年批量上市。评测显示其开源版本在代码和数学任务上匹敌头部闭源模型,但在前沿推理任务上仍落后约3-6个月。
DeepSeek V4 技术报告核心内容提炼
事件概述
DeepSeek 于 2026 年 4 月 25 日发布 V4 系列技术报告,详细披露了过去 484 天(自 V3 发布起)的技术迭代细节。报告重点展示了在有限硬件条件下,如何通过架构创新实现百万 token 上下文的高效处理,并确认了对国产算力(华为昇腾)的适配进展。
核心架构升级
V4 是 DeepSeek 系列中改动最大的一代,主要包含以下三大架构创新:
1. mHC(Manifold-Constrained Hyper-Connections)
- 背景:传统残差连接在深层网络中易出现数值不稳定。Kimi 团队提出的 Hyper-Connections (HC) 虽增加并行通道但存在训练崩溃风险。
- 方案:DeepSeek 将矩阵 B 约束在「双随机矩阵」流形(Birkhoff polytope)上,确保行和列归一化为 1。
- 效果:
- 谱范数天然不超过 1,防止梯度爆炸。
- 配合 Sinkhorn-Knopp 迭代算法(20 次收敛),实测 wall-time 开销控制在重叠流水线(overlapped pipeline)的 6.7%。
- 输入/输出映射通过 Sigmoid 保证非负有界,避免信号抵消。
2. 混合注意力机制(Hybrid Attention)
为解决长文效率问题,V4 交替使用两种注意力结构:
- CSA (Compressed Sparse Attention):
- 流程:先对 KV entries 进行压缩(每 m 个 token 压成一个),再通过 Lightning Indexer + Top-k 选择稀疏块,最后执行 Multi-Query Attention。
- 优势:适合 Token 级别的精细检索,将 1M token 序列的注意力计算量降至仅需关注 1024 个压缩块。
- 细节:Head dimension 设为 512(V3.2 为 128),采用分组投影降低计算成本;引入 Partial RoPE 仅对最后 64 维施加旋转位置编码。
- HCA (Heavily Compressed Attention):
- 策略:更激进的压缩率(m'=128),不做稀疏选择,直接对所有压缩 KV 进行 Dense Attention。
- 分工:负责长距离全局信号汇总,与 CSA 层层交替叠加(Pro 版 61 层,Flash 版 43 层)。
- 辅助技巧:
- Q/KV Normalization:防止 Attention Logits 爆炸。
- Sliding Window Attention:补偿近距离依赖(最近 128 个 token)。
- Attention Sink:引入可学习的 Sink Logit,允许 Attention Score 总和不等于 1,避免长序列注意力均摊。
3. Muon 优化器
- 应用:取代 AdamW,用于绝大多数参数的训练(Embedding、Prediction Head 等仍用 AdamW)。
- 实现:采用 Hybrid Newton-Schulz 迭代(10 步分两段),前 8 步激进系数推奇异值至 1,后 2 步温和系数稳定。
- 对比:不同于 Kimi K2 需配合 QK-Clip,DeepSeek 利用 V4 的注意力架构特性(RMSNorm)从源头抑制爆炸,未使用 QK-Clip。
模型规格与训练数据
| 模型版本 | 层数 | 隐藏维度 | MoE 结构 | 总参数 | 激活参数 |
|---|---|---|---|---|---|
| V4-Flash | 43 | 4096 | 1 Shared + 256 Routed (Top-6) | 284B | 13B |
| V4-Pro | 61 | 7168 | 1 Shared + 384 Routed (Top-6) | 1.6T | 49B |
- 数据规模:预训练 Token 量翻倍。V4-Flash 消耗 32T,V4-Pro 消耗 33T(V3 为 14.8T)。
- 数据构成:优先收录科学论文和技术报告等长文档;Tokenizer 沿用 V3 的 128K 词表。
- 训练调度:序列长度分段(4K → 16K → 64K → 1M);前 1T Token 使用 Dense Attention Warmup。
- 后训练方法:废弃 Mixed RL,全面采用 On-Policy Distillation (OPD)。先训四个领域专家(数学、代码、Agent、指令),再通过 OPD 合并至统一 Student 模型。
实验结论与性能表现
- 开源领先:SimpleQA-Verified 得分 57.9,领先其他开源模型约 20 个百分点。
- 匹敌闭源:Codeforces Rating 3206,超越 GPT-5.4 (3168) 和 Gemini-3.1-Pro (3052),人类选手榜单排名第 23。
- 差距仍在:HLE 基准测试中略逊于 Gemini-3.1-Pro 和 Claude-Opus-4.6-Max;知识类及最前沿推理任务落后约 3-6 个月。
- 内部验证:内部 R&D 代码 Benchmark 得分 67%(接近 Claude Opus 4.5 的 70%),91% 的内部开发者将其作为主力 Coding 模型。
关键事实与未来方向
- 国产化适配:已支持华为算力,预计 2026 年下半年昇腾 950 超节点批量上市。
- 成本突破:1M 上下文场景下,单 Token FLOPs 仅为 V3.2 的 27%,KV Cache 仅为 10%,有望缓解 HBM 短缺压力。
- 技术取舍:
- mHC:进入 V4。
- Engram(条件记忆模块):未进入 V4,被明确留给 V5。
- DualPipe:继续使用并针对 mHC 调整。
- 未来探索:新维度的 Sparsity(Engram 方向)、低延迟架构、长时程多轮 Agentic 任务、多模态及数据 Curation。
注:DeepSeek 在报告中坦诚承认部分训练 Trick(Anticipatory Routing 和 SwiGLU Clamping)底层机理尚不明确,体现了工程实践中的诚实态度。
