DeepSeek V4 开源发布:万亿参数模型适配国产芯片,推理成本与长上下文实现双重突破
2026/04/25 15:59阅读量 4
DeepSeek 于 2026 年 4 月 24 日正式开源 V4 预览版,推出 Pro 和 Flash 两个版本,其中完整版基于华为昇腾芯片构建,标志着大模型在国产硬件上的高效落地。V4 将总参数量提升至 1.6 万亿,标配百万 token 上下文,并通过架构优化使推理成本维持在 V3 量级,大幅降低使用门槛。该发布被视为大模型竞争从“训练成本”转向“推理平权”的关键节点,对闭源厂商的定价体系及全球算力生态产生深远影响。
事件概述
2026 年 4 月 24 日,DeepSeek 正式推出 V4 预览版并开源,包含 V4-Pro(专业版)和 V4-Flash(轻量版)两个版本。此次发布距离其上一代核心模型 R1(2025 年 1 月发布)已逾一年,期间 DeepSeek 保持低调,专注于底层技术重构与国产化适配。
核心信息
1. 性能对标与能力定位
- V4-Pro:对标顶级闭源模型。在 Agent Coding 模式下,内部测评体验优于 Sonnet 4.5,交付质量接近 Opus 4.6(非思考模式)。世界知识测评大幅领先其他开源模型,仅稍逊于 Gemini Pro 3.1。官方宣称其在数学和代码推理性能上超越当前所有已公开评测的开源模型。
- V4-Flash:轻量级版本,推理能力接近 Pro,但参数量和激活数更小,API 响应更快,成本更低。
- 通用特性:两款模型均标配 1M(百万)token 上下文窗口。
2. 架构革新与国产硬件适配
- 参数规模:V4 完整版总参数跃升至 1.6 万亿,Lite 版为 2850 亿。
- 核心技术:
- 注意力机制:升级为 DSA2(整合 DSA 设计与 NSA 稀疏注意力方案),显著降低计算量和显存需求。
- MoE 系统:启用 Mega 内核结构,每层配置 384 个专家,每次推理激活 6 个。
- 残差连接:沿用 Hyper-Connections 方案。
- 国产化突破:V4 完整版专为 华为昇腾 芯片打造。DeepSeek 团队耗时重写底层代码,将原本基于英伟达 CUDA/PTX 的工程积累迁移至华为 CANN 框架。尽管昇腾在单节点互联带宽等指标上与英伟达 NVLink 存在差距,但通过光模块扩展和软件优化实现了稳定高效的推理。
3. 成本与效率控制
- 推理成本:尽管参数量翻倍,但通过稀疏注意力和 FP4 精度支持,V4 每个 Token 仅激活约 370 亿参数,推理成本与 V3 保持在同一量级。
- 长上下文优化:利用全新的注意力压缩机制,处理 1M 上下文的实际开销并不比传统 128K 高多少,无需额外追加内存或缓存层级。
4. 行业影响与竞争格局
- 定价权转移:V4 的发布标志着大模型竞争焦点从“训练端通缩”转向“推理端平权”。开源模型将基准能力、超长上下文和 Agent 能力打包开放,迫使闭源厂商面临更透明的价格锚点(如 Arch Lint 等参考系),维持溢价难度加大。
- 生态博弈:DeepSeek 基于华为平台的成功运行,被业界视为打破英伟达生态垄断的重要尝试。英伟达 CEO 黄仁勋曾对此表示担忧,认为这对美国是“糟糕的结果”。
- 大厂动态:面对 DeepSeek 的冲击,国内云厂商(阿里云、百度智能云、腾讯云)加速构建“模型超市”,多模型整合分发成为新策略;字节、阿里、腾讯等大厂则在应用层持续投入,累计投入超 45 亿元推动 AI 应用普及。
5. 商业进展
- 融资计划:据相关报道,DeepSeek 已启动成立以来首次外部融资,目标估值不低于 100 亿美元,计划筹集至少 3 亿美元。
- 人才流动:首代模型核心作者罗福莉转投小米,R1 核心研究员郭达雅加入字节跳动 Seed,显示行业人才竞争激烈。
