DeepSeek V4 API 正式发布:Flash/Pro 双版本齐发,百万上下文成标配

2026/04/25 01:03阅读量 2

DeepSeek 正式推出 V4 系列 API,包含 Flash 和 Pro 两个版本,全系标配 1M(百万)超长上下文窗口,并同步开源模型权重及技术报告。该发布将长文本处理能力从高端选配转变为普惠基础能力,同时通过极具竞争力的定价策略降低开发门槛。V4 系列在 Agent 工作流、代码生成及复杂任务处理上表现显著,旨在推动大模型从“评测竞争”转向“实际效用”。

事件概述

DeepSeek 于 2026 年 4 月 25 日正式发布 V4 系列 API,推出 V4-ProV4-Flash 双版本。此次更新的核心突破在于将 1M(一百万 tokens) 超长上下文长度设为全系标配,打破了以往仅旗舰闭源模型才具备该能力的行业惯例。同时,官方同步开源了模型权重与技术报告,支持本地部署与二次开发。

核心信息

1. 版本定位与架构

  • V4-Flash:面向轻量化高频场景,主打极致低延迟与高性价比。
    • 架构:基于 13B 激活参数,采用全新的 token 压缩注意力机制与 DSA 稀疏注意力架构优化。
    • 特点:保障接近 Pro 版核心推理能力的同时,实现极快响应速度,适用于实时对话、函数调用流水线等对速度敏感的场景。
  • V4-Pro:锚定极致性能,探索开源模型能力边界。
    • 架构:总参数 1.6T,激活参数 49B 的 MoE(混合专家)架构,预训练数据量达 33T。
    • 性能:在数学、STEM、竞赛级代码等核心推理测评中超越当前所有已公开评测的开源模型,达到比肩世界顶级闭源模型水平;Agent 交付质量接近 Claude Opus 4.6(非思考模式)。

2. 关键功能升级

  • 超长上下文:上下文窗口从上一代 V3.2 的 128K 直接提升至 1M。配合底层架构创新,大幅降低长上下文计算与显存需求,保障全窗口性能无损。开发者可直接处理完整代码库、超长行业文档或百万字书籍,无需搭建复杂的 RAG 系统。
  • Agent 与工作流
    • 支持非思考模式与思考模式,可通过 reasoning_effort 参数自定义思考强度。
    • 全量支持 JSON Output、Tool Calls(工具调用)、对话前缀续写。
    • 针对主流 Agent 产品(如 Claude Code, OpenClaw 等)进行了专项适配和优化。
  • 接口兼容:兼容 OpenAI ChatCompletions 与 Anthropic 两种接口格式,接入时无需修改原有 base_url,仅需替换 model 参数。

3. 定价策略

DeepSeek 延续了高性价比路线,大幅降低单次调用成本:

  • V4-Flash
    • 缓存命中输入:0.2 元 / 百万 tokens
    • 缓存未命中输入:1 元 / 百万 tokens
    • 输出:2 元 / 百万 tokens
  • V4-Pro
    • 缓存命中输入:1 元 / 百万 tokens
    • 缓存未命中输入:12 元 / 百万 tokens
    • 输出:24 元 / 百万 tokens

4. 开源与生态支持

  • 全量开源:模型权重已在 Hugging Face、ModelScope 平台开放下载,且无功能阉割,完整保留云端 API 的所有能力(含双模式、1M 上下文、Agent 优化等)。
  • 工具链适配:开源微调、量化、推理加速全流程工具,完成 vLLM、TGI 等推理框架及 LangChain、LlamaIndex 等 Agent 框架的 Day 0 原生适配,并提供国产算力平台全栈部署方案。
  • 迁移计划:旧版模型名 deepseek-chatdeepseek-reasoner 将于 2026 年 7 月 24 日 停止使用,期间分别指向 V4-Flash 的非思考与思考模式,提供三个月平滑迁移期。

值得关注

此次发布标志着大模型竞争焦点从单纯的“参数军备竞赛”转向“模型效用”。DeepSeek 通过“能力上探 + 成本下探”的策略,将百万上下文和顶级 Agent 能力转化为基础设施,降低了中小企业及个人开发者的使用门槛,推动了长文本处理与复杂任务执行能力的普惠化。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。