DeepSeek V4 API 正式发布：Flash/Pro 双版本齐发，百万上下文成标配

2026/04/25 01:03阅读量 2

DeepSeek 正式推出 V4 系列 API，包含 Flash 和 Pro 两个版本，全系标配 1M（百万）超长上下文窗口，并同步开源模型权重及技术报告。该发布将长文本处理能力从高端选配转变为普惠基础能力，同时通过极具竞争力的定价策略降低开发门槛。V4 系列在 Agent 工作流、代码生成及复杂任务处理上表现显著，旨在推动大模型从“评测竞争”转向“实际效用”。

事件概述

DeepSeek 于 2026 年 4 月 25 日正式发布 V4 系列 API，推出 V4-Pro 与 V4-Flash 双版本。此次更新的核心突破在于将 1M（一百万 tokens） 超长上下文长度设为全系标配，打破了以往仅旗舰闭源模型才具备该能力的行业惯例。同时，官方同步开源了模型权重与技术报告，支持本地部署与二次开发。

核心信息

1. 版本定位与架构

V4-Flash：面向轻量化高频场景，主打极致低延迟与高性价比。
- 架构：基于 13B 激活参数，采用全新的 token 压缩注意力机制与 DSA 稀疏注意力架构优化。
- 特点：保障接近 Pro 版核心推理能力的同时，实现极快响应速度，适用于实时对话、函数调用流水线等对速度敏感的场景。
V4-Pro：锚定极致性能，探索开源模型能力边界。
- 架构：总参数 1.6T，激活参数 49B 的 MoE（混合专家）架构，预训练数据量达 33T。
- 性能：在数学、STEM、竞赛级代码等核心推理测评中超越当前所有已公开评测的开源模型，达到比肩世界顶级闭源模型水平；Agent 交付质量接近 Claude Opus 4.6（非思考模式）。

2. 关键功能升级

超长上下文：上下文窗口从上一代 V3.2 的 128K 直接提升至 1M。配合底层架构创新，大幅降低长上下文计算与显存需求，保障全窗口性能无损。开发者可直接处理完整代码库、超长行业文档或百万字书籍，无需搭建复杂的 RAG 系统。
Agent 与工作流：
- 支持非思考模式与思考模式，可通过 reasoning_effort 参数自定义思考强度。
- 全量支持 JSON Output、Tool Calls（工具调用）、对话前缀续写。
- 针对主流 Agent 产品（如 Claude Code, OpenClaw 等）进行了专项适配和优化。
接口兼容：兼容 OpenAI ChatCompletions 与 Anthropic 两种接口格式，接入时无需修改原有 base_url，仅需替换 model 参数。

3. 定价策略

DeepSeek 延续了高性价比路线，大幅降低单次调用成本：

V4-Flash：
- 缓存命中输入：0.2 元 / 百万 tokens
- 缓存未命中输入：1 元 / 百万 tokens
- 输出：2 元 / 百万 tokens
V4-Pro：
- 缓存命中输入：1 元 / 百万 tokens
- 缓存未命中输入：12 元 / 百万 tokens
- 输出：24 元 / 百万 tokens

4. 开源与生态支持

全量开源：模型权重已在 Hugging Face、ModelScope 平台开放下载，且无功能阉割，完整保留云端 API 的所有能力（含双模式、1M 上下文、Agent 优化等）。
工具链适配：开源微调、量化、推理加速全流程工具，完成 vLLM、TGI 等推理框架及 LangChain、LlamaIndex 等 Agent 框架的 Day 0 原生适配，并提供国产算力平台全栈部署方案。
迁移计划：旧版模型名 deepseek-chat 与 deepseek-reasoner 将于 2026 年 7 月 24 日 停止使用，期间分别指向 V4-Flash 的非思考与思考模式，提供三个月平滑迁移期。

值得关注

此次发布标志着大模型竞争焦点从单纯的“参数军备竞赛”转向“模型效用”。DeepSeek 通过“能力上探 + 成本下探”的策略，将百万上下文和顶级 Agent 能力转化为基础设施，降低了中小企业及个人开发者的使用门槛，推动了长文本处理与复杂任务执行能力的普惠化。

阅读原文详情