DeepSeek V4 API 正式发布:Flash/Pro 双版本齐发,百万上下文成标配
2026/04/25 01:03阅读量 2
DeepSeek 正式推出 V4 系列 API,包含 Flash 和 Pro 两个版本,全系标配 1M(百万)超长上下文窗口,并同步开源模型权重及技术报告。该发布将长文本处理能力从高端选配转变为普惠基础能力,同时通过极具竞争力的定价策略降低开发门槛。V4 系列在 Agent 工作流、代码生成及复杂任务处理上表现显著,旨在推动大模型从“评测竞争”转向“实际效用”。
事件概述
DeepSeek 于 2026 年 4 月 25 日正式发布 V4 系列 API,推出 V4-Pro 与 V4-Flash 双版本。此次更新的核心突破在于将 1M(一百万 tokens) 超长上下文长度设为全系标配,打破了以往仅旗舰闭源模型才具备该能力的行业惯例。同时,官方同步开源了模型权重与技术报告,支持本地部署与二次开发。
核心信息
1. 版本定位与架构
- V4-Flash:面向轻量化高频场景,主打极致低延迟与高性价比。
- 架构:基于 13B 激活参数,采用全新的 token 压缩注意力机制与 DSA 稀疏注意力架构优化。
- 特点:保障接近 Pro 版核心推理能力的同时,实现极快响应速度,适用于实时对话、函数调用流水线等对速度敏感的场景。
- V4-Pro:锚定极致性能,探索开源模型能力边界。
- 架构:总参数 1.6T,激活参数 49B 的 MoE(混合专家)架构,预训练数据量达 33T。
- 性能:在数学、STEM、竞赛级代码等核心推理测评中超越当前所有已公开评测的开源模型,达到比肩世界顶级闭源模型水平;Agent 交付质量接近 Claude Opus 4.6(非思考模式)。
2. 关键功能升级
- 超长上下文:上下文窗口从上一代 V3.2 的 128K 直接提升至 1M。配合底层架构创新,大幅降低长上下文计算与显存需求,保障全窗口性能无损。开发者可直接处理完整代码库、超长行业文档或百万字书籍,无需搭建复杂的 RAG 系统。
- Agent 与工作流:
- 支持非思考模式与思考模式,可通过
reasoning_effort参数自定义思考强度。 - 全量支持 JSON Output、Tool Calls(工具调用)、对话前缀续写。
- 针对主流 Agent 产品(如 Claude Code, OpenClaw 等)进行了专项适配和优化。
- 支持非思考模式与思考模式,可通过
- 接口兼容:兼容 OpenAI ChatCompletions 与 Anthropic 两种接口格式,接入时无需修改原有
base_url,仅需替换model参数。
3. 定价策略
DeepSeek 延续了高性价比路线,大幅降低单次调用成本:
- V4-Flash:
- 缓存命中输入:0.2 元 / 百万 tokens
- 缓存未命中输入:1 元 / 百万 tokens
- 输出:2 元 / 百万 tokens
- V4-Pro:
- 缓存命中输入:1 元 / 百万 tokens
- 缓存未命中输入:12 元 / 百万 tokens
- 输出:24 元 / 百万 tokens
4. 开源与生态支持
- 全量开源:模型权重已在 Hugging Face、ModelScope 平台开放下载,且无功能阉割,完整保留云端 API 的所有能力(含双模式、1M 上下文、Agent 优化等)。
- 工具链适配:开源微调、量化、推理加速全流程工具,完成 vLLM、TGI 等推理框架及 LangChain、LlamaIndex 等 Agent 框架的 Day 0 原生适配,并提供国产算力平台全栈部署方案。
- 迁移计划:旧版模型名
deepseek-chat与deepseek-reasoner将于 2026 年 7 月 24 日 停止使用,期间分别指向 V4-Flash 的非思考与思考模式,提供三个月平滑迁移期。
值得关注
此次发布标志着大模型竞争焦点从单纯的“参数军备竞赛”转向“模型效用”。DeepSeek 通过“能力上探 + 成本下探”的策略,将百万上下文和顶级 Agent 能力转化为基础设施,降低了中小企业及个人开发者的使用门槛,推动了长文本处理与复杂任务执行能力的普惠化。
