DeepSeek-V4 发布:架构自主迁移、百万上下文标配与免费商业模式的六大核心事实
2026/04/25 10:15阅读量 2
DeepSeek-V4 正式开源,其底层架构成功从英伟达 CUDA 迁移至华为昇腾芯片,打破了开源模型依赖英伟达的行业惯例。该模型将百万 token 上下文设为全版本标配,代码能力跻身全球第一梯队,并凭借幻方量化的资金支持对普通用户永久免费。尽管面临人才流失等挑战,DeepSeek 正通过引入人文数据标注向“拟人化”智能进化,展现出独特的研发节奏与商业策略。
事件概述
2026 年 4 月 24 日,DeepSeek 正式发布 V4 模型。此次发布未举行传统发布会,而是通过官网更新、App 上线及 HuggingFace 开源同步进行。评测显示,DeepSeek-V4 在多项能力上与全球顶级闭源模型(Claude Opus 4.6、GPT-5.4、Gemini 3.1 Pro)不相上下,并在关键基础设施和用户体验上实现了突破性进展。
核心信息
1. 底层架构突破:从 CUDA 到昇腾的迁移
- 技术背景:全球 AI 训练长期依赖英伟达 CUDA 生态。DeepSeek-V4 历时约 15 个月,完成了从英伟达架构向华为昇腾芯片的底层迁移。
- 攻坚过程:迁移期间克服了训练崩溃、通信速度不足等难题,最终在华为昇腾 950PR 上的推理速度较迁移初期提升了 35 倍。
- 行业影响:此举打破了“开源模型必须依赖英伟达”的行业铁律。英伟达 CEO 黄仁勋曾评价若 DeepSeek 在华为芯片上首发将是“可怕的结果”,侧面印证了该突破的战略意义。
2. 百万上下文成为标配
- 能力升级:DeepSeek 将百万 token 上下文(约等于《三体》全书字数)作为所有版本的标配功能,超越了主流模型 12-20 万 token 的限制。
- 应用场景:支持直接处理数百页的合同、财务报告或法律文件,实现秒级关键条款提取与总结,标志着顶级配置向大众普及。
3. 代码能力跻身世界第一梯队
- 测评表现:在 Codeforces 竞技编程测评中得分超过 GPT-5.4;在 SWE-Verified 软件工程测试中与 Claude Opus 4.6 持平。
- 实用价值:
- 开发者:可直接替换主流的 Agent 工具(如 Claude Code 等),用于生成小工具或解决代码报错。
- 普通用户:可通过自然语言指令完成简单的自动化任务。
4. 商业模式与定价策略
- 免费策略:普通用户在网页端和 App 端的使用永久免费,资金主要来源于母公司幻方量化提供的算力与资金支持。
- B 端变现:主要通过企业 API 调用收费。V4-Pro 版本的调用成本约为 Claude Opus 4.6 的七分之一、GPT-5.4 的四分之一,具备显著性价比优势。
5. 从“理科机器”向“人文智能”进化
- 人才布局:DeepSeek 开始招募中文系学生进行人文数据标注,重点补足情感理解、语言质感及古诗文情绪判断等短板。
- 竞争转向:AI 竞争重心正从纯智力(数学、逻辑)比拼转向“拟人化”能力建设,特别是针对中文深度理解的本土化优势构建。
6. 研发节奏与现状
- 低调发布:面对外界关于跳票和落后的质疑,DeepSeek 选择“先做后说”,未在发布前进行大规模预热或接受采访。
- 内部挑战:公司过去一年面临核心技术人员流失的压力,但依然坚持技术攻坚,展现了独特的研发文化。
值得关注
DeepSeek-V4 的发布不仅是一次产品迭代,更代表了国产大模型在基础设施自主可控、长文本处理能力以及商业化路径上的新探索。其将百万上下文免费化、代码能力对标顶尖闭源模型的表现,可能对全球 AI 应用生态产生深远影响。
