排名第九、国内第二，DeepSeek V4 凭什么让人又爱又恨？

2026/05/31 14:31阅读量 3

DeepSeek V4 在 Vals AI 评测中全球排名第九、国内第二，虽未重现 V3 的震撼，但通过中文诗词理解、法律法规引用、网络梗解读和翻译等中国特色场景实测，展现了顶尖的中文理解能力，同时在代码生成和开发工作流中表现突出，且性价比较高。

事件概述

DeepSeek V4 发布后，在 Vals AI 综合测评中平均准确率 63.87%，全球排名第九，国内仅次于 Kimi K2.6。有开发者表示失望，但作者通过针对中文场景的自定义测评和一周开发者工作流实测，发现 V4 在中文语境的深度理解和纯工程场景中表现优异，且具备显著性价比优势。

核心信息

中文特色测试：作者设计了古诗词深层理解、法律法规引用、网络梗与亚文化、翻译四个只有中国用户才侧重的维度。
- 古诗词：对李商隐《无题》“春蚕到死丝方尽”中“丝”的含义，V4 除了标准的三层解读（蚕丝、谐音“思”、缠绵特质），还提出了“生命之质”的层次，被评委 Opus 4.7 评价为“超出教科书式的解读”。对杜甫“国破山河在”的“在”字，指出“你失去了整个世界，而世界若无其事”，获选准确性和洞察力满分。
- 法律法规：在 5 道涉及中国法规的测试中，法条引用零幻觉。当被问及不存在的《网络数据安全管理条例》第 38 条第 3 款时，V4 明确告知仅有 2 款并正确指向相关条款（第 26、36、19、21 条），表现出“负责任的不知道”。
- 网络梗：能准确解析“遥遥领先”的三种语气（自豪、调侃、反讽），以及职场对话中的潜台词（如“挺好的挺好的”即为敷衍）。但存在虚构风险——对根本不存在的梗“电子呕吐”编造了完整来源和含义。
- 翻译：对政策术语“新质生产力”使用官方译法并解释四层含义；“绿水青山就是金山银山”按场景提供官方译法和景区宣传译法；对“做大做强做优国有资本”巧妙用 -er 结尾的比较级（bigger, stronger, better）还原排比韵律。
开发者工作流实测：基于多项代码任务（工资系统数据库设计、Python 实现、Bug 诊断、技术文档、智能体等），以 Opus 4.7 为裁判评分（5 分制）。
- 代码生成：数据库 DDL 和工资计算核心逻辑均获三项满分（可运行性、可读性、可维护性），采用抽象基类+子类继承、累计预扣法、边界条件处理等，达到工业级水平。
- Bug 诊断：除发现“未扣除专项附加扣除”这一主因外，还额外指出负数应纳税所得额、社保基数简化、未用累计预扣法、浮点数精度等 5 个潜在问题。
- 技术文档：README、API 文档、技术方案完整规范，仅因缺少与备选方案的对比分析而被扣 1 分。
- 智能体：多步任务规划与执行中，任务分解和完成度满分，整体报告结构清晰、趋势分析扎实。
- 综合：代码类任务平均约 4.8 分（顶尖），文档/智能体类平均约 4.3 分（良好），适合将明确需求拆解后交其编码。
成本对比：以 Agent 应用日均消耗 100 万输入 token、10 万输出 token 计算月成本（折扣 75% 延续至 2026 年 5 月 31 日），V4 Pro 月成本约为 Kimi K2.6 的 1/3、GLM 5.1 的 1/2；V4 Flash 月成本仅 $504，达到 Kimi 的 1/8、GLM 的 1/6，是三家中最便宜的顶级模型。

值得关注

V4 在中文古诗词理解和法律法规引用上展现出顶尖的深度和严谨性，这对中国用户的实际应用尤为关键。
代码生成与调试能力优秀，但在智能体任务和不存在梗的虚构风险上仍需注意。
性价比在国产模型中优势明显，尤其是 Flash 版本，建议开发者优先试用。

阅读原文详情

事件概述

核心信息

值得关注

准备好启动您的定制项目了吗？