排名第九、国内第二,DeepSeek V4 凭什么让人又爱又恨?
2026/05/31 14:31阅读量 3
DeepSeek V4 在 Vals AI 评测中全球排名第九、国内第二,虽未重现 V3 的震撼,但通过中文诗词理解、法律法规引用、网络梗解读和翻译等中国特色场景实测,展现了顶尖的中文理解能力,同时在代码生成和开发工作流中表现突出,且性价比较高。
事件概述
DeepSeek V4 发布后,在 Vals AI 综合测评中平均准确率 63.87%,全球排名第九,国内仅次于 Kimi K2.6。有开发者表示失望,但作者通过针对中文场景的自定义测评和一周开发者工作流实测,发现 V4 在中文语境的深度理解和纯工程场景中表现优异,且具备显著性价比优势。
核心信息
-
中文特色测试:作者设计了古诗词深层理解、法律法规引用、网络梗与亚文化、翻译四个只有中国用户才侧重的维度。
- 古诗词:对李商隐《无题》“春蚕到死丝方尽”中“丝”的含义,V4 除了标准的三层解读(蚕丝、谐音“思”、缠绵特质),还提出了“生命之质”的层次,被评委 Opus 4.7 评价为“超出教科书式的解读”。对杜甫“国破山河在”的“在”字,指出“你失去了整个世界,而世界若无其事”,获选准确性和洞察力满分。
- 法律法规:在 5 道涉及中国法规的测试中,法条引用零幻觉。当被问及不存在的《网络数据安全管理条例》第 38 条第 3 款时,V4 明确告知仅有 2 款并正确指向相关条款(第 26、36、19、21 条),表现出“负责任的不知道”。
- 网络梗:能准确解析“遥遥领先”的三种语气(自豪、调侃、反讽),以及职场对话中的潜台词(如“挺好的挺好的”即为敷衍)。但存在虚构风险——对根本不存在的梗“电子呕吐”编造了完整来源和含义。
- 翻译:对政策术语“新质生产力”使用官方译法并解释四层含义;“绿水青山就是金山银山”按场景提供官方译法和景区宣传译法;对“做大做强做优国有资本”巧妙用 -er 结尾的比较级(bigger, stronger, better)还原排比韵律。
-
开发者工作流实测:基于多项代码任务(工资系统数据库设计、Python 实现、Bug 诊断、技术文档、智能体等),以 Opus 4.7 为裁判评分(5 分制)。
- 代码生成:数据库 DDL 和工资计算核心逻辑均获三项满分(可运行性、可读性、可维护性),采用抽象基类+子类继承、累计预扣法、边界条件处理等,达到工业级水平。
- Bug 诊断:除发现“未扣除专项附加扣除”这一主因外,还额外指出负数应纳税所得额、社保基数简化、未用累计预扣法、浮点数精度等 5 个潜在问题。
- 技术文档:README、API 文档、技术方案完整规范,仅因缺少与备选方案的对比分析而被扣 1 分。
- 智能体:多步任务规划与执行中,任务分解和完成度满分,整体报告结构清晰、趋势分析扎实。
- 综合:代码类任务平均约 4.8 分(顶尖),文档/智能体类平均约 4.3 分(良好),适合将明确需求拆解后交其编码。
-
成本对比:以 Agent 应用日均消耗 100 万输入 token、10 万输出 token 计算月成本(折扣 75% 延续至 2026 年 5 月 31 日),V4 Pro 月成本约为 Kimi K2.6 的 1/3、GLM 5.1 的 1/2;V4 Flash 月成本仅 $504,达到 Kimi 的 1/8、GLM 的 1/6,是三家中最便宜的顶级模型。
值得关注
- V4 在中文古诗词理解和法律法规引用上展现出顶尖的深度和严谨性,这对中国用户的实际应用尤为关键。
- 代码生成与调试能力优秀,但在智能体任务和不存在梗的虚构风险上仍需注意。
- 性价比在国产模型中优势明显,尤其是 Flash 版本,建议开发者优先试用。
