DeepSeek V4 Pro整体能力相当于8个月前GPT5,网络安全等实战领域短板明显
2026/05/02 16:11阅读量 3
美国评测机构CAISI报告显示,DeepSeek V4 Pro整体能力仅相当于8个月前发布的GPT5,在数学、科学和常规代码上不逊色,但在网络安全、复杂工程和抽象推理方面大幅落后,主要源于算力瓶颈、缺乏实战数据及MoE模型局限。同时国产模型正从一枝独秀转向百花齐放,其他国产模型在多项榜单中表现优于DeepSeek。
事件概述
美国官方AI评测与标准机构CAISI在DeepSeek V4发布后给出评估报告。报告显示,DeepSeek V4 Pro的整体能力仅相当于去年8月发布的GPT5水平,且美国模型迭代曲线斜率更陡,差距有拉大趋势。
核心差距
- 整体落后8个月:横轴为模型发布时间表,纵轴为能力评分,DeepSeek V4 Pro与GPT5存在明显代差。
- “小镇做题家”式短板:在数学、自然科学、常规代码能力上与顶尖模型持平,但在网络安全、复杂工程、抽象推理等实战层面大幅落后。企业级场景落地极度依赖复杂软件工程和抽象推理能力,DeepSeek短板明显。
落后原因分析
- 算力与硬件生态代差:数学能力可通过高质量合成数据和强化学习快速拉升(类似刷题),但复杂工程、安全、智能体任务需构造真实环境与评测沙盒,极度消耗算力与工程资源。
- 缺乏高质量实战数据:安全和复杂软件工程需要大量真实仓库、issue、依赖环境、漏洞链、调试过程等真实工作轨迹数据,积累差距大。
- MoE模型利弊:MoE模型性价比高,但在高度连续、长链路、跨领域任务上稳定性不足;选择MoE与算力限制相关。
- 开源模式劣势:开源模型展示的是“裸模型能力”,闭源模型可将推理策略、工具链、安全过滤器等隐藏于API后,在智能体等任务上天然占优。
视角转换与国产新格局
- 评测标准立场差异:CAISI报告侧重美式叙事(网络安全、软件工程、抽象推理)。若考量中文场景、企业私有化部署、低成本推理、国产硬件适配及开源生态价值,DeepSeek优势立现。
- 从一枝独秀到百花齐放:过去一年DeepSeek扛起国产开源大旗,但当前其他国产模型已快速崛起。在Artificial Analysis模型性能总榜单中,DeepSeek V4 Pro仅排国产开源模型第四位,位居Kimi k2.6、Mimo-V2.5、Qwen3.6之后。在LmArena的Coding模型榜单中,DeepSeek V4 Pro排总榜第15,GLM-5.1(第5)、Kimi-k2.6(第7)、小米2.5 Pro(第11)、Qwen3.6-Plus(第12)均表现更好。
- 代表国产模型的新生力量包括Kimi2.6、GLM5.1、Mimo2.5、Minimax2.7、Qwen3.6等,国产模型已进入组团作战阶段。
