DeepSeek识图模式实测：独立视觉模型初现，推理与幻觉并存

2026/04/30 14:52阅读量 2

DeepSeek近期灰度测试的识图模式疑似基于独立于V4 Flash/Pro的新训练视觉模型，其知识库更新至2026年4月。实测显示该模式在非思考模式下速度极快但空间推理易错，开启深度思考后准确率提升但耗时显著增加（约4分钟）。在OCR、表格解析及HTML复原等实用功能上表现稳定，但在色盲测试及部分找不同任务中仍存在幻觉问题。

事件概述

DeepSeek近期向部分用户灰度开放了“识图模式”，民间实测发现该功能背后可能部署了一个独立于 DeepSeek V4 Flash/Pro 之外的新视觉模型。尽管官方尚未发布详细技术报告，但该模式的快速上线及其展现出的能力引发了广泛关注。

核心性能实测

1. 推理能力：速度与准确性的权衡

非思考模式：响应速度极快，几乎无需等待。但在处理复杂空间推理题（如正方体拼图）时，模型倾向于秒级给出错误答案。
深度思考模式：开启后能成功解决上述空间推理难题，但推理过程冗长，耗时超过4分钟。观察发现，模型在中段已找到正确答案，随后却进行了大量无效的自我修正与绕路。
图片找不同任务：
- 非思考模式：快速识别7处差异，但存在明显幻觉（如凭空生成不存在的钥匙或盘子）。
- 思考模式：耗时16秒，识别出12处差异，但幻觉现象反而增多。

2. 实用功能表现

OCR与文本提取：对纯文本和表格内容的识别准确，格式可完美转换为Markdown，且能自动添加超链接。
网页复原：支持将网页截图直接还原为可用的HTML代码，按钮等功能组件配置正确，可实现跳转。
特殊测试：
- 能通过“隐藏图片”测试。
- 在色盲测试中偶有失败案例。

关键事实与推测

模型独立性：通过对比发现，DeepSeek V4 Flash/Pro在无联网状态下无法获取2026年4月的信息，而识图模式却能检索到相关数据。这表明识图模式中的视觉底座可能是独立训练的，且知识截止时间更新至2025年5月之后（实测包含2026年4月信息）。
技术预期：此前DeepSeek在V4技术报告中提及的多模态整合目标，实际落地速度远超外界预期，甚至可能比报告中描述的进度更为超前。

当前状态

该识图模式目前仍处于灰度测试阶段，覆盖范围正在逐步扩大。虽然其在推理逻辑和部分感知任务上仍有优化空间，但其多模态能力的快速涌现标志着DeepSeek在视觉与大模型结合领域取得了实质性进展。

阅读原文详情