DeepSeek识图模式实测:独立视觉模型初现,推理与幻觉并存
2026/04/30 14:52阅读量 2
DeepSeek近期灰度测试的识图模式疑似基于独立于V4 Flash/Pro的新训练视觉模型,其知识库更新至2026年4月。实测显示该模式在非思考模式下速度极快但空间推理易错,开启深度思考后准确率提升但耗时显著增加(约4分钟)。在OCR、表格解析及HTML复原等实用功能上表现稳定,但在色盲测试及部分找不同任务中仍存在幻觉问题。
事件概述
DeepSeek近期向部分用户灰度开放了“识图模式”,民间实测发现该功能背后可能部署了一个独立于 DeepSeek V4 Flash/Pro 之外的新视觉模型。尽管官方尚未发布详细技术报告,但该模式的快速上线及其展现出的能力引发了广泛关注。
核心性能实测
1. 推理能力:速度与准确性的权衡
- 非思考模式:响应速度极快,几乎无需等待。但在处理复杂空间推理题(如正方体拼图)时,模型倾向于秒级给出错误答案。
- 深度思考模式:开启后能成功解决上述空间推理难题,但推理过程冗长,耗时超过4分钟。观察发现,模型在中段已找到正确答案,随后却进行了大量无效的自我修正与绕路。
- 图片找不同任务:
- 非思考模式:快速识别7处差异,但存在明显幻觉(如凭空生成不存在的钥匙或盘子)。
- 思考模式:耗时16秒,识别出12处差异,但幻觉现象反而增多。
2. 实用功能表现
- OCR与文本提取:对纯文本和表格内容的识别准确,格式可完美转换为Markdown,且能自动添加超链接。
- 网页复原:支持将网页截图直接还原为可用的HTML代码,按钮等功能组件配置正确,可实现跳转。
- 特殊测试:
- 能通过“隐藏图片”测试。
- 在色盲测试中偶有失败案例。
关键事实与推测
- 模型独立性:通过对比发现,DeepSeek V4 Flash/Pro在无联网状态下无法获取2026年4月的信息,而识图模式却能检索到相关数据。这表明识图模式中的视觉底座可能是独立训练的,且知识截止时间更新至2025年5月之后(实测包含2026年4月信息)。
- 技术预期:此前DeepSeek在V4技术报告中提及的多模态整合目标,实际落地速度远超外界预期,甚至可能比报告中描述的进度更为超前。
当前状态
该识图模式目前仍处于灰度测试阶段,覆盖范围正在逐步扩大。虽然其在推理逻辑和部分感知任务上仍有优化空间,但其多模态能力的快速涌现标志着DeepSeek在视觉与大模型结合领域取得了实质性进展。
