DeepSeek 首次赋予模型视觉推理能力,技术论文突遭撤下

2026/05/01 10:48阅读量 2

DeepSeek 开始灰测多模态视觉能力,推出基于“视觉基元”的推理框架,让模型能使用点、框、路径坐标等基础元素进行精确的视觉思考。然而,解释该技术的论文在发布后数小时内被连夜撤下,未说明原因。该框架在计数、空间和拓扑推理等任务上展现出独特优势,但也存在分辨率依赖、需显式触发和跨场景泛化能力有限等不足。

事件概述

4月29日,DeepSeek研究员陈小康发文宣布其多模态视觉能力开始灰度测试。与此前主流模型为语言底座附加多模态功能的做法不同,DeepSeek的视觉能力被视为一个拥有原生思考和推理能力的独立模型。

为解释这一技术方向,团队发布了论文《Thinking with Visual Primitives》(用视觉基元思考),但论文在发布后极短时间内被撤下,未给出任何解释,引发外界对其技术敏感性和战略考量的诸多猜想。

核心信息:视觉基元推理框架

DeepSeek此次展示的视觉能力核心在于“视觉基元”推理框架。该框架旨在解决传统多模态模型中普遍存在的“指代鸿沟”问题,即模型能够识别图像内容,却难以在复杂的视觉空间中稳定、精确地指向和跟踪具体对象。

该框架的核心思想是让模型的推理过程不再仅依赖于模糊的自然语言描述,而是将图像中的点、边界框、路径坐标等基础几何元素作为“认知锚点”,直接在视觉空间中进行定位和推理。

三类核心视觉推理能力

基于此框架,当前的视觉模型主要聚焦三类任务:

  • 计数任务:利用边界框作为视觉锚点,遵循“定位-验证-统计”的流程。例如,进行细粒度计数(如“地上有几只熊”)时,模型会先定位所有熊,再逐一判断其位置,最后得出答案。与传统方法相比,细粒度计数准确率提高约40%。
  • 空间推理:先使用边界框准确定位目标物体,再进行多步关系推断,避免因语义模糊造成的对象混淆。判断“与灰色金属物体大小相同的紫色橡胶物体”等复杂问题时,错误率降低了50%。
  • 拓扑推理:主要使用点坐标来追踪路径和连通性。在迷宫求解任务中,模型会采用类似深度优先搜索的方式,用点记录路径,并在遇到死路时回退和重试。模型甚至会进行反向推理并结合正向验证,反复核算路径的可行性。

技术优势与当前局限

该框架带来了稳定性和可解释性上的收益。明确的视觉锚点有助于减少模型幻觉,并方便用户通过可视化基元(如框)验证其推理过程。在高效率方面,对于800×800分辨率的输入图像,仅需约90个KV cache条目,即可在多项基准上实现有竞争力的表现。

目前该方法也存在三个明确的局限:

  1. 感知能力受限于分辨率:对于图中的微小、密集或模糊细节,视觉基元本身可能出现标注不准的问题。
  2. 依赖显式触发机制:当前需要特定提示词才能激活此能力,尚未实现模型根据上下文自主判断是否调用。
  3. 拓扑推理跨场景泛化能力弱:处理复杂拓扑问题时,仅凭点坐标难以稳定判断连通性,跨场景错误率仍达15-20%,且一旦中间某步推理出错,后续步骤极易偏离。

值得关注

尽管视觉基元并非终极解决方案,但它体现了DeepSeek在多模态领域的一种根本性思路:即视觉信息不应只是模型的输入材料,而应成为其推理过程的内在组成部分。该技术在网页复刻(可节省约70%的原型开发时间)、迷宫求解等实测场景中已展现出超过常规多模态模型的独特优势。论文被仓促撤回的原因尚不明朗,有外界猜测认为,其技术对于开源模型而言可能“过于强大”或涉及关键战略调整,有待DeepSeek官方后续说明。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。