DeepSeek 发布视觉多模态新思路:给模型一根“坐标手指”,解决推理中的引用鸿沟

2026/05/01 09:50阅读量 11

DeepSeek 在五一假期前公开了一份视觉多模态技术报告,核心不是提升图像分辨率,而是将边界框和点作为“视觉基元”直接嵌入模型的推理过程,以消除语言在连续视觉空间中的指代模糊。该方法在空间推理和计数任务中表现出明显的效率优势,处理一张 800×800 图像仅需约 361 个 token,不及同类模型的 1/3,但也存在依赖触发词、分辨率受限和跨场景泛化不足等局限。

事件概述

2026 年五一假期前,DeepSeek 发布了一份视觉多模态技术报告,展示了一种与主流路线截然不同的视觉推理方法。过去一年,OpenAI、谷歌、Anthropic 等公司都在通过提高图像分辨率、引入动态裁剪等方式解决“感知鸿沟”,即让模型看清更多细节。而 DeepSeek 将重点放在了“引用鸿沟”上——即使模型已经看清图像,在连续推理中依然会因为语言指代模糊而定位不到同一个对象。为此,DeepSeek 提出将边界框和点这些最基础的空间标记提升为“视觉基元”,让模型在推理时像人类伸手指点一样,一边输出语言,一边用坐标明确锚定目标,从而在空间推理、计数等任务中获得更稳定、可追踪的逻辑链。

核心创新:用视觉基元消除指代歧义

DeepSeek 将这一机制概括为“边推理边指向”。不同于多数多模态模型只在最终结果中给出检测框,或者仅将框作为辅助草稿,DeepSeek 让空间坐标直接成为推理链的组成部分。模型在每一步思考时都会显式输出类似“我看到一只狗,它在这里:[[x1,y1,x2,y2]]”的坐标信息,每一步推断都锚定到具体像素位置。这一设计使模型在迷宫导航、物体计数、路径追踪等需要持续跟踪同一对象的任务中,不易出现逻辑漂移。报告中的示例如迷宫探索:模型从起点出发,尝试、回溯、再规划,最终输出一串完整坐标路径,每个坐标对应迷宫中的一个确定位置。

DeepSeek 的做法与 OpenAI 的 “thinking with images” 形成有趣对比。OpenAI 允许模型在推理过程中对图像进行裁剪、缩放、旋转等操作,将视觉操作内化为一种隐性能力;而 DeepSeek 则把空间坐标显式写进文本思考链,使推理过程完全透明,更容易训练、奖励和验证。

极致效率:压缩稀疏注意力的再次应用

报告中一个容易被忽略但极其关键的细节是 token 消耗的压缩比。以处理 800×800 分辨率图像为例,Gemini-3-Flash 需要约 1100 个 token,Claude-Sonnet-4.6 约 870 个,GPT-5.4 约 740 个,Qwen3-VL 约 660 个,而 DeepSeek 仅需约 361 个 token,并在 KV 缓存中只保留约 90 个条目——缓存占用约为 Gemini 的十分之一。

这种效率依靠的是“压缩稀疏注意力”(Compressed Sparse Attention, CSA)。图像首先经过 ViT 分块(14×14 patch size),生成 2916 个 patch token,再经 3×3 空间压缩降至 324 个视觉 token;进入语言模型预填充后,CSA 进一步将视觉 token 在 KV 缓存中压缩 4 倍,最终仅保留 81 个条目。从原始 571536 个像素到 81 个缓存条目,压缩比达 7056 倍。

大幅度压缩视觉 token 直接降低了推理延迟和显存占用,同等硬件上可处理更多图像或更长多轮对话。由于每张图的 token 极省,在 128k 上下文中能够容纳数百张图片,对多图对比、长视频分析等场景更为友好。同时,这种机制也拉低了训练成本,延续了 DeepSeek 一贯“以更少资源实现更高效能”的思路。

局限性与未来方向

DeepSeek 在报告中坦诚指出了当前方法的三个不足:

  1. 触发词依赖:模型目前无法自主判断何时该用视觉基元,必须借助明确的触发词(如“边界框”“点”)才能激活坐标推理。理想状态下,模型应具备一个元认知层,能根据任务复杂度自动切换推理模式。
  2. 分辨率限制:为控制 token 数量,视觉 token 范围被限制在 81–384 之间,超出范围会被缩放,导致在医疗影像、工业质检等需要细粒度分析的任务上精度不足。未来可能通过混合方案,即大部分区域使用压缩表征,只对关键局部动态调用高分辨率裁剪来解决。
  3. 跨场景泛化:模型在合成迷宫和程序化路径追踪上表现不错(准确率分别为 66.9% 和 56.7%),但迁移到真实地图、复杂管线图等真实拓扑场景时性能可能下降。尽管训练数据覆盖了超过 31701 个数据源、逾 4000 万个样本,但模型对拓扑推理本质的掌握仍有待加强。

报告同时指出,视觉基元这套新表征体系与现有主流多模态数据生态不完全兼容,复现和改进的门槛较高。DeepSeek 敢于公开这些现实问题,表明其对技术发展阶段有清醒判断,也为后续研究划出了明确的攻坚点。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。