DeepSeek 发布视觉多模态新思路：给模型一根“坐标手指”，解决推理中的引用鸿沟

2026/05/01 09:50阅读量 11

DeepSeek 在五一假期前公开了一份视觉多模态技术报告，核心不是提升图像分辨率，而是将边界框和点作为“视觉基元”直接嵌入模型的推理过程，以消除语言在连续视觉空间中的指代模糊。该方法在空间推理和计数任务中表现出明显的效率优势，处理一张 800×800 图像仅需约 361 个 token，不及同类模型的 1/3，但也存在依赖触发词、分辨率受限和跨场景泛化不足等局限。

事件概述

2026 年五一假期前，DeepSeek 发布了一份视觉多模态技术报告，展示了一种与主流路线截然不同的视觉推理方法。过去一年，OpenAI、谷歌、Anthropic 等公司都在通过提高图像分辨率、引入动态裁剪等方式解决“感知鸿沟”，即让模型看清更多细节。而 DeepSeek 将重点放在了“引用鸿沟”上——即使模型已经看清图像，在连续推理中依然会因为语言指代模糊而定位不到同一个对象。为此，DeepSeek 提出将边界框和点这些最基础的空间标记提升为“视觉基元”，让模型在推理时像人类伸手指点一样，一边输出语言，一边用坐标明确锚定目标，从而在空间推理、计数等任务中获得更稳定、可追踪的逻辑链。

核心创新：用视觉基元消除指代歧义

DeepSeek 将这一机制概括为“边推理边指向”。不同于多数多模态模型只在最终结果中给出检测框，或者仅将框作为辅助草稿，DeepSeek 让空间坐标直接成为推理链的组成部分。模型在每一步思考时都会显式输出类似“我看到一只狗，它在这里：[[x1,y1,x2,y2]]”的坐标信息，每一步推断都锚定到具体像素位置。这一设计使模型在迷宫导航、物体计数、路径追踪等需要持续跟踪同一对象的任务中，不易出现逻辑漂移。报告中的示例如迷宫探索：模型从起点出发，尝试、回溯、再规划，最终输出一串完整坐标路径，每个坐标对应迷宫中的一个确定位置。

DeepSeek 的做法与 OpenAI 的 “thinking with images” 形成有趣对比。OpenAI 允许模型在推理过程中对图像进行裁剪、缩放、旋转等操作，将视觉操作内化为一种隐性能力；而 DeepSeek 则把空间坐标显式写进文本思考链，使推理过程完全透明，更容易训练、奖励和验证。

极致效率：压缩稀疏注意力的再次应用

报告中一个容易被忽略但极其关键的细节是 token 消耗的压缩比。以处理 800×800 分辨率图像为例，Gemini-3-Flash 需要约 1100 个 token，Claude-Sonnet-4.6 约 870 个，GPT-5.4 约 740 个，Qwen3-VL 约 660 个，而 DeepSeek 仅需约 361 个 token，并在 KV 缓存中只保留约 90 个条目——缓存占用约为 Gemini 的十分之一。

这种效率依靠的是“压缩稀疏注意力”（Compressed Sparse Attention, CSA）。图像首先经过 ViT 分块（14×14 patch size），生成 2916 个 patch token，再经 3×3 空间压缩降至 324 个视觉 token；进入语言模型预填充后，CSA 进一步将视觉 token 在 KV 缓存中压缩 4 倍，最终仅保留 81 个条目。从原始 571536 个像素到 81 个缓存条目，压缩比达 7056 倍。

大幅度压缩视觉 token 直接降低了推理延迟和显存占用，同等硬件上可处理更多图像或更长多轮对话。由于每张图的 token 极省，在 128k 上下文中能够容纳数百张图片，对多图对比、长视频分析等场景更为友好。同时，这种机制也拉低了训练成本，延续了 DeepSeek 一贯“以更少资源实现更高效能”的思路。

局限性与未来方向

DeepSeek 在报告中坦诚指出了当前方法的三个不足：

触发词依赖：模型目前无法自主判断何时该用视觉基元，必须借助明确的触发词（如“边界框”“点”）才能激活坐标推理。理想状态下，模型应具备一个元认知层，能根据任务复杂度自动切换推理模式。
分辨率限制：为控制 token 数量，视觉 token 范围被限制在 81–384 之间，超出范围会被缩放，导致在医疗影像、工业质检等需要细粒度分析的任务上精度不足。未来可能通过混合方案，即大部分区域使用压缩表征，只对关键局部动态调用高分辨率裁剪来解决。
跨场景泛化：模型在合成迷宫和程序化路径追踪上表现不错（准确率分别为 66.9% 和 56.7%），但迁移到真实地图、复杂管线图等真实拓扑场景时性能可能下降。尽管训练数据覆盖了超过 31701 个数据源、逾 4000 万个样本，但模型对拓扑推理本质的掌握仍有待加强。

报告同时指出，视觉基元这套新表征体系与现有主流多模态数据生态不完全兼容，复现和改进的门槛较高。DeepSeek 敢于公开这些现实问题，表明其对技术发展阶段有清醒判断，也为后续研究划出了明确的攻坚点。

阅读原文详情

事件概述

核心创新：用视觉基元消除指代歧义

极致效率：压缩稀疏注意力的再次应用

局限性与未来方向

准备好启动您的定制项目了吗？