DeepSeek 新论文揭秘:以“视觉锚点”破解多模态推理引用鸿沟

2026/05/01 08:28阅读量 4

DeepSeek 发布(后撤回)的论文《Thinking with Visual Primitives》提出通过坐标框和点作为“视觉原语”,解决多模态模型在图像推理中的“引用鸿沟”问题。该方法将图像压缩比提升至7056倍,在迷宫导航、路径追踪等空间任务上显著优于主流模型,但受限于分辨率,精细任务如数手指仍存在缺陷。

事件概述

DeepSeek 研究员陈小康曾公开一篇题为《Thinking with Visual Primitives》的新论文,随后该推文及 GitHub 上的论文被删除。尽管内容已撤下,但其核心创新点揭示了多模态大模型在视觉推理领域的关键突破:从单纯提升“感知清晰度”转向解决“精准引用”难题。

核心机制:视觉原语与认知锚点

传统多模态模型(如 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash)通常将图像转化为文本描述进行思维链推理,导致在复杂场景中无法精确定位物体,即存在“引用鸿沟”(Reference Gap)。

DeepSeek 提出的解决方案是引入视觉原语(Visual Primitives),即坐标框(Bounding Box)和点(Point),让模型在推理过程中像人类一样“边指边想”:

  • 坐标框:用于标定物体位置,适合计数和分类。
  • 坐标点:用于追踪路径,适合迷宫导航和线条连接。
  • 效率对比:处理一张 756×756 的图片,主流模型需消耗上千个 Token(如 Gemini 约 1100 个,GPT 约 740 个),而 DeepSeek 仅用 90 个信息单元,实现了7056 倍的压缩比,节省的算力用于强化坐标锚定能力。

训练策略与数据构建

为确保模型掌握精准的定位能力,DeepSeek 采取了严格的训练流程:

  1. 数据筛选:从 Huggingface 等平台爬取 9.7 万带目标检测标签的数据源,经过两轮严格清洗(剔除无意义标签、模糊缩写、标注质量差样本),最终保留 3.1 万个高质量数据集,合成超过4000 万条训练样本。
  2. 分阶段训练:先独立训练“画框专家”和“标点专家”模型,避免多任务干扰;再通过强化学习合并能力。
  3. 强化学习机制:设计多维度打分系统,不仅考核最终答案,还奖励合法的探索过程(如在迷宫中每一步的正确移动),防止模型偷懒或作弊。

性能表现与任务对比

在四大核心任务测试中,基于 DeepSeek-V4-Flash(284B 参数 MoE 架构,推理激活 13B 参数)的模型表现如下:

任务类型DeepSeek 准确率主流模型平均/代表值关键差异
迷宫导航66.9%≈50% (随机猜测水平)能处理陷阱迷宫,通过坐标点逐步探索而非猜测。
路径追踪56.7%Claude: 30.6% / Gemini: 41.4%模拟人类视线跟踪,动态密集标点,远超竞品。
物体计数精准框出 25 人合照-能逐个圈出个体并统计,但精细任务受限。
多跳推理6 次坐标锚定核对-有效避免思维链断裂,属性核对准确。

当前局限与未来方向

尽管在空间推理上取得突破,该方案仍存在明显短板:

  • 分辨率限制:视觉编码器输出被限制在 81 至 384 个信息单元之间,导致精细任务(如数手指)因坐标精度不足而失败。
  • 触发机制依赖:目前需要特定触发词才能激活“视觉原语模式”,模型尚不能自主判断何时需要“伸手指”。
  • 泛化能力:在训练过的拓扑结构(如特定迷宫形状)上表现优异,面对全新空间结构时可能失效。

结论:该研究证明,在多模态推理中,教会模型“精准引用”比单纯堆砌分辨率更有效。DeepSeek 通过压缩图像信息并强化坐标锚定,成功解决了传统纯文本推理的模糊性问题,为后续多模态模型的进化指明了新方向。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。