DeepSeek 新论文揭秘：以“视觉锚点”破解多模态推理引用鸿沟

2026/05/01 08:28阅读量 4

DeepSeek 发布（后撤回）的论文《Thinking with Visual Primitives》提出通过坐标框和点作为“视觉原语”，解决多模态模型在图像推理中的“引用鸿沟”问题。该方法将图像压缩比提升至7056倍，在迷宫导航、路径追踪等空间任务上显著优于主流模型，但受限于分辨率，精细任务如数手指仍存在缺陷。

事件概述

DeepSeek 研究员陈小康曾公开一篇题为《Thinking with Visual Primitives》的新论文，随后该推文及 GitHub 上的论文被删除。尽管内容已撤下，但其核心创新点揭示了多模态大模型在视觉推理领域的关键突破：从单纯提升“感知清晰度”转向解决“精准引用”难题。

核心机制：视觉原语与认知锚点

传统多模态模型（如 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash）通常将图像转化为文本描述进行思维链推理，导致在复杂场景中无法精确定位物体，即存在“引用鸿沟”（Reference Gap）。

DeepSeek 提出的解决方案是引入视觉原语（Visual Primitives），即坐标框（Bounding Box）和点（Point），让模型在推理过程中像人类一样“边指边想”：

坐标框：用于标定物体位置，适合计数和分类。
坐标点：用于追踪路径，适合迷宫导航和线条连接。
效率对比：处理一张 756×756 的图片，主流模型需消耗上千个 Token（如 Gemini 约 1100 个，GPT 约 740 个），而 DeepSeek 仅用 90 个信息单元，实现了7056 倍的压缩比，节省的算力用于强化坐标锚定能力。

训练策略与数据构建

为确保模型掌握精准的定位能力，DeepSeek 采取了严格的训练流程：

数据筛选：从 Huggingface 等平台爬取 9.7 万带目标检测标签的数据源，经过两轮严格清洗（剔除无意义标签、模糊缩写、标注质量差样本），最终保留 3.1 万个高质量数据集，合成超过4000 万条训练样本。
分阶段训练：先独立训练“画框专家”和“标点专家”模型，避免多任务干扰；再通过强化学习合并能力。
强化学习机制：设计多维度打分系统，不仅考核最终答案，还奖励合法的探索过程（如在迷宫中每一步的正确移动），防止模型偷懒或作弊。

性能表现与任务对比

在四大核心任务测试中，基于 DeepSeek-V4-Flash（284B 参数 MoE 架构，推理激活 13B 参数）的模型表现如下：

任务类型	DeepSeek 准确率	主流模型平均/代表值	关键差异
迷宫导航	66.9%	≈50% (随机猜测水平)	能处理陷阱迷宫，通过坐标点逐步探索而非猜测。
路径追踪	56.7%	Claude: 30.6% / Gemini: 41.4%	模拟人类视线跟踪，动态密集标点，远超竞品。
物体计数	精准框出 25 人合照	-	能逐个圈出个体并统计，但精细任务受限。
多跳推理	6 次坐标锚定核对	-	有效避免思维链断裂，属性核对准确。

当前局限与未来方向

尽管在空间推理上取得突破，该方案仍存在明显短板：

分辨率限制：视觉编码器输出被限制在 81 至 384 个信息单元之间，导致精细任务（如数手指）因坐标精度不足而失败。
触发机制依赖：目前需要特定触发词才能激活“视觉原语模式”，模型尚不能自主判断何时需要“伸手指”。
泛化能力：在训练过的拓扑结构（如特定迷宫形状）上表现优异，面对全新空间结构时可能失效。

结论：该研究证明，在多模态推理中，教会模型“精准引用”比单纯堆砌分辨率更有效。DeepSeek 通过压缩图像信息并强化坐标锚定，成功解决了传统纯文本推理的模糊性问题，为后续多模态模型的进化指明了新方向。

阅读原文详情

事件概述

核心机制：视觉原语与认知锚点

训练策略与数据构建

性能表现与任务对比

当前局限与未来方向

准备好启动您的定制项目了吗？