DeepSeek 新论文揭秘:以“视觉锚点”破解多模态推理引用鸿沟
DeepSeek 发布(后撤回)的论文《Thinking with Visual Primitives》提出通过坐标框和点作为“视觉原语”,解决多模态模型在图像推理中的“引用鸿沟”问题。该方法将图像压缩比提升至7056倍,在迷宫导航、路径追踪等空间任务上显著优于主流模型,但受限于分辨率,精细任务如数手指仍存在缺陷。
事件概述
DeepSeek 研究员陈小康曾公开一篇题为《Thinking with Visual Primitives》的新论文,随后该推文及 GitHub 上的论文被删除。尽管内容已撤下,但其核心创新点揭示了多模态大模型在视觉推理领域的关键突破:从单纯提升“感知清晰度”转向解决“精准引用”难题。
核心机制:视觉原语与认知锚点
传统多模态模型(如 GPT-5.4、Claude-Sonnet-4.6、Gemini-3-Flash)通常将图像转化为文本描述进行思维链推理,导致在复杂场景中无法精确定位物体,即存在“引用鸿沟”(Reference Gap)。
DeepSeek 提出的解决方案是引入视觉原语(Visual Primitives),即坐标框(Bounding Box)和点(Point),让模型在推理过程中像人类一样“边指边想”:
- 坐标框:用于标定物体位置,适合计数和分类。
- 坐标点:用于追踪路径,适合迷宫导航和线条连接。
- 效率对比:处理一张 756×756 的图片,主流模型需消耗上千个 Token(如 Gemini 约 1100 个,GPT 约 740 个),而 DeepSeek 仅用 90 个信息单元,实现了7056 倍的压缩比,节省的算力用于强化坐标锚定能力。
训练策略与数据构建
为确保模型掌握精准的定位能力,DeepSeek 采取了严格的训练流程:
- 数据筛选:从 Huggingface 等平台爬取 9.7 万带目标检测标签的数据源,经过两轮严格清洗(剔除无意义标签、模糊缩写、标注质量差样本),最终保留 3.1 万个高质量数据集,合成超过4000 万条训练样本。
- 分阶段训练:先独立训练“画框专家”和“标点专家”模型,避免多任务干扰;再通过强化学习合并能力。
- 强化学习机制:设计多维度打分系统,不仅考核最终答案,还奖励合法的探索过程(如在迷宫中每一步的正确移动),防止模型偷懒或作弊。
性能表现与任务对比
在四大核心任务测试中,基于 DeepSeek-V4-Flash(284B 参数 MoE 架构,推理激活 13B 参数)的模型表现如下:
| 任务类型 | DeepSeek 准确率 | 主流模型平均/代表值 | 关键差异 |
|---|---|---|---|
| 迷宫导航 | 66.9% | ≈50% (随机猜测水平) | 能处理陷阱迷宫,通过坐标点逐步探索而非猜测。 |
| 路径追踪 | 56.7% | Claude: 30.6% / Gemini: 41.4% | 模拟人类视线跟踪,动态密集标点,远超竞品。 |
| 物体计数 | 精准框出 25 人合照 | - | 能逐个圈出个体并统计,但精细任务受限。 |
| 多跳推理 | 6 次坐标锚定核对 | - | 有效避免思维链断裂,属性核对准确。 |
当前局限与未来方向
尽管在空间推理上取得突破,该方案仍存在明显短板:
- 分辨率限制:视觉编码器输出被限制在 81 至 384 个信息单元之间,导致精细任务(如数手指)因坐标精度不足而失败。
- 触发机制依赖:目前需要特定触发词才能激活“视觉原语模式”,模型尚不能自主判断何时需要“伸手指”。
- 泛化能力:在训练过的拓扑结构(如特定迷宫形状)上表现优异,面对全新空间结构时可能失效。
结论:该研究证明,在多模态推理中,教会模型“精准引用”比单纯堆砌分辨率更有效。DeepSeek 通过压缩图像信息并强化坐标锚定,成功解决了传统纯文本推理的模糊性问题,为后续多模态模型的进化指明了新方向。
