百度开源 Unlimited OCR:一次读完一本书,作者疑为前 DeepSeek 研究员
百度开源全新 OCR 模型 Unlimited OCR,在 OmniDocBench 上以 93.92% 得分刷新 SOTA,超越 DeepSeek OCR。该模型通过参考滑动窗口注意力(R-SWA)机制实现连续阅读数十页文档,显存占用不随长度增长。技术报告作者中“YY”被疑为前 DeepSeek OCR 团队核心研究员魏浩然。
事件概述
百度近日开源了全新的 OCR 模型 Unlimited OCR,主打一次性连续处理数十页长文档,在 OmniDocBench v1.6 上取得 93.92% 的综合得分,刷新当前 SOTA,较 DeepSeek OCR 提升 6.22%。该模型的作者名单中一位署名为“YY”的核心贡献者,被社区推测为前 DeepSeek OCR 团队研究员魏浩然。
核心技术:参考滑动窗口注意力(R-SWA)
传统 OCR 处理长文档时采用“逐页处理+结果拼接”,每读一页重置上下文,导致 KV Cache 随文档长度膨胀。Unlimited OCR 借鉴人类阅读时的“软遗忘”机制,提出 参考滑动窗口注意力(R-SWA):
- 视觉 Token(参考 Token)始终保留在注意力计算中,类似原书始终摊开;
- 输出文本端仅保留最近 128 个历史 Token,更早内容自然淡出;
- KV Cache 设计为固定长度队列,每生成新 Token 就移除最旧状态,使显存占用和计算成本不随生成长度增长。
相比全注意力(KV Cache 不断膨胀)和传统滑动窗口(视觉信息被挤出),R-SWA 在维持图像感知的同时实现恒定的推理开销。
实验表现
- 整体精度:OmniDocBench v1.5 得分 93.23%,v1.6 得分 93.92%,均超过 DeepSeek OCR。
- 长文本解析:一次性输入 40 页以上文档时,Distinct-35 达到 96.90%,编辑距离稳定在 0.1069 以下。
- 推理效率:生成 6000 Token 时,推理速度(TPS)较 DeepSeek OCR 提升约 35%,延迟基本保持稳定。
更广泛的启示
R-SWA 机制本质上是一种新的大模型长上下文管理思路——通过“遗忘”而非“扩容”来管理记忆。团队计划未来将解析能力扩展到 128K,并探索将 R-SWA 应用于语音识别、机器翻译等任务。该技术路线与 DeepSeek OCR2 探索的“怎么看”(视觉理解)形成了互补:一个关注高效理解视觉信息,另一个则关注超长任务中的信息保留与遗忘。
技术报告的三位核心贡献者中,代号“YY”的成员被标注为技术总监。因其延续 DeepSeek OCR 中的“DeepEncoder”高压缩率视觉编码器、行文风格相近,以及项目致谢中提及 DeepSeek OCR,社区普遍认为 YY 即前 DeepSeek OCR 团队研究员 魏浩然(曾主导 GOT-OCR2.0 和 DeepSeek OCR 系列核心研发)。目前身份尚未得到官方确认。
