百度开源 Unlimited OCR：一次读完一本书，作者疑为前 DeepSeek 研究员

2026/06/28 14:04阅读量 2

百度开源全新 OCR 模型 Unlimited OCR，在 OmniDocBench 上以 93.92% 得分刷新 SOTA，超越 DeepSeek OCR。该模型通过参考滑动窗口注意力（R-SWA）机制实现连续阅读数十页文档，显存占用不随长度增长。技术报告作者中“YY”被疑为前 DeepSeek OCR 团队核心研究员魏浩然。

事件概述

百度近日开源了全新的 OCR 模型 Unlimited OCR，主打一次性连续处理数十页长文档，在 OmniDocBench v1.6 上取得 93.92% 的综合得分，刷新当前 SOTA，较 DeepSeek OCR 提升 6.22%。该模型的作者名单中一位署名为“YY”的核心贡献者，被社区推测为前 DeepSeek OCR 团队研究员魏浩然。

核心技术：参考滑动窗口注意力（R-SWA）

传统 OCR 处理长文档时采用“逐页处理+结果拼接”，每读一页重置上下文，导致 KV Cache 随文档长度膨胀。Unlimited OCR 借鉴人类阅读时的“软遗忘”机制，提出 参考滑动窗口注意力（R-SWA）：

视觉 Token（参考 Token）始终保留在注意力计算中，类似原书始终摊开；
输出文本端仅保留最近 128 个历史 Token，更早内容自然淡出；
KV Cache 设计为固定长度队列，每生成新 Token 就移除最旧状态，使显存占用和计算成本不随生成长度增长。

相比全注意力（KV Cache 不断膨胀）和传统滑动窗口（视觉信息被挤出），R-SWA 在维持图像感知的同时实现恒定的推理开销。

实验表现

整体精度：OmniDocBench v1.5 得分 93.23%，v1.6 得分 93.92%，均超过 DeepSeek OCR。
长文本解析：一次性输入 40 页以上文档时，Distinct-35 达到 96.90%，编辑距离稳定在 0.1069 以下。
推理效率：生成 6000 Token 时，推理速度（TPS）较 DeepSeek OCR 提升约 35%，延迟基本保持稳定。

更广泛的启示

R-SWA 机制本质上是一种新的大模型长上下文管理思路——通过“遗忘”而非“扩容”来管理记忆。团队计划未来将解析能力扩展到 128K，并探索将 R-SWA 应用于语音识别、机器翻译等任务。该技术路线与 DeepSeek OCR2 探索的“怎么看”（视觉理解）形成了互补：一个关注高效理解视觉信息，另一个则关注超长任务中的信息保留与遗忘。

技术报告的三位核心贡献者中，代号“YY”的成员被标注为技术总监。因其延续 DeepSeek OCR 中的“DeepEncoder”高压缩率视觉编码器、行文风格相近，以及项目致谢中提及 DeepSeek OCR，社区普遍认为 YY 即前 DeepSeek OCR 团队研究员 魏浩然（曾主导 GOT-OCR2.0 和 DeepSeek OCR 系列核心研发）。目前身份尚未得到官方确认。

阅读原文详情

事件概述

核心技术：参考滑动窗口注意力（R-SWA）

实验表现

更广泛的启示

准备好启动您的定制项目了吗？