百度发布 PaddleOCR-VL-1.6:文档解析准确率 96.33% 刷新 SOTA
2026/06/02 15:47阅读量 2
百度发布文心衍生模型 PaddleOCR-VL-1.6,在 OmniDocBench v1.6 上准确率达 96.33%,超越 GPT-5.2、Gemini-3-Pro 等模型,综合性能全球第一。模型在文本、公式、表格等核心识别能力上全面领先,尤其在表格、古籍、生僻字等复杂场景表现突出。模型代码及权重已开源至 GitHub 和 Hugging Face。
事件概述
百度正式发布 PaddleOCR-VL-1.6,这是一款基于文心大模型训练的文档解析模型,在多项权威评测中刷新业界最好成绩(SOTA)。
核心性能数据
- OmniDocBench v1.6:总指标 96.33%,超越 Gemini-3-Pro、GPT-5.2、MinerU-2.5-Pro、GLM-OCR 等,综合性能全球第一。
- Real5-OmniDocBench(真实复杂场景):总指标 93.19%,较 Gemini-3-Pro 提升近 4 个百分点,在扫描件、弯折文档、屏幕拍照、光照变化及倾斜文档等五大场景均保持领先。
技术特点
- 保持 0.9B 轻量化架构,通过模型驱动的数据构建机制和渐进式训练优化提升准确率和场景适应能力。
- 与上一代 PaddleOCR-VL-1.5 模型结构一致,开发者和企业用户无需额外适配即可平滑迁移。
- 支持超 100 种语言识别,用户覆盖 170 多个国家和地区。
- 在文本、公式、表格、古籍、生僻字、印章、图表识别等多项能力上实现全面领先或显著提升。
开源与部署
- 已上线 PaddleOCR 官网(paddleocr.com),支持网页端和 API 调用。
- 模型代码及权重已同步开源至 GitHub(github.com/PaddlePaddle/PaddleOCR)和 Hugging Face(huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6),面向全球开发者开放使用。
