百度 PP-OCRv6 发布:1.5MB 模型实现 97 毫秒推理,刷新 OCR 性能纪录

2026/06/15 16:51阅读量 2

百度文心发布新一代 OCR 模型 PP-OCRv6,推出 Tiny、Small、Medium 三档版本,支持 50 多种语言。其中 Tiny 模型仅 1.5MB,可在浏览器本地运行,单图推理最快 97 毫秒,无需数据上传云端。在文本检测和识别任务上分别取得 86.2 和 83.2 的成绩,超过 GPT-5.5 等多模态大模型,综合性能全球第一。PaddleOCR 项目 GitHub Star 突破 8.22 万,成为最受关注的开源 OCR 项目之一。

事件概述

百度文心于近日正式发布新一代 OCR 模型 PP-OCRv6,一次性推出 Tiny、Small、Medium 三种规格,覆盖浏览器端、嵌入式设备到服务器等主流场景,支持 50 多种语言。

核心信息

  • 轻量化与速度:Tiny 版本模型大小仅 1.5MB,可直接部署于本地浏览器环境,用户数据无需上传云端即可完成 OCR 处理。单张图片预测最快仅需 97 毫秒,大幅降低部署门槛并保障隐私安全。
  • 性能突破:PP-OCRv6 在文本检测和文本识别任务上分别取得 86.283.2 的成绩,双双刷新此前由 PP-OCRv5 保持的最佳水平。综合表现领先于 Qwen3-VL-235B、GPT-5.5、Gemini-3.1-Pro 等主流多模态大模型。
  • 开源生态:作为文心大模型多模态能力的重要组成部分,PP-OCR 系列所在的开源项目 PaddleOCR 已支持超 110 种语言识别,服务于全球 170 多个国家和地区。其 GitHub Star 数量突破 8.22 万,超过 Google 旗下 Tesseract OCR,成为全球最受关注的开源 OCR 项目之一。PP-OCR 系列已被集成至 UmiOCR、MinerU、TurboOCR 等 OCR 工具链中,广泛用于文档解析、数据处理、知识库构建等场景。

获取方式

PP-OCRv6 已上线 PaddleOCR 官网(paddleocr.com),支持网页或 API 调用。代码和模型权重已在 GitHub(github.com/PaddlePaddle/PaddleOCR)和 HuggingFace 上开源。

准备好启动您的定制项目了吗?

现在咨询,即可获得免费的业务梳理与技术架构建议方案。