百度的PP-OCRv6识别模型,大模型还真干不过它。其中medium系列才76.47M。
PP-OCRv6 是一个轻量级 OCR 系统,结合了架构创新与以数据为中心的优化。它围绕一种统一的 MetaFormer 风格构建模块(采用结构重参数化)重新设计了主干网络、检测颈部和识别颈部。三个模型层级(medium、small、tiny)共享相同的模块基元,覆盖从服务器到边缘设备的部署场景。
核心特性统一且可扩展的模型系列: 包含 1.5M 至 34.5M 参数的三级 OCR 模型家族。PP-OCRv6_medium 在检测任务上达到 86.2% 的 Hmean,在识别任务上达到 83.2% 的准确率,分别比 PP-OCRv5_server 提升了 +4.6% 和 +5.1%。
轻量化架构创新: (i) LCNetV4,一种采用结构重参数化的 MetaFormer 风格轻量级主干网络;(ii) RepLKFPN,一种采用膨胀可重参数化深度卷积的检测颈部;(iii) EncoderWithLightSVTR,一种融合局部-全局注意力机制和加性跳跃连接的识别颈部。
多语言与多场景支持: 支持 50 种语言及多种工业场景(数码显示屏、点阵字符、轮胎印迹等),在参数量低几个数量级的情况下,性能超越 Qwen3-VL-235B、GPT-5.5 和 Gemini-3.1-Pro。
项目地址:www.modelscope.cn/collections/PaddlePaddle/PP-OCRv6