DC娱乐网

文心为啥这么强?看完PP-OCRv6总算明白了

这两年,大模型都在强调多模态。
以前我们只能给 AI 输入文字。现在它可以看图片、读文档、还能理解视频。
但当 AI 真正开始看图片、读文件时,有一项很容易被忽略的基础能力:OCR。

但其实,你早就接触过 OCR。
扫描文件、拍照翻译、截图提取文字,背后都有它。它做的事情就一件——找到图片里的文字,把它们转换成计算机可以读取和处理的内容。
多模态模型通常也能读取图片里的文字。但理解一份文件的大概意思,和准确识别其中每一个字、每一个数字,是两种不同的要求。
尤其是财报、票据和企业知识库,金额多一个零、小数点少一位,后面的大模型分析得再认真,答案也是错的。
一句话,多模态负责看懂,专业 OCR 负责看准。
最近百度发布了新一代 OCR 模型 PP-OCRv6。
让我们来看看