文心为啥这么强？看完PP-OCRv6总算明白了

这两年，大模型都在强调多模态。
以前我们只能给 AI 输入文字。现在它可以看图片、读文档、还能理解视频。
但当 AI 真正开始看图片、读文件时，有一项很容易被忽略的基础能力：OCR。

但其实，你早就接触过 OCR。
扫描文件、拍照翻译、截图提取文字，背后都有它。它做的事情就一件——找到图片里的文字，把它们转换成计算机可以读取和处理的内容。
多模态模型通常也能读取图片里的文字。但理解一份文件的大概意思，和准确识别其中每一个字、每一个数字，是两种不同的要求。
尤其是财报、票据和企业知识库，金额多一个零、小数点少一位，后面的大模型分析得再认真，答案也是错的。
一句话，多模态负责看懂，专业 OCR 负责看准。
最近百度发布了新一代 OCR 模型 PP-OCRv6。
让我们来看看

DC娱乐网

文心为啥这么强？看完PP-OCRv6总算明白了

热门分类