BAIDU 刚刚推出了一款彻底颠覆文档 AI 的神器
它名叫 `Unlimited-OCR`,简直能一次性转录整本书 🤯
大多数视觉模型只能读一页,忘记上下文,最终会撞上性能衰减和推理速度变慢的墙。
在 `DeepSeek OCR` 基础上构建了这个模型,但只需对注意力机制做一处改动,就解决了内存膨胀问题。
设计灵感模仿人类手抄书的过程。
它不试图把整本书都塞进活跃内存,每个 token 只关注当前页加上最后 128 个词。
这创造了一个滑动窗口,让内存使用保持完全平稳,无论输出多长。
这种架构转变为文档解析带来了三大巨大升级:→ 固定的内存占用→ 在海量文档上保持稳定的生成速度→ 每次处理可达数十页的能力
数据来证明一切。
Unlimited-OCR 在标准解析基准上得分 93%,完胜旧版基线整整六分。
即使处理超过 40 页,错误率仍保持在 0.11 以下。
更重要的是,它维持了平坦的速度曲线,而旧模型会遭受 35% 的减速。
免费开源。
代码库、权重和论文见 🧵↓
