今天AI圈最大的瓜，居然藏在GitHub里？

好家伙，百度直接把 Unlimited-OCR 开源了‼️
本来以为只是又发一个OCR模型，结果越看越发现，这里面的信息量比模型本身还大。
-
Unlimited-OCR最大的升级，是把长文档OCR这个老难题狠狠干了一遍。
它模拟的是人读书的方式。
比如你看到第50页，不会再记得第一页讲了什么；模型也是一样，不需要一次把几百页图片全记住，而是边读边忘，也就是论文所谈到的“软遗忘”机制，这样一来，古籍、论文、多页PDF可以连续解析，不容易出现计算量爆炸问题。简单说，Unlimited-OCR像是真正把一本书"读完"。
-
官方介绍里，这次解码端用了R-SWA参考滑动窗口注意力机制，编码端沿用了DeepSeek-OCR里的DeepEncoder思路，所以长上下文能力提升不少。
不过更有意思的是另外一个细节。
不少开发者发现，Unlimited-OCR的GitHub主页专门致敬了DeepSeek-OCR系列，甚至在技术报告中，高达40+次提到了DeepSeek-OCR，不少人开始猜测，这项目的背后大神，搞不好是此前DeepSeek离职的 OCR核心作者魏浩然，毕竟这项目怎么看都像是在原有技术路线上继续往前做，而不是另起炉灶。
如果这一点属实，那得期待下百度之后还会端出什么了🤔

DC娱乐网

今天AI圈最大的瓜，居然藏在GitHub里？

热门分类