【百度新OCR模型爆火,技术总监“YY”到底是谁?】
百度昨天开源了Unlimited OCR,技术本身确实有意思——一次前向推理转录几十页文档,灵感来自人类抄书时的“软遗忘”,用一套参考滑动窗口注意力R-SWA把KV Cache压到恒定。但比起技术,更让我在意的,是论文末尾那页作者名单。
三位核心贡献者,两人实名——Youyang Yin、Huanhuan Liu,唯独技术总监那一栏,只留了两个字:“YY”。大厂技术报告,技术总监挂缩写,这事儿在圈内几乎没见过。YY是谁?网友已经开始玩梗:YYDS?还是另有深意?
更有意思的是,顺着GitHub致谢栏往回翻,赫然排在前两位的是DeepSeek-OCR和DeepSeek-OCR-2。而DeepSeek OCR从一代到二代,核心作者始终是同一支小队伍。国内OCR圈不大,能做R-SWA这种级别突破、同时对DeepSeek OCR架构有“亲手做过”级别熟悉的人,一只手数得过来。
再看这份报告的行文——故事性极强、先想明白人脑怎么工作再设计机制,不堆参数不卷榜单,这种探索型风格,像极了DeepSeek以往的技术报告。Unlimited OCR里提到的DeepEncoder,最初就是在DeepSeek OCR中被引入的,这次完美融合,与其说是竞品对标,不如说更像是对自己旧成果的延续和反思。
去年DeepSeek-V4那份58页报告里,10个带星号的名字至今还是未解之谜。不到半年走了五个人,这些人去了哪,圈内一直没断过猜测。
YY到底是谁现在没人敢下定论。但有一点可以肯定:百度最近搞AI的路子,确实不太一样了。




