五一你们都在景区挤人头,DeepSeek在论文里教AI 数人头。
事情是这样的:他们发了篇论文,展示怎么让AI学会 边指边看。结果写得太实在,细节露太多,吓得连夜自己撤了。这操作就很灵性——像极了发了朋友圈秒删的你。
说回技术本身。咱们平时用视觉AI,最崩溃的场景是什么?你让它 找左边那个穿红衣服的,它盯着画面看半天,给你圈了个路灯。问题出在哪?DeepSeek这次一针见血:过去所有人都在卷 看得清,没人管 指得准。你用文字描述位置,AI脑子里就是一团浆糊,这叫 指代鸿沟。
他们的解法,粗暴但优雅:给AI装一根手指。
不是比喻,是真的让它推理的时候画框、标坐标。左下角那只熊,排除;再往右上看,这只符合——AI一边叨叨,一边在脑内画圈圈。结果呢?在找东西、数数这类任务上,分数直接把GPT最新版甩开一截。
这事的真正爽点在于:以后的AI不再是 看图说话,而是 指着图说话。你问它插座在哪,它的视觉反馈会配上坐标级的精准度。
这才是五一期间最值得蹲的瓜。别人在高速看车展,我们在家里看AI学数数。
也是一种过节方式。
