让多模态模型像人一样用手指着思考

前段时间Deepseek上线之后又下架了的多模态论文，还好我手快保存了！

这篇论文提出：纯语言思维根本不适合做视觉空间推理。模型之所以会数错人、指错物，原因在于指不准——自然语言天生带有模糊性，无法在稠密场景里精确定位实体，最终引发连环幻觉。

DeepSeek 给出的解法，是把视觉原语（Visual Primitives）变成模型的基础思考单元。它把直接塞进推理链，让模型像人用手指点一样，边推理、边定位、边验证。边界框负责精准圈定目标，支撑计数与空间关系判断；点负责轻量标记轨迹，适配迷宫导航与路径追踪，两者归一化为离散坐标，和文本 Token 无缝融合，无需外挂模块。

为了让两种能力互不干扰，模型采用专家分离+统一蒸馏的路线：
先分别训练框专家与点专家，再通过策略蒸馏把能力合并，兼顾专业性与通用性。配合 CSA 视觉 Token 压缩，它在极低计算开销下，把计数、空间推理、拓扑导航的精度推到新高度。

一起来看看吧！

DC娱乐网

让多模态模型像人一样用手指着思考

热门分类