这篇论文提出:纯语言思维根本不适合做视觉空间推理。模型之所以会数错人、指错物,原因在于指不准——自然语言天生带有模糊性,无法在稠密场景里精确定位实体,最终引发连环幻觉。
DeepSeek 给出的解法,是把视觉原语(Visual Primitives)变成模型的基础思考单元。它把直接塞进推理链,让模型像人用手指点一样,边推理、边定位、边验证。边界框负责精准圈定目标,支撑计数与空间关系判断;点负责轻量标记轨迹,适配迷宫导航与路径追踪,两者归一化为离散坐标,和文本 Token 无缝融合,无需外挂模块。
为了让两种能力互不干扰,模型采用专家分离+统一蒸馏的路线:
先分别训练框专家与点专家,再通过策略蒸馏把能力合并,兼顾专业性与通用性。配合 CSA 视觉 Token 压缩,它在极低计算开销下,把计数、空间推理、拓扑导航的精度推到新高度。
一起来看看吧!









