小红书开源首个多模态模型小红书新模型接近Gemini2.5Pro小红书开源了多模

量子位看科技 2025-08-07 16:30:07

小红书开源首个多模态模型小红书新模型接近Gemini2.5Pro

小红书开源了多模态模型dots.vlm1,模型基于DeepSeek V3 LLM,在多个主流评测中表现接近Gemini 2.5 Pro、Seed-VL1.5等闭源模型。

在结构化图像、STEM推理、长尾识别、视觉语言融合等任务中,dots.vlm1展现出强大的泛化与理解能力:

1. 复杂图表推理样例(参考图1)

模型需解析16×16热力图矩阵中的数值分布,判断每一列是否有恰好9个值大于21。任务看似简单,实则包含多步视觉感知、数值比对、行列遍历与最终计数判断。dots.vlm1在OCRReasoning、charxiv等任务中表现稳健,体现了其处理结构化图像与数值逻辑的综合能力。

2. 数学物理类STEM推理(参考图2)

面对几何图形与面积计算题,模型不仅要具备物理量理解,还需推导出多个中间变量并完成多步几何推理。这类任务对公式推理链条与图形结构识别要求极高。dots.vlm1在AIME 2025、GPQA等数据集上成绩稳定,具备处理数学与物理交叉题目的能力,适用于教育和理科辅导场景。

3. 文物识别与跨模态知识调取(参考图3)

识别青铜器类型并结合历史知识判断选项,对模型的图像细节感知与知识调用能力都是挑战。dots.vlm1在charxiv、InfoVQA等任务中具备对低频名词与专业实体的理解能力,得益于其引入PDF、百科等结构化文本资源,适用于文化、博物、古籍等垂直领域。

4. 视觉推理样例(参考图4)

从图中文字排列“LOAD”中联想到“download”,这类Rebus谜题要求模型将视觉空间信息与语言表达方式做深度融合。dots.vlm1在MathVision等任务中具备较强的图文融合能力,能识别隐喻、拆词、符号等复合信息结构,具备较强的类人联想与理解能力。

模型架构介绍:

- 自研NaViT视觉编码器:完全从零训练,支持动态分辨率,结合纯视觉任务提升感知力;

- 多源多模态数据:除常见图文对外,还引入图表、公式、文档等结构化图像,并对网页/PDF等真实数据进行重构清洗;

- 三阶段训练流程:从视觉预训练、多模态预训练,到有监督微调,构建出兼具视觉精度与语言泛化的VLM系统。

整体来看,dots.vlm1不仅能胜任结构化图像理解与科学类推理任务,在知识稀疏、语言融合等更复杂的跨模态场景中也展现出较强竞争力。

感兴趣可戳→

GitHub:github.com/rednote-hilab/dots.vlm1

Hugging Face:huggingface.co/rednote-hilab/dots.vlm1.inst

Demo体验:huggingface.co/spaces/rednote-hilab/dots-vlm1-demo

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注