DC娱乐网

北大清华发布首个自行推理的多模态模型 LLaVA-o1

近日,北京大学、清华大学等科研团队发布了一款名为 LLaVA-o1的多模态开源模型,这是首个能够进行自发、系统推理的视觉

近日,北京大学、清华大学等科研团队发布了一款名为 LLaVA-o1的多模态开源模型,这是首个能够进行自发、系统推理的视觉语言模型。

与仅仅写入思路链提示词不同,LLaVA-o1是一种旨在进行自主多阶段推理的新型 视觉语言模型(VLM),LLaVA-o1 独立参与总结、视觉解释、逻辑推理和结论生成的顺序阶段。这种结构化方法使 LLaVA-o1 能够在推理密集型任务的精度上实现显着提高。

尽管LLaVA-o1是由Llama-3.2-11B-Vision-Instruct 模型(平均核心最低)进行微调的,但它的性能优于许多大型开源模型如 Llama-3.2-90B-Vision-Instruct,甚至一些有源模型,例如 Gemini-1.5-pro、GPT-4o-mini。

LLaVA-o1和其他模型在六个多模态推理基准中的性能

推理问题演示

LLaVA-o1 首先概述问题,从图像中解释相关信息,通过推理逐步进行,最终得出有充分依据的结论。

LLaVA-o1的推理过程及答案

总结阶段:问题是什么?我该怎么办?<SUMMARY>我将检查图像以识别和计算所有物体,重点关注那些闪闪发光的小球和紫色物体。然后,我将从总数中减去这些物体,并确定剩余物体的数量。 </SUMMARY>标题阶段:我能从图像中知道什么?<CAPTION>图像显示了平面上的各种 3D 几何形状,包括不同颜色的球体、立方体和圆柱体。值得注意的是,有闪闪发光的绿色小球和一个紫色圆柱体。 </CAPTION>推理阶段:如何逐步解决问题?<REASONING>首先,我将计算图像中的所有物体:总共有 10 个物体。接下来,我将识别并减去闪闪发光的小球。有一个闪闪发光的小绿色球体。然后,我将识别并减去紫色物体。有一个紫色圆柱体。通过从总数中减去两个物体(闪亮的球和紫色的圆柱体),我发现剩下 8 个物体。 </REASONING>结论阶段:最终答案是什么?<CONCLUSION> B </CONCLUSION>

科学问题演示

LLaVA-o1的推理过程及答案

总结阶段:这是什么问题?我该怎么办?<SUMMARY>为了解决这个问题,我将利用施加的力、位移和聚甲醛聚合物块尺寸之间的关系来确定聚甲醛聚合物块的剪切模量。我将使用剪切模量公式并计算结果。 </SUMMARY>标题阶段:我能从图片中了解到什么?<CAPTION>图片显示一个固定在两个刚性板之间的矩形聚甲醛聚合物块。当施加力(P = 2,\text{kN})时,顶板水平移动 2 毫米。该块的尺寸为长 400 毫米、高 200 毫米、宽 100 毫米。 </CAPTION>推理阶段:如何逐步解决问题?<推理>聚合物的剪切模量 ( G ) 可使用以下公式计算:[ G = \frac{F}{A \cdot \frac{\Delta x}{L}} ]其中:- ( F ) 为施加的力 (2 kN),- ( A ) 为块顶面的面积 ( 100 mm x 400 mm = 40,000 mm² ),- ( \Delta x ) 为水平位移 (2 mm),- ( L ) 为块的高度 ( 200 mm )。首先,将力转换为牛顿: ( F = 2 , \text{kN} = 2000 , \text{N} )。接下来,计算剪切模量:[ G = \frac{2000}{40,000 \cdot \frac{2}{200}} ][ G = \frac{2000}{40,000 \cdot 0.01} ][ G = \frac{2000}{400} ][ G = 5 , \text{MPa} ]</REASONING>结论阶段:最终答案是什么?<CONCLUSION> B:5 MPa </CONCLUSION>

推理过程及方法

LLaVA-o1将回答生成过程分解为四个结构化的推理阶段:

总结阶段Summary Stage。在这个初始阶段,LLaVA-o1提供了对这个问题的高级总结性解释,概述了它打算解决的问题的主要方面。

标题阶段Caption Stage。如果存在一个图像,LLaVA-o1提供了与该问题相关的可视化元素的简明概述,有助于理解多模态输入。

推理阶段Reasoning Stage。在最初总结的基础上,LLaVA-o1进行结构化的、逻辑的推理来删除初步的答案。

结论阶段Conclusion Stage。在最后一个阶段,LLaVA-o1根据前面的推理得到答案。在这里,结论阶段的输出是提供给用户的直接响应,而前面的三个阶段是内部的“隐藏阶段”,表示LLaVA-o1的推理过程。这个阶段的输出适应用户的要求:例如,如果用户要求一个简短的回答,结论将成立;如果需要详细的解释,则提供全面的、全面的反应。

值得一提的是,LLaVA-o1在推理过程中引入了阶段级光束搜索方法。这种方法允许模型在每个推理阶段生成多个候选答案,并选择最佳的答案继续进行下一阶段的推理,从而显著提高了整体推理质量。

数据集

大多数现有的VQA数据集缺乏训练LLaVA-o1模型所需的详细推理条件。研究团队从一些广泛使用的VQA数据集中汇编了一个新的数据集,整合了样本,总共得到了99k图像QA对(每对可能包括一轮或多轮提问),并使用使用GPT-4o 生成详细的推理过程,包括总结、标题、推理和结论,并将其编译成llava-o-1-100数据集。

LLaVA-o1遵循Apache 2.0 许可证,团队目前仅仅发表了论文,即将推出数据集和模型。

项目页:

github.com/PKU-YuanGroup/LLaVA-o1

论文页:

arxiv.org/abs/2411.10440