仅83M参数量!MiniDrive:自动驾驶的更高效视觉语言模型!

视觉科技工坊 2024-09-18 20:06:34

来源:3DCV

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving

作者:Enming Zhang, Xingyuan Dai, Yisheng Lv, Qianghai Miao

原文链接:https://arxiv.org/abs/2409.07267

代码链接:

1. 引言

随着大规模预训练技术的不断发展,视觉语言模型(VLMs)凭借其强大的视觉推理能力,成为跨领域视觉问答任务的首选方案。同样,在自动驾驶领域,基于VLMs的问答推理有望成为驾驶员与车辆之间新的交互方式。这种自然语言问答方法增强了自动驾驶的可解释性。VLMs将自动驾驶系统中的感知、预测和决策集成到一个统一的模型中,作为端到端通用模型,用于解决自动驾驶中的各种子任务。自动驾驶系统中已有众多VLMs应用,这些模型开始执行闭环控制、场景感知和交通参与者行为分析等任务。

VLMs主要由两个主要模块组成,包括视觉编码器和用于文本生成的LLM(大型语言模型)。这意味着在系统中部署VLMs需要高昂的计算成本和硬件资源。在自动驾驶系统中,开发资源消耗少、计算成本低且响应速度快的VLMs成为实际部署的关键考虑因素。然而,当前自动驾驶领域关于多模态大模型的研究主要集中在参数超过十亿的大型模型上,如BLIP-2、LLaMA-7B、GPT-3.5和GPT-4,其视觉编码器依赖于基于Transformer架构的预训练模型,如CLIP。这类模型消耗大量计算资源和硬件成本,且响应时间较长,使得它们在实际应用中的部署具有挑战性。最近,EM-VLM4AD引入了一种轻量级架构,首次尝试在自动驾驶领域应用轻量级模型,并取得了优异成果。然而,与DriveLM-Agent等十亿参数模型相比,其响应性能仍存在一定差距。此外,自动驾驶通常涉及来自不同角度的多张图像,如前方、前右、前左、后方、后右和后左。大多数现有的VLMs都是基于单张图像进行训练的,因此不适合输入多张驾驶场景图像。

为应对这些挑战,本文介绍了一种新型视觉语言模型——MiniDrive。与传统的主流视觉语言模型不同,MiniDrive不是基于Transformer架构的统一模型。我们使用基于大卷积核的高效骨干网络模型UniRepLKNet作为视觉编码器。我们提出了特征工程混合专家(FEMoE)和动态指令适配器(DIAdapter),以顺序处理视觉特征并在输入语言模型之前获得视觉标记。具体来说,UniRepLKNet捕获图像的二维特征,FE-MoE处理多个二维特征,将它们映射为文本标记,以便输入语言模型,而无需进行跨模态细粒度对齐的分阶段训练。此外,引入DI-Adapter使映射后的视觉标记(即作为语言模型输入的文本标记)能够动态适应用户文本指令,有效促进文本与图像之间的跨模态理解。

2. 摘要

视觉语言模型(vlm)在自动驾驶中充当通用的端到端模型,通过问答交互执行预测、规划和感知等子任务。然而,大多数现有方法依赖于计算昂贵的视觉编码器和大型语言模型(LLM),使得它们难以部署在现实世界场景和实时应用中。同时,大多数现有的vlm缺乏处理多幅图像的能力,难以适应自动驾驶中的多摄像机感知。为了解决这些问题,我们提出了一个称为MiniDrive的新框架,它包含了我们提出的特征工程专家混合(FE-MoE)模块和动态指令适配器(DI-Adapter)。FE-MoE在被输入到语言模型之前,有效地将2D特征映射到视觉令牌嵌入中。DI-Adapter使可视令牌嵌入能够随指令文本嵌入而动态变化,解决了以前方法中同一图像的静态可视令牌嵌入的问题。与以前的作品相比,MiniDrive在参数大小、浮点运算和响应效率方面实现了一流的性能,最小的版本仅包含83M参数。

3. 效果展示

如图1(a)所示,MiniDrive处理多个输入图像和用户指令以生成自然语言响应。它涵盖了自动驾驶中最关键的能力,包括感知、规划和预测问答能力。在图1(b)中,我们展示了MiniDrive是一种轻量级视觉语言模型,具有最小的参数大小、内存占用和浮点运算次数(FLOPs)。它可以在单个具有24GB内存的RTX 4090 GPU上使用多个实例进行完全训练。例如,MiniDrive224仅有8300万个参数和59亿次FLOPs,显著低于当前自动驾驶中使用的视觉语言模型。在响应性能方面,MiniDrive在问答能力上优于一系列先前模型,其响应质量甚至超过了具有数十亿参数的模型。此外,MiniDrive支持单张和多张图像输入。在图1(c)中,MiniDrive在单图像评估系统CODA-LM上优于参数超过70亿的开源模型,接近闭源商业模型的性能。推荐课程:。

4. 主要贡献

以下是我们的主要贡献:(1)我们开发了自动驾驶VLMs——MiniDrive,该模型在保持优异性能的同时,解决了自动驾驶系统中VLMs高效部署和实时响应的挑战。降低了模型训练成本,并可在单个具有24GB内存的RTX 4090 GPU上同时完全训练多个MiniDrive模型。(2)MiniDrive首次尝试将大卷积核架构作为自动驾驶视觉语言模型的视觉编码器骨干,实现了在不同图像层级上更高效、更快速的二维特征提取。我们提出了特征工程混合专家(FE-MoE),解决了将来自多个视角的二维特征高效地编码为文本标记嵌入的挑战,有效减少了视觉特征标记的数量并最小化了特征冗余。(3)本文通过残差结构引入了动态指令适配器(DI-Adapter),解决了相同图像在输入语言模型前视觉标记固定的问题。DI-Adapter使视觉特征能够动态适应不同的文本指令,从而增强了跨模态理解。(4)我们对MiniDrive进行了广泛实验,在Drive-LM上与具有多视图图像输入的自动驾驶VLMs相比,实现了最先进的性能。此外,我们在CODA-LM上以单图像输入平均领先通用开源VLMs(>70亿)13.2个百分点。我们开放所有资源以促进社区发展。

5. 方法

MiniDrive是自动驾驶领域的一个视觉-语言模型,旨在执行视觉问答任务。它通过接收图像和用户指令文本作为输入来生成文本回复。在本节中,我们首先对MiniDrive的整体框架进行详细介绍,随后对每个模块的技术细节和原理进行具体说明,包括视觉编码器(Vision Encoder)、特征工程混合专家(Feature Engineering Mixture of Experts, FE-MoE)和动态指令适配器(Dynamic Instruction Adapter, DI-Adapter)。

图2(a)展示了MiniDrive的整体结构。在MiniDrive中,主要有视觉和文本两个分支。在视觉分支方面,给定来自自动驾驶车辆的n张图像作为视觉编码器的输入R(2D) ∈ R(moe) ∈ R(moe)展平以获得V ∈ R(l1×dim)。

在文本分支方面,用户的自然语言指令通过分词器和嵌入层处理,得到文本的令牌嵌入T ∈ R^(l2×dim)。文本的嵌入序列T被用作键(k)和值(v),而此阶段的视觉嵌入序列V被用作查询(q)。这些被输入到DI适配器中,以计算一个新的视觉嵌入序列V1,该序列现在融入了来自文本嵌入T的上下文信息,从而实现了更好的跨模态理解或决策制定。V1随后通过残差连接与V结合,形成序列V^(input),而T被视为T^(input)。将[V^(input), T^(input)]拼接后作为语言模型的输入。语言模型解码以生成具有最高预测概率的词序列。整个框架高效地处理多图像输入信息,动态响应用户查询。

6. 实验结果

7. 总结 & 未来工作

在本文中,我们提出了MiniDrive,一种用于自动驾驶的最先进轻量级视觉-语言模型。我们引入了FE-MoE和DI-Adapter机制,并提出了一种将二维卷积特征映射为语言模型文本标记的新方法。我们的模型在DriveLM和CODA-LM两个数据集上取得了卓越成果。未来,我们旨在开发具有视频输入的实时响应模型,以进一步推动自动驾驶技术的发展。

MiniDrive构建了针对自动驾驶领域的特定视觉-语言模型,并在当前主流基准测试中取得了优异成绩。然而,它仍缺乏一定程度的泛化能力,我们认为这主要是由于训练样本的限制。现有的自动驾驶领域需要更多公共数据集以及开发这些数据集的努力。此外,MiniDrive的训练主要集中在基于指令的数据集上,并且仍然存在幻觉问题。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

「3D视觉从入门到精通」知识星球

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

▲长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

— 完 —

点这里关注我,记得标星哦~

0 阅读:0

视觉科技工坊

简介:感谢大家的关注