无需位姿真值!5倍加速!GaussianOcc:基于3DGS的最强3D占用估计

视觉科技工坊 2024-08-28 19:36:54

来源:3D视觉工坊

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

近年来,在自动驾驶行业和学术界,以视觉为中心和以网格为中心的感知方法都受到了广泛关注。其中,环视3D占用估计已成为一项核心感知任务,并且是鸟瞰图(BEV)方法的有前途的替代品。为了促进3D占用估计,已经开发了几个基准用于监督训练,尽管这些基准在3D标注方面需要付出巨大努力。为了减轻标注负担,提出了基于体渲染的自监督和弱监督学习方法。体渲染允许使用2D监督信号(如2D语义图和深度图)进行3D表示学习,从而消除了训练过程中广泛3D标注的需要。现有方法通过体渲染实现自监督学习,其中2D语义图监督来自开放词汇集的语义分割,而深度图监督则来自自监督深度估计。然而,这些方法面临两个主要限制。首先,体渲染在现实世界尺度上进行,这需要真实6D姿态的可用性,以计算跨连续图像的多视图光度损失。其次,体渲染中的低效性与新视图合成任务一样具有挑战性,因为需要密集的采样操作。这些限制阻碍了更通用、高效的自监督3D占用估计范式的发展。

为了解决上述限制,我们探索了一种使用高斯溅射(Gaussian splatting)的全自监督且高效的3D占用估计方法。具体来说,我们引入了高斯溅射来进行跨视图溅射,其中渲染图像构建了一个跨视图损失,该损失在与6D姿态网络联合训练时提供尺度信息。这消除了训练过程中对真实6D姿态的需求。为了提高渲染效率,我们摒弃了传统体渲染所需的密集采样。相反,我们提出直接从3D体素空间进行高斯溅射。在这种方法中,体素网格中的每个顶点都被视为一个3D高斯函数,我们直接在体素空间内优化这些高斯函数的属性(如语义特征和不透明度)。通过这种新颖的方法,我们提出的方法GaussianOcc在完全自监督且高效的3D占用估计方面取得了进展。

下面一起来阅读一下这项工作~

1. 论文信息

标题:GaussianOcc: Fully Self-supervised and Efficient 3D Occupancy Estimation with Gaussian Splatting

作者:Wanshui Gan, Fang Liu, Hongbin Xu, Ningkai Mo, Naoto Yokoya

原文链接:https://arxiv.org/abs/2408.11447

代码链接:https://ganwanshui.github.io/GaussianOcc/

2. 摘要

我们引入了GaussianOcc,这是一种系统方法,旨在探究高斯涂抹技术在全自监督和高效的环视3D占用估计中的两种用法。首先,传统的自监督3D占用估计方法在训练过程中仍然需要来自传感器的真实6D姿态。为了克服这一限制,我们提出了高斯涂抹投影(GSP)模块,该模块利用相邻视图投影为全自监督训练提供准确的尺度信息。此外,现有方法依赖于体积渲染,利用2D信号(深度图、语义图)进行最终的3D体素表示学习,这既耗时又低效。我们提出了从体素空间进行高斯涂抹(GSV),以利用高斯涂抹的快速渲染特性。因此,所提出的GaussianOcc方法能够在低计算成本(训练速度提高2.7倍,渲染速度提高5倍)下实现具有竞争力的全自监督(无需真实姿态)3D占用估计。

3. 效果展示

4. 主要贡献

本工作的主要贡献概括如下:

• 我们引入了首个完全自监督的高效环视3D占用估计方法,该方法探索了高斯溅射技术。推荐学习:当SLAM遇上3DGS!基于3D高斯的全新SLAM算法

• 我们提出了用于跨视图投影的高斯溅射,它可以在训练过程中提供尺度信息,从而无需真实6D姿态。

• 我们提出了从体素空间进行的高斯溅射,与体渲染相比,其训练速度提高了2.7倍,渲染速度提高了5倍,同时保持了竞争性的性能。

5. 基本原理是啥?

GaussianOcc的概述如图2所示。主要贡献是引入了用于尺度感知训练的跨视图高斯溅射和用于更快渲染的体素网格高斯溅射。与用于特定场景3D重建的原始高斯溅射不同,我们探索了一种设置,其中高斯属性在2D和3D网格中均得到良好对齐。这种方法将3D场景在2D图像平面上建模为深度图,在3D网格空间中建模为体素(占用)格式。

6. 实验结果

7. 总结 & 未来工作

所提出的方法在大多数场景中均实现了合理的预测;然而,我们观察到仍有一些情况存在挑战,如图C所示。具体而言,在DDAD数据集中,在某些情况下,后视摄像头会出现错误的预测(如红色圆圈所示),其中由于大量的自遮挡,可行驶路面被错误地投影到车辆上。值得注意的是,在自遮挡较少的nuScenes数据集中并未出现此问题。我们认为,通过使用更好的二维语义图进行监督,可以减轻此问题,这值得进一步研究。此外,我们计划在未来的工作中探索用于三维占用流的喷溅渲染。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d008

3D视觉工坊知识星球

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

▲长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

0 阅读:0

视觉科技工坊

简介:感谢大家的关注