DC娱乐网

高斯泼溅:世界本就是无数个彩色泡泡特斯拉前两天在提到高斯泼溅用来做端到端系统验证

高斯泼溅:世界本就是无数个彩色泡泡

特斯拉前两天在提到高斯泼溅用来做端到端系统验证,并且可以在220ms 运行。我觉得是这次分享没有意外中的亮点。

先聊一下什么是高斯泼溅,这是一种通过视觉的3d重建方式。

在自动驾驶领域有非常多关于3d 重建的尝试,例如早期的NeRF,去年理想提到过的Street Gaussian,蔚来提到的NSim等等。

高斯泼溅本质上也是从多张不同角度的2D图片中,重建出一个可自由视角查看的3D场景。

这有什么用?

如果我们获得了一个道路测试的回传视频数据,我们可以将场景重建出来。

在后续的开发和验证中。原来车辆在这个地方直行,在后续的优化中,我们可以让车辆换一个轨迹。

常规的验证中,这里回传的数据就失效了,因为视角发生了变化,回传的数据无效了。

而有了可自由视角查看的3D场景,此时,我们可以获得新的视角,可以验证在新的轨迹车辆表现是否合理。

这是目的,接下来我尝试写清楚原理。

3D Gaussian Splatting 是一种显式表示方法,世界由无数个半透明彩色泡泡组成。

每个泡泡都有自己在三维空间中的位置、形状、大小和颜色。

当这些泡泡足够多、足够细腻地分布时,我们的眼睛看过去,就会觉得每个位置都呈现出合适的颜色和亮度,从而还原出真实的三维场景。

在数学上,这些“泡泡”其实是三维高斯分布(3D Gaussians),它们通过叠加的方式近似场景中的光线分布。渲染时,只需要把这些泡泡投影到图像上、累加它们的颜色贡献,就能得到逼真的视图

其实早期的高斯泼溅本质上是图形学的概念,它并没有依赖任何神经网络。

我们把场景表示成无数个“泡泡”,每个泡泡都有位置、形状、大小和颜色。

因为这种表示方式是可微的(differentiable),我们可以让这些泡泡在渲染出的 2D 图像与真实照片之间不断比较、调整。

通过优化泡泡的参数,它们会自动“长成”一个符合 2D 监督的 3D 世界。

这里你一定会想到,这些泡泡的参数的修改,是不是也非常耗时?

确实,在2023年3DGS 提出的时候,在RTX3090上面进行参数的监督修改(初始化),需要十分钟以上。

而特斯拉这次提出的,其实是将生成式架构和高斯泼溅进行了融合。就不做初始化了,而是直接生成高斯表达。

1. 网络直接输出高斯泡泡的参数,而不是先初始化再优化。

2. 生成式架构(可能是类似 Transformer 或 diffusion 的模型)直接“创造”场景的高斯表示。

3. 这样可以做到一次生成全局结构,减少对初始化的依赖,也可能更容易做场景编辑或条件生成。

这样少了初始化过程,直接进行推理出高斯表示,再进行光栅化渲染。

这里其实有一个非常有意思的事情是:因为特斯拉的传感器单一,高斯泼溅只需要处理摄像头数据,二者也是高斯泼溅最初的设计目标。

在面对其他的技术栈时,例如大部分团队,除了小鹏,还需要再重建出来lidar的表达,才能进行端到端系统的训练和优化。

之前在地平线的大师工作坊上和老师聊天,我说,所有人都用眼睛打游戏,所以视觉技术发展会最快,也会更好的应用到别的领域。

高斯泼溅的应用就是一个非常好的例子。

新能源大牛说ai创造营汽车黑科技