DC娱乐网

NWM 2.0 和 马赫 VLA 的 空间理解 区别。我一直认为感知的稳定性,是

NWM 2.0 和 马赫 VLA 的 空间理解 区别。

我一直认为感知的稳定性,是一套系统全面性的开始。

在理想的发布会上,其实理想展示过一个现场场景的生成,当时我就觉得是 3D 高斯重建。

1️⃣ 理想的做法:3D高斯散点建模

理想的 3D 空间理解用的是3D Gaussian(3DGS)技术。

简单说就是:把三维空间用大量 高斯球 来表示,每个球有自己的位置、大小、颜色和语义含义。

相比传统的BEV(鸟瞰图)或占用网格,3D高斯的好处是既能保留细粒度几何信息,又不会像稠密体素那样计算爆炸。

核心是,多视角摄像头图像到 3D 高斯初始化,再通过图像特征迭代优化每个高斯的位置和属性得到稀疏但精确的 3D 场景表征。

这套技术主要来自理想自己的论文 GaussianAD

2️⃣ 蔚来的做法:生成式重建

蔚来的空间理解更强调 生成。

它的核心不是精确定义每个物体在哪,而是让模型学会,根据当前看到的画面,想象出同一个场景在不同角度、不同天气、不同时刻会是什么样子。

这种能力的底层支撑是视频生成。

蔚来认为,当模型能生成合理的场景变化视频时,它就理解了空间结构。

因为你必须知道物体怎么运动、遮挡怎么处理、光影怎么变化,才能生成连贯的视频。

区别在于,理想是把空间精确建模出来,蔚来是把空间学会想象出来。

一个是几何优先,一个是物理直觉优先。

到这里,基本逻辑就讲完了,但为了避免歧义,还是解释一下。

当大家看到 准确建模 和 空间想象。

会下意识以为 想象 一词会比较发散,更倾向于理解成 不准确、不精准。

但这么理解是错误的,少卿的做法和 sora 和 李飞飞的空间智能会更接近。

核心讲求的是,ai 对物理世界的理解,注意,关键词是 理解。

其实你回忆一下人类在物理世界中的行为模式,其实是大脑对 物理环境 的理解。

为什么说是理解?

比如,人在遇到遮挡的时候,其实是 想象 接下来一段时间后的行为状态。它也不是一个精准态,但它是一个直觉态。

人类的思考模型其实是 想象,对于 ai 来讲,生成式的难点在于,3秒、5秒、10秒… 后,生成的一致性,和对物理的理解的一致性问题。

从这一点来讲,少卿水平是非常高的。