NWM 2.0 和马赫 VLA 的空间理解区别。我一直认为感知的稳定性，是

NWM 2.0 和马赫 VLA 的空间理解区别。

我一直认为感知的稳定性，是一套系统全面性的开始。

在理想的发布会上，其实理想展示过一个现场场景的生成，当时我就觉得是 3D 高斯重建。

1️⃣ 理想的做法：3D高斯散点建模

理想的 3D 空间理解用的是3D Gaussian（3DGS）技术。

简单说就是：把三维空间用大量高斯球来表示，每个球有自己的位置、大小、颜色和语义含义。

相比传统的BEV（鸟瞰图）或占用网格，3D高斯的好处是既能保留细粒度几何信息，又不会像稠密体素那样计算爆炸。

核心是，多视角摄像头图像到 3D 高斯初始化，再通过图像特征迭代优化每个高斯的位置和属性得到稀疏但精确的 3D 场景表征。

这套技术主要来自理想自己的论文 GaussianAD

2️⃣ 蔚来的做法：生成式重建

蔚来的空间理解更强调生成。

它的核心不是精确定义每个物体在哪，而是让模型学会，根据当前看到的画面，想象出同一个场景在不同角度、不同天气、不同时刻会是什么样子。

这种能力的底层支撑是视频生成。

蔚来认为，当模型能生成合理的场景变化视频时，它就理解了空间结构。

因为你必须知道物体怎么运动、遮挡怎么处理、光影怎么变化，才能生成连贯的视频。

区别在于，理想是把空间精确建模出来，蔚来是把空间学会想象出来。

一个是几何优先，一个是物理直觉优先。

到这里，基本逻辑就讲完了，但为了避免歧义，还是解释一下。

当大家看到准确建模和空间想象。

会下意识以为想象一词会比较发散，更倾向于理解成不准确、不精准。

但这么理解是错误的，少卿的做法和 sora 和李飞飞的空间智能会更接近。

核心讲求的是，ai 对物理世界的理解，注意，关键词是理解。

其实你回忆一下人类在物理世界中的行为模式，其实是大脑对物理环境的理解。

为什么说是理解？

比如，人在遇到遮挡的时候，其实是想象接下来一段时间后的行为状态。它也不是一个精准态，但它是一个直觉态。

人类的思考模型其实是想象，对于 ai 来讲，生成式的难点在于，3秒、5秒、10秒… 后，生成的一致性，和对物理的理解的一致性问题。

从这一点来讲，少卿水平是非常高的。

DC娱乐网