NWM 2.0 和 马赫 VLA 的 空间理解 区别。
我一直认为感知的稳定性,是一套系统全面性的开始。
在理想的发布会上,其实理想展示过一个现场场景的生成,当时我就觉得是 3D 高斯重建。
1️⃣ 理想的做法:3D高斯散点建模
理想的 3D 空间理解用的是3D Gaussian(3DGS)技术。
简单说就是:把三维空间用大量 高斯球 来表示,每个球有自己的位置、大小、颜色和语义含义。
相比传统的BEV(鸟瞰图)或占用网格,3D高斯的好处是既能保留细粒度几何信息,又不会像稠密体素那样计算爆炸。
核心是,多视角摄像头图像到 3D 高斯初始化,再通过图像特征迭代优化每个高斯的位置和属性得到稀疏但精确的 3D 场景表征。
这套技术主要来自理想自己的论文 GaussianAD
2️⃣ 蔚来的做法:生成式重建
蔚来的空间理解更强调 生成。
它的核心不是精确定义每个物体在哪,而是让模型学会,根据当前看到的画面,想象出同一个场景在不同角度、不同天气、不同时刻会是什么样子。
这种能力的底层支撑是视频生成。
蔚来认为,当模型能生成合理的场景变化视频时,它就理解了空间结构。
因为你必须知道物体怎么运动、遮挡怎么处理、光影怎么变化,才能生成连贯的视频。
区别在于,理想是把空间精确建模出来,蔚来是把空间学会想象出来。
一个是几何优先,一个是物理直觉优先。
到这里,基本逻辑就讲完了,但为了避免歧义,还是解释一下。
当大家看到 准确建模 和 空间想象。
会下意识以为 想象 一词会比较发散,更倾向于理解成 不准确、不精准。
但这么理解是错误的,少卿的做法和 sora 和 李飞飞的空间智能会更接近。
核心讲求的是,ai 对物理世界的理解,注意,关键词是 理解。
其实你回忆一下人类在物理世界中的行为模式,其实是大脑对 物理环境 的理解。
为什么说是理解?
比如,人在遇到遮挡的时候,其实是 想象 接下来一段时间后的行为状态。它也不是一个精准态,但它是一个直觉态。
人类的思考模型其实是 想象,对于 ai 来讲,生成式的难点在于,3秒、5秒、10秒… 后,生成的一致性,和对物理的理解的一致性问题。
从这一点来讲,少卿水平是非常高的。