丁文超:为什么之前没有模型有很好的空间感知能力,我认为是大家建模的时候太粗暴,比如认为基于过去的图像和视频,就能预测未来,就认为模型具备空间感知能力了。但实际不是,视频预测模型学会的空间感知能力,可能很间接。
比如大家现在可能会刷到 AI 生成的短视频,看起来逼真,但很多小细节可能在违反物理定律。或者前后一致性的问题。
我们的解决思路是 4D 空间对齐,在具身智能领域,3D 空间操作之外,加入时间的维度,引导模型引擎预测整个 4D 空间的变化。这实际上展示了模型学习和理解空间感知的能力。
为什么其他人无法做到这一点?首先可能是尚未意识到重要性。其次是训练这样的模型,必须要有强大的自动化标注能力作为支撑,以及有对应的训练数据资料。空间感知能力需要模型学会,它不会灵光一现涌现,需要你教小孩子一样,先有监督学习,只不过这个监督学习主要是数据自动化标注获得。
数据自动化标注的能力、场景重建的能力实际非常有门槛,做好了这个才能设计好整个模型架构,设计模型学习的任务,而这条路我们在自动驾驶工程项目中获得了经验。
————
如果丁文超这段分析是对的,那我们应该对特斯拉打造 Optimus 大脑抱有更高的期待。
因为这里提到的 4D 空间对齐、数据自动化标注、场景重建,所有这些能力特斯拉在做 FSD 的时候都完整做了一遍,而且做这种物理 AI 特斯拉的工程能力是最强的。
且从这个角度看过去,一旦华为(它石的班底就是华为 ADS)和理想决定做人形机器人,这里有大量的工程资源可以复用。
机器人看似没门槛,实际上非常有门槛。