Momenta CEO 曹旭东今天在大众ID.ERA 9X发布会后的媒体群访中回答 VLA 的问题,他从直觉和技术两方面做了解答:
这个非常好的问题啊,其实这个关于VLA,去年已经说过很多次了。
就VLA的话,有可能能work,但即使能work的话,那也是锦上添花,对于整个智驾系统的提升,不会那么大。
但是强化学习和世界模型,都能够把性能实现十倍百倍的提升,进而达到人类的安全性,甚至超越人类的安全性的水平。
这背后的底层逻辑是什么呢?
就是当前的这个VLA,我先说说直觉吧,先不讲技术,直觉上,我们可以拿人类司机来类比。
现在的语言模型,其实啥都能干,说中文也行,说英文也行,做数学题也行,编程也行。
但实际上你会发现,开好车这件事情,不需要这个人会写代码,也不需要这个人会说一口流利的英语,或者会写唐诗。
他只需要对各种各样的驾驶的安全场景,有很好的判断,也就是说对物理世界的规律有很好的理解,并且能够做出及时的反应,这是最重要的。
那也就是说,对于这些极限的场景,首先要见过,要有预判,并且能够锻炼出很好的肌肉记忆。
而这个能力刚好是世界模型具备的,因为它能学习到物理规律,而强化学习又能收集到大量的极限场景,
然后反复地锻炼它的肌肉记忆,让它知道在最危险的情况下,肌肉记忆怎么处理更安全、更安心,对吧?
而VLA这个模型,会写很多代码,会背很多诗,会说很流利的法语,这些对于开车有多大帮助呢?
这就是直觉上的道理。
再说说技术上的道理,就稍微有点技术了。
现在整个VLA的训练方式,是先训练大语言模型,而大语言模型的参数量,一般可能100B左右。
然后,再通过视觉往语言去对齐,之后再是行动往视觉和语言去对齐。
你会发现整个VLA的训练,优先级并不是侧重于驾驶的任务,还是侧重于其他方面。
那也就是说大量的参数其实没有用在开车这件事上,就是好钢没有用在刀刃上。
这就是为什么我们从VLA这个概念刚提出来的时候,就判断VLA在自动驾驶上产生的作用,可能最多是锦上添花,很难雪中送炭。
对,这是关于这个问题的回答。大众9X首发MomentaR7世界模型新能源大牛说自动驾驶

