DC娱乐网

聊了一下VLA,又有人瞎带节奏,我还是认真给大家科普一下吧,先从我去年遥遥领先的

聊了一下VLA,又有人瞎带节奏,我还是认真给大家科普一下吧,先从我去年遥遥领先的预言说起:

当时我就讲,与其辩经到底需不需要把“L”作为中间层,还不如当成是“VLA能力”,也就是依旧以视觉为基础,增加了把一些语言信息最终转化为动作的能力。

此话怎讲呢?先举个很简单的例子,现在车上的端到端模型都是多模态的模型。也就是说视觉信息可以是一路输入,雷达信息也可以是一路输入,导航信息,乃至你调方向盘滚轮调速的信息,都可以是模型的一路输入。模型都能“读懂”这些信息,最后输出轨迹。

(再强调一下,端到端是一种架构,无论VLA也好,世界模型也好,都是“端到端”)

那么现在问题来了,我想让模型能“看懂”文字信息,比如地上的公交车道限行时间,有什么办法?

一种办法是做个“外挂”,比如额外一个视觉-语言模型,输出的token作为一路类似导航的输入给控车的这个端到端模型。当然也可以搞语音“外挂”,例如有些品牌搞“语音控车”、“语音调速”,很显然就是先通过语音模型识别例如主驾说“把限速调到70”的信息,等于动手拨了一下滚轮,原本就有这路限速的输入,输入给模型就行了。

另一种方式,是让端到端模型能直接“读懂”视觉里的一些语言信息。比如公交车道,文字标牌等等。输入还是那个视觉输入,但是需要专门的数据训练、架构设计来使模型能真正稳定地“读懂”文字信息。这其实也是如今各家都正在做的事,包括“VL-A”,本质上也都是这个逻辑。

说一千道一万,最后还是实际体验说话。海量真实车主的声音,才是最有价值的答案。