聊了一下VLA，又有人瞎带节奏，我还是认真给大家科普一下吧，先从我去年遥遥领先的

聊了一下VLA，又有人瞎带节奏，我还是认真给大家科普一下吧，先从我去年遥遥领先的预言说起：

当时我就讲，与其辩经到底需不需要把“L”作为中间层，还不如当成是“VLA能力”，也就是依旧以视觉为基础，增加了把一些语言信息最终转化为动作的能力。

此话怎讲呢？先举个很简单的例子，现在车上的端到端模型都是多模态的模型。也就是说视觉信息可以是一路输入，雷达信息也可以是一路输入，导航信息，乃至你调方向盘滚轮调速的信息，都可以是模型的一路输入。模型都能“读懂”这些信息，最后输出轨迹。

（再强调一下，端到端是一种架构，无论VLA也好，世界模型也好，都是“端到端”）

那么现在问题来了，我想让模型能“看懂”文字信息，比如地上的公交车道限行时间，有什么办法？

一种办法是做个“外挂”，比如额外一个视觉-语言模型，输出的token作为一路类似导航的输入给控车的这个端到端模型。当然也可以搞语音“外挂”，例如有些品牌搞“语音控车”、“语音调速”，很显然就是先通过语音模型识别例如主驾说“把限速调到70”的信息，等于动手拨了一下滚轮，原本就有这路限速的输入，输入给模型就行了。

另一种方式，是让端到端模型能直接“读懂”视觉里的一些语言信息。比如公交车道，文字标牌等等。输入还是那个视觉输入，但是需要专门的数据训练、架构设计来使模型能真正稳定地“读懂”文字信息。这其实也是如今各家都正在做的事，包括“VL-A”，本质上也都是这个逻辑。

说一千道一万，最后还是实际体验说话。海量真实车主的声音，才是最有价值的答案。

DC娱乐网

聊了一下VLA，又有人瞎带节奏，我还是认真给大家科普一下吧，先从我去年遥遥领先的

热门分类