与行业技术人员交流后,我个人理解,VLA中的L更多是推理思考的介质,用来跳脱出原

盼盼谈汽车啊 2025-09-04 14:29:20

与行业技术人员交流后,我个人理解,VLA中的L更多是推理思考的介质,用来跳脱出原先端到端的模仿学习局限。

本身当下大模型的底层就是Language,把世界知识压成统一的可组合 token 空间。所以VLA中的L存在,就是降低长尾覆盖与跨域迁移的边际成本;这与当下AI主线一致。

当然,一些案例也初步证明“把互联网级语义迁移到行动层”的价值,比如DeepMind的RT-2 直接把网页/图文语义迁移到机器人操作,零样本泛化到未见物体与任务。

另外,Language背后的token其实是多模态输入的介质,不只是字面的语言。比如Wayve 的 GAIA-1 就是将视频、文本与动作映射到离散 token 后做世界建模与可控生成,用于仿真与训练闭环。

以及也有案例是把相机、状态、甚至神经场等“注入”到语言模型进行统一推理,这可能也说明“L”是一个通用的抽象与接口。

最后,如果一些企业把汽车定位成广义机器人,需要考虑大量人机交互(可解释、可信任)的场景,那么选择VLA路线,也是想吃一套技术栈打两场仗的红利。

0 阅读:0
盼盼谈汽车啊

盼盼谈汽车啊

感谢大家的关注