端到端和车位到车位之后,2025 年的行业主题是 VLA 视觉语言行为模型。VLA 是多模态的,所以新增了很多过去没有的问题。
比如说视觉、语言和声音信息的采样频率和时间特性是不一样的,系统需要将之准确对齐,这个需要复杂的时序建模和跨模态数据对齐机制。
视觉是高维的图像,语言是序列化的文本,声音是波形数据,这些不同模态的特征需要映射到一个共同的空间协同处理,极大地增加感知融合的复杂度。
听起来就很复杂,但其实很第一性,因为人开车,这些感知信息都是必备的。比如听到后方警报或者长鸣笛,你也不知发生了什么,但听到你就会马上看后视镜,然后再决定是不是要战术性适当减速——听到这个声音是这一切的先决条件。
文字也不展开了,文盲是可以在野外开车的,但文盲在大城市里其实是很难开车的,文字也是必不可少的感知信息。
BEV 模型作为一个自 2021 年工程化开来的模型也可能会消解,后续的模型不一定强依赖 BEV 这样的中间表示,当然,可能还是需要类似的表征来实现视觉的转换。
再考虑自动驾驶汽车的实时推理对延迟、功耗的要求,我觉得自动驾驶真的是最大、最有魅力的一个工程难题,非常要求跨学科、非常要求跨部门、非常有含金量的一个业务。