博世吴永桥评论VLA 的观点挺有意思的,直言短期内VLA也很难落地。
吴永桥给了三个理由:
(1)VLA的多模态vision language action,多模态特征对齐都非常困难;
(2)多模态数据获取训练非常困难;
(3)智驾芯片和VLA匹配也很难,如果VLA模型需要部署在一个芯片上,达到真正的行车安全和驾驶高度拟人化,本质提升,那么它必须做到7B或者10B这样的模型。但是,现在所有的智驾芯片都不是为大模型设计,因为它存储的带宽较小,如果把7B或者10B部署,或3B部署在Thor上,频率很难做到10赫兹。