理想的这个新一代VLA架构,看起来和小鹏的二代VLA颇有相似之处。 MindVLA-o1,基于统一的VL-A,V和L之间的串联符合消失不见; 而小鹏的二代VLA,核心也是拆掉L,因为由V到L的转译会导致信息离散化、信息丢失,同时消耗大量算力,产生延迟,由视觉直接到动作,做到极致的效率。 有种感觉,最终大家还是要回头来做“端到端”,但绝不是之前的小模型、拼凑的端到端,用刘先明之前在一场Workshop的话说就是: “极致端到端”。

理想的这个新一代VLA架构,看起来和小鹏的二代VLA颇有相似之处。 MindVLA-o1,基于统一的VL-A,V和L之间的串联符合消失不见; 而小鹏的二代VLA,核心也是拆掉L,因为由V到L的转译会导致信息离散化、信息丢失,同时消耗大量算力,产生延迟,由视觉直接到动作,做到极致的效率。 有种感觉,最终大家还是要回头来做“端到端”,但绝不是之前的小模型、拼凑的端到端,用刘先明之前在一场Workshop的话说就是: “极致端到端”。
