卓驭 CEO 沈劭劼在两周前的百人会上刚刚公开说「未来存活下来的智驾公司都将转型

卓驭 CEO 沈劭劼在两周前的百人会上刚刚公开说「未来存活下来的智驾公司都将转型为移动物理 AI 公司」，今天北京车展就宣布了商用车的合作。

背后有技术原因，也有商业原因。

从技术来说，原生多模态基础模型是把视频帧、文本 token、动作指令、语音、地图向量全部映射进同一个表征空间，联合训练，没有传统 VLA 的转译环节，响应延迟理论上更低，泛化能力理论上更强，代价是训练复杂度和数据对齐难度都大幅上升。

上面这些是我们过去在各家 VLA 上都看到的东西，大家都不怎么提 L 了，对于卓驭来说，还有一个特别的点，卓驭把无人机飞行数据、移动机器人导航数据、手持摄像头步行视频统一纳入，整体以 ego-centric 也就是运动视角为中心的方式做格式化。

它们的共性是视角在移动、需要理解三维空间、需要预测动态物体，覆盖的物理场景远比公路开车要多得多。因为模型预训练阶段见过更多不同的移动场景，所以进入新垂类时需要的「激活数据量」就越少。

这就是为什么卓驭透露乘用车 NOA 迁移至商用重卡只花了不到两个月。

从商业角度来说，随着模型规模扩大，训练成本已进入数十亿元量级，单一乘用车市场是不够的，大模型的研发成本不能只摊销给乘用车，必须同时在重卡、客车、Robotaxi、甚至具身机器人上同步回收，所以这也是为了盈利的必然动作。

DC娱乐网