【理想汽车“AI Talk第二季”中关于VLA司机大模型】
一、AI工具的三大层级与VLA的定位
信息工具:当前多数AI应用形态,提供参考性信息但伴随无效内容(如通用问答)
辅助工具:提升效率但仍需人类参与(如现有L2/L2+辅助驾驶)
生产工具:AI独立完成专业任务,VLA司机大模型即为此类,目标是成为交通领域的“职业司机”,无需人类干预即可安全高效驾驶
二、VLA的进化路径:从“动物”到“人类智能”
VLA的实现是逐步进化的过程,分为三个阶段:
昆虫动物智能(2021-2023):依赖规则算法与高精地图的辅助驾驶,处理简单场景但缺乏灵活性
哺乳动物智能(2024):端到端+VLM模型,提升复杂场景处理能力,但受限于2D视觉与开源模型,无法与人类自然交互
人类智能(2025起):
3D+2D视觉融合:完整感知物理世界
语言与思维链(CoT)推理:理解用户指令并执行行动
实时博弈能力:通过扩散模型预测他车轨迹,适应复杂交通环境
三、VLA的训练框架:模拟人类学习过程
预训练:构建云端视觉语言(VL)基座模型,学习交通常识与物理规律(类似人类学习驾驶理论)
后训练:加入动作数据(Action),转化为VLA司机模型,实现短链条思维链推理与实时决策
强化训练:
安全对齐:通过人类反馈强化学习(RLHF),确保遵守交规与中国驾驶习惯
舒适性优化:在世界模型中模拟训练,减少碰撞风险,提升乘坐体验
四、核心技术突破与安全保障
超级对齐团队:超过100人团队专注职业性约束,防止模型学习违规行为(如加塞)
世界模型:仿真物理世界所有交通参与者,破解AI决策“黑盒”难题,低成本验证现实问题
用户交互创新:支持自然语言沟通,用户可直接用口语指令控制驾驶(如“避开拥堵路段”),复杂指令由云端解析后执行
五、技术落地的挑战与解决方案
芯片适配:自研底层推理引擎,实现英伟达Orin-X芯片通过INT4量化运行语言模型,降低算力需求
开源与自研结合:借助DeepSeek开源模型加速研发,节省9个月时间与数亿元成本,同时投入超预期3倍训练卡打造多场景自研模型
操作系统开源:回馈行业,发布自研“理想星环OS”,推动生态共建
六、李想的创业与成长哲学
基本功至上:研究→研发→能力表达→业务价值的闭环是技术跃迁的核心
成长心态:接受自身优缺点,用“增强能力”替代“改变”,并通过亲密关系互补提升团队能量
AI与人性的平衡:保留所有人性特质(无论好坏),认为这是人类生命力的核心,AI应服务于人性而非取代