北京时间2024年7月5日,理想汽车召开了2024智能驾驶夏季发布会。发布会上理想汽车表示,OTA 6.0.0版新增无图NOA功能,覆盖理想MEGA和理想L9、理想L8、理想L7、理想L6的AD Max车型,无图NOA将于7月内全量推送。此外,7月内还将推送全自动AES和全方位低速AEB。在发布会上,理想汽车还介绍了自动驾驶的技术方案。
理想汽车表示,此次升级将覆盖理想MEGA和理想L9、理想L8、理想L7、理想L6的AD Max车型,用户数量超过24万。 5月10日理想汽车开启1000名用户体验,6月份推出万人体验,6月底向全量用户开启不限量招募。
理想无图NOA(导航辅助驾驶)将于7月内全量推送
本次OTA 6.0.0新增无图NOA功能,理想汽车表示,不管是在城市、城镇,还是二级道路,都能够行驶。 最新的无图NOA相比过去的版本,BEV、感知能力、规控能力,还有整体系统能力都得到全面的提升,可以应对更多的条件和环境。理想汽车表示,无图NOA(导航辅助驾驶)将于7月内全量推送。
1、哪里都能开,不再依赖过多“先验信息”。理想汽车的智能驾驶系统背后很多“小机器人”在运行,可能有一些“小机器人”需要一些先验信息。但是我们整体能力的提升,就不再需要先验证,能更自如地解决在路面上行驶中遇到的各种各样的情况。
2、绕行丝滑,时空联合。在实际道路上驾驶,会经常遇到一些车辆、行人等对象,阻碍我们通行。这种情况下,我们引出了“绕行丝滑”能力,它背后是时空联合能力,就是具备时间和空间的能力。空间概念是横纵(前后左右)同步规划;时间概念是能够持续预测自车与他车的空间交互关系,并规划出“未来一段时间窗口内”的所有可行驶的轨迹,筛选出最优最高效的轨迹。
3、路口轻松,上帝视角。路口轻松过背后是我们具备“上帝视角”的能力。将摄像头拼接的周边环境、道路信息、导航提供的轨迹和数据信息全部合并在一起,形成超视距能力,在通过路口的时候找到最优路线。
4、默契安心,分米级微操。无图NOA重点考虑了用户心理安全边界的设计,将纯视觉的Occ占用网络升级为Lidar与视觉前融合的占用网络,从而识别更大范围内的不规则障碍物,感知精度也会更高。提升可行驶区域内的安全性和连续性,可以做到分米级别的微操。让用户和车之间产生了一种默契和安心的感觉。
7月内推送全自动AES和全方位低速AEB
在主动安全领域,理想汽车建立了完备的安全风险场景库,并根据出现频次和危险程度分类,持续提升风险场景覆盖度,即将在7月内为用户推送全自动AES和全方位低速AEB功能。
为了应对AEB也无法规避事故的物理极限场景,理想汽车推出了全自动触发的AES自动紧急转向功能。在车辆行驶速度较快时,留给主动安全系统的反应时间极短,部分情况下即使触发AEB,车辆全力制动仍无法及时刹停。此时,AES功能将被及时触发,无需人为参与转向操作,自动紧急转向,避让前方目标,有效避免极端场景下的事故发生。
全方位低速AEB则针对泊车和低速行车场景,提供了360度的主动安全防护。在复杂的地库停车环境中,车辆周围的立柱、行人和其他车辆等障碍物都增加了剐蹭风险。全方位低速AEB能够有效识别前向、后向和侧向的碰撞风险,及时紧急制动,为用户的日常用车带来更安心的体验。
理想汽车实现自动驾驶的技术方案是什么样的?
理想自动驾驶理论来源是《思考,快与慢》理论。诺贝尔经济学奖得主丹尼尔·卡尼曼在《思考,快与慢》中阐述了认知心理学中系统1与系统2的概念,为理解人类的认知模式提供了一个重要框架。
系统1其实是人根据自己过去的经验和习惯形成的直觉,可以做出快速的决策。系统2其实是一个思维推理能力,人需要经过思考或推理才能解决这种复杂的问题和应对未知的场景。简言之,系统1和系统2相互配合,成为了人类认知和理解世界、做出决策的基础。
系统1和系统2是如何应用到自动驾驶中的?
系统1由一个端到端模型(E2E)实现,直接用来快速响应常规驾驶问题。
系统2由一个视觉语言模型(VLM)实现,里面包含了思考的能力。
我们利用世界模型在云端来验证系统1和系统2的能力。
以上三个系统组成了理想汽车下一代自动驾驶技术架构。 什么是端到端,到底是哪个端到哪个端?它和以往的智能驾驶系统有什么区别?
端到端模型的优势在于:
1、高效传递,驾驶体验更聪明和更拟人。
在无图中有两个模型,模型之间的信息传递我们运用了大量的规则;而到了端到端模型,它是一体化的模型,信息都在模型内部传递,具有更高上限。用户所能感受到整套系统的动作、决策更加拟人。
2、高效计算,驾驶时车辆会反应更及时和更迅速。
因为是一体化模型,可以在GPU里一次完成推理,端到端的延迟会更低。用户感知到的是,「眼」和「手」协调一致,反应迅速,车辆动作响应及时。
3、高效迭代 ,更高频率的OTA。
一体化模型可以实现端到端的可训,完全的数据驱动。对于用户来说最大感受就是OTA的速度越来越快。
系统2:VLM(视觉语言模型)。整体算法架构是由一个统一的Transformer模型组成,将Prompt(提示词)文本进行Tokenizer(分词器)编码,然后将前视120度和30度相机的图像以及导航地图信息进行视觉信息编码,通过图文对齐模块进行模态对齐,统一交给VLM模型进行自回归推理;VLM输出的信息包括对环境的理解、驾驶决策和驾驶轨迹,并传递给系统1控制车辆。
整体设计中的三个亮点:
1、设计了流式的视频编码器。相比大部分单帧的VLM模型,我们采用的流式视频编码器能够缓存更长时序的视觉信息,这对于物理世界的AI系统来说非常重要,这是一个创新的架构。
2、增加了Memory bank(记忆模块),缓存了多帧历史信息,可以解决超长上下文的推理时延问题。
3、设计了智能驾驶Prompt问题库。系统2会时时刻刻思考当前的驾驶环境,给系统1合理的驾驶建议,同时系统1也可以在不同场景下调用不同的Prompt问题,主动向系统2进行求助,帮助系统1解决部分场景。
理想汽车的自动驾驶系统考试方案:重建+生成的世界模型
把真实数据通过3DGS(3D高斯溅射)进行重建,并使用生成模型补充新视角,两者结合所生成的场景既可以保证场景是符合真实世界的,也同时解决了新视角模糊的问题。同时我们这套系统的生成部分可以独立工作,通过Layout(布局)先验、再Reference(参考帧)的图片,再加上Prompt(提示词),生成符合真实规律但没有见过的新场景。
在场景重建时,我们需要将场景中的动静态分离,核心思想是静态环境进行重建,动态物体进行重建和新视角生成,变成360°的新资产,将两者结合生成一个3D的物理世界,同时里面的动态资产可以被随意编辑和调整,实现场景的部分泛化。
生成相对于重建具备更好的泛化性,我们可以自定义地改变天气、时间、车流等条件,生成不同的场景来考验我们模型的泛化能力,评价自动驾驶系统在各种条件下的适应能力。在这样的无限环境里,我们可以进行自动驾驶系统的充分学习和考试,让用户获得一个高效、安全和舒适的自动驾驶系统。