理想城市NOA:加速迈向数据驱动

衣衣谈汽车 2023-07-20 00:32:00

6月底,我们在北京体验了理想汽车城市NOA的早鸟测试版。

体验路线既包括顺义远郊无任何标线的乡间小道,也有因施工而多段改线的国道京密路,还有以车辆占道停车而“闻名”的望京城区街道。

在大约2小时的行驶中,理想L9 Max向我们展示了红绿灯启停、无保护左右转、车道保持+变道超车、路口博弈、进出环岛、识别并避让VRU、绕行占道车等能力。考虑到这是理想汽车城市NOA的首个对外亮相的版本,虽在更细腻拟人的博弈等层面仍需优化,但已经是完全可用的状态,总体的通行效率和舒适度可以打上80分。

特别让人印象深刻的是,在笔者坐在驾驶位的时长约1.5小时的路段里,甚至未出现任何一次接管。

这是一个好的开始。

在产品落地层面,理想城市NOA的进度落后于小鹏和华为。而其在过去三、四个月里的表态和动作表明,理想正在提速追赶。

为什么要提速

智能电动车何时真正进入“智能时代”?

李想的判断是,这需要触达一个用户体验的价值点,而城市NOA功能的成熟,就是这个价值点。

这里首先需要明确:城市NOA成熟的标志是什么?

理想汽车认为,城市NOA作为一项L2级辅助驾驶功能,如果能让用户在日常上下班途中超过60%的时间里都选择将它开启,由系统(在人的监督下)帮人开车,用户就会“旦用难回”。到那时,智驾功能将开始影响消费者的购车决策。

基于这个判断,城市NOA是理想汽车必争的战略堡垒,不容有失。

关于城市NOA的落地节奏,李想在今年3月初的春季分享会上表示,大部分中国头部企业将在2023年年底做到特斯拉2021年底的水平、2024年普遍做到特斯拉2022年底/2023年初的水平,到2024年底,城市NOA将开始影响中高端车型的购买决策。

仅一个多月之后,理想将城市NOA的落地节奏调快了半年:4月18日上海车展上,理想汽车宣布要在第二季度开始城市NOA早鸟测试,并在年底覆盖100城。

为何要加快城市NOA的研发和落地进度?理想汽车智能驾驶副总裁郎咸朋的解释是:“从对人工智能的发展观察,理想汽车认为自动驾驶发展的时间节点,会比预想的更快。”

内部的技术判断如此,外部的竞争环境更是紧锣密鼓:

早在去年9月,小鹏和华为(极狐)分别在广州和深圳落地了城市NOA。到了今年6月,小鹏城市NGP已落地广州、深圳、上海、佛山四城,并在北京各环路及城市快速路开通NGP;华为支持的阿维塔11、极狐阿尔法S·HI版、问界M5智驾版,则可在深圳、广州、上海、杭州、重庆五城使用城区NCA。

蔚来虽尚未正式推送城市NOA功能,但也已开通北京各环路、城快路的NOP+,并在上海开启了城市NOP+先锋体验,计划每两周一轮扩展用户群体。

理想的智能驾驶自研起步晚于小鹏和蔚来。2021年12月,理想首次向2021款理想ONE推送高速NOA,比小鹏高速NGP晚了11个月、比蔚来高速NOP晚了14个月。

但在那个时候,高速NOA的落地节奏并不具决定性,原因在于:

1.对用户而言,一套好用的高速NOA固然能大幅降低驾驶员长途驾驶的疲劳感,但其发挥作用的高速场景仅占普通用户总行驶里程的10%-15%,因此提供的价值有限。

2.对车企而言,早期高速NOA采用2D图像识别,辅以高精地图提供的超视距信息,再用人工规则实现车辆的规划和控制;到了城市NOA阶段,感知方案需要切换到BEV架构,实现360°三维感知和基于空间、时序的轨迹预测,以应对各类不规则障碍物、交通参与者和复杂博弈。由于两种方案的技术架构差别很大,“进城”后的算法需要推倒重写,早期的行驶数据也多不适用于新的模型训练。

李想认为,在特斯拉将“大模型+BEV”的方案跑通之前,自动驾驶并不是一个人工智能驱动的领域,而是“有多少人工就有多少智能”,因为车辆的驾驶决策逻辑全由人工写成,代码量越积越多,但无法穷尽所有的corner case。

如今的方案则完全不同了。特斯拉FSD Beta在过去两年多的进化已经证明,基于自动标注和影子模式形成的数据闭环,运用大量数据对AI模型进行训练,就能使系统的性能不断提升,实现单位里程内越来越少的接管和更高的安全性。

当各家都具备了类似特斯拉FSD Beta在2021年底时的算法架构,接下来最要紧的事就是大量收集城市场景的行驶数据。车企越早推出城市NOA功能、用户越多使用这项功能,就会有越多高质量的数据用于模型训练,加速系统的能力进化。

这条由特斯拉率先趟出的技术路线,如今在中国的头部厂商看来已具备确定性。

路径即定,按照理想一贯的做法,下一步便是集中资源、毕其功于一役。

理想的方案

上文说过,进入城区后,由于要应对车辆周围高频次、多类型的交通参与者和障碍物,自动驾驶感知模块需切换到BEV架构。

Transformer大模型和BEV的组合,是特斯拉在2021年10月开启FSD Beta公测时采用的技术方案的核心。在今天的自动驾驶领域,这一组合几乎出现在每一家车企和自动驾驶算法公司的宣传材料里。但是,真正将BEV落地到已交付的量产车上的企业却寥寥无几。

今年3月底,小鹏汽车向G9和P7i Max版用户开放XNGP第一阶段能力。小鹏XNGP采用的新一代感知架构XNet,即是基于BEV架构。

在刚刚过去的6月底,蔚来开始向NT2.0车型推送Banyan 2.0.0版本更新,其中的高速NOP+功能,也已升级到BEV架构。

而华为方面,余承东曾在今年4月16日表示,搭载于极狐阿尔法S·HI版和阿维塔11的HUAWEI ADS 1.0,已经采用了BEV架构。

理想汽车的城市NOA早鸟测试版也是BEV架构,但在量产车上的高速NOA,仍是基于2D识别+高精地图的方案。

BEV架构的工程落地并不容易。事实上,即使是特斯拉,也是直到今年3月推送FSD Beta 11.3.1版本时,才将用于高速公路的Autopilot(包括高速NOA功能)与FSD技术栈相统一,将高速NOA更新到BEV架构。

对于中国厂商而言,在城市场景采用BEV架构的另一个重要意义在于,摆脱对高精地图的依赖。

高精地图能够提供精准、超视距的道路边界、连接点、拓扑结构等信息,因此对当前国内厂商的智驾功能体验作用明显。笔者今年3月在上海体验小鹏城市NGP时的感受是:在没有高精地图覆盖的区域,仅依靠XNet视觉识别的车辆在通过非对称路口时,体验不如有高精地图时稳定。

但高精地图的缺点也同样突出:成本高、更新周期长(鲜度差)、覆盖范围有限(目前全国仅有6座城市开放高精地图应用试点),对此本文不做展开。

现实的情况是,小鹏和华为当前已经落地的城市NOA,均使用了高精地图。但在包括此二者的各厂商的规划中,“去高精地图”已是共识。

作为“追赶者”,理想的城市NOA将跳过依赖高精地图的过渡方案,直接做BEV和无高精地图。这将有助于城市NOA功能的泛化。

根据理想智能驾驶产品经理哲伦班长透露的信息,理想虽然还未在量产车上推BEV,但相关的研发已做了一年多,接下来的计划是用一套方案解决城区、高速、泊车等全部场景。

这样做的好处是效率更高(算力的利用率高、研发工作资源更集中)、系统的性能上限更高;难点则是算法的架构设计难度更高、对数据的要求更高。

关于高精地图缺失下如何弥补实时感知的不足,业界有不同的解决方案,例如Mobileye的REM众包地图、特斯拉用语言模型自回归网络识别车道等。理想汽车也提出了自己的解法。

6月19日的“家庭科技日”上,理想向外界介绍了「神经先验网络」(Neural Prior Net,NPN)。NPN运用神经网络特征(而非高精地图中的车道线、路沿、交通标识等显性特征)描述复杂路口,将来自多车的NPN特征汇集在云端,并将这些NPN特征用于经过路口的车辆上的BEV网络,帮助其提升对复杂路口的识别能力。同时,每一辆经过相应路口的车辆,又会反过来提供新的NPN特征,不断更新、完善云端的NPN特征集。

哲伦班长用一个形象的比喻描述NPN网络对路口的覆盖:就像在设置手机指纹识别「Touch ID」。

郎咸朋在总结NPN网络的优点时,特别提到两点:

1.信息量大:NPN特征通过神经网络提取全图特征,而不仅限于人为制作高精地图时的车道线、路沿、交通标识等。

2.保密性高:NPN特征是神经网络的语言,人类无法直接解读,且必须配合BEV网络才能使用——而每家的BEV网络模型、传感器型号和位置各不相同,因此不存在数据安全问题。

此外,在「NPN模型读图 → NPN模型输出NPN特征 → BEV模型使用NPN特征」的闭环当中,全程都不需要人的参与。在这样的“自监督学习”模式下,只需投喂大量的数据、提供充足的算力,模型的性能就会不断自动进化。

针对城市路口场景,理想还推出了另一个模型「信号灯通行意图网络」(Traffic Intention Net,TIN)。

传统的红绿灯识别,难度并不在红色和绿色的识别,而是各个灯和各个车道的对应关系的识别。算法的逻辑是要识别出:灯1、灯2、灯3、灯4,分别对应的是1、2、3、4、5中的哪条车道,因此非常依赖高精地图的车道信息和高精定位信息。

郎咸朋在微博上分享称,起初理想的团队已经设计了一套快速获取红绿灯样本的机制,并且已覆盖338个城市、标注了36.5万帧,但最终决定放弃传统方案,改用大模型解决问题:“不是红绿灯类型多吗,不检测了;不是高精地图更新难吗,不使用了;不是定位偏吗,不依赖了。”

TIN网络的训练数据包括驾驶员在通过路口时的行车视频、刹车和油门的开合度、方向盘转角等。其中刹车、油门和方向盘转角对应驾驶员的行车意图,而行车视频则被用来提取场景的特征向量,通过Transformer网络结合时间和空间的信息,保证意图识别的稳定性。

简单来说,TIN网络不识别红绿灯,而是识别“意图”——通过“阅读”整个路口的图像信息,预测画面中每一个交通参与者的意图和轨迹。

郎咸朋是这样描述TIN的:“我们并不知道TIN学到了什么,但它一定学到了什么,所以才会做出正确的通行意图。”

人工智能的魅力正在于此——不需要人为制定规则、告诉系统在何种情形下该作何种处理,而只需大量的数据训练,就能以「输入 → 输出」的简洁架构解决问题。

当然,人工智能也的确存在“黑盒”属性——当前的解决办法是,理想会用人工规则在上层的决策控制环节加以约束,确保车辆遵守交通规则和安全行驶。

郎咸朋介绍称,NPN和TIN的效果已初步得到验证:在刚刚过去的5-6月,望京地区进行了大范围的红绿灯更换,据不完全统计共有80多个。理想团队惊喜地发现,即使不补充数据,TIN网络仍能在这些更换过红绿灯的路口给出准确的通行意图。

一个值得关注的共同点是:NPN和TIN网络都将人的参与从模型的训练流程中剔除出去了。

加大人工智能的用量、用更多的“数据驱动”加快功能进化的节奏——这是理想汽车在大模型时代遵循的新范式。

郎咸朋还表示,理想汽车后续计划将BEV大模型(包括NPN和TIN)与规控模型打通,实现完整的端到端,即从传感器到执行。

算法演进的方向

理想智驾团队的尝试堪称激进,也颇值得赞赏,因为这会让竞争变得更有趣、更具看点。

迄今为止,说中国头部厂商在自动驾驶领域的探索是“摸着特斯拉过河”并不为过。通过采用高精地图、激光雷达可以在短期内弥补算法的不足,但BEV、Transofrmer、Occupancy Net的发展轨迹,已一再证明特斯拉对技术的前瞻判断。

特斯拉FSD进入中国市场的具体时间尚不明确,但最终会是大势所趋。国内厂商终究要与之正面竞争。

历数人工智能发展的三个核心要素:数据、算力、算法——蔚鹏理华们在积累销量和数据、布局超算能力的同时,还需要在尚未收敛的自动驾驶算法上寻求创新。

或许,留给中国厂商们的创新空间已经在迅速收窄。

7月15日,在xAI公司通过推特Spaces举办的一场网络会议上,伊隆·马斯克在谈到AGI问题时表示:“如果我们回顾特斯拉的经验,实际上我们一直都把问题复杂化了。我暂时无法分享更多细节,但总体来说,答案比我们想象的简洁很多。我们一直都太愚蠢,没能意识到答案竟如此简洁……”

虽然马斯克的发言略显闪烁其词,但很多人认为这是在暗示,特斯拉FSD已经取得了重大的突破。

再结合特斯拉FSD近期的其他动态:

5月9日,马斯克在推特上表示,FSD v12版本将移除Beta后缀,并采用端到端的人工智能架构,即输入摄像头等传感器数据,输出转向、刹车和加速等控制信号。6月18日,特斯拉自动驾驶软件负责人Ashok Elluswamy在2023年CVPR上分享了「世界模型」的内容,并称“也许会在今年晚些时候”推送包含该模型的FSD软件。6月30日,马斯克在回复网友时称,特斯拉在调大Diffusion模型的比重、降低Transformer的比重,因为前者的计算效率更高。但他又说,很可能Diffusion模型未来也会被放弃。

虽然目前还没有实质性的进展,虽然也有人认为马斯克所谓的“端到端”只是把多个神经网络串联起来,从感知到决策不再使用人工代码,但以上的线索还是让业界对特斯拉FSD新的软件架构浮想联翩。

“端到端模型”是今年很火热的话题,与之相关的论文也在今年获得了CVPR最佳论文奖(首个获此殊荣的自动驾驶论文)。但在量产层面的工程落地还远未实现,讨论时也需要清晰定义,避免鸡同鸭讲。

对于完整的、从感知到控制的端到端自动驾驶模型,小鹏汽车自动驾驶副总裁吴新宙认为还很遥远,目前也不会考虑把控制交给人工智能。

但若缩小覆盖范围,一些局部的“端到端模型”已经存在,例如小鹏XNet可称为端到端感知模型、理想TIN可称为端到端路口通行意图模型。

结合“世界模型”的内容,人们猜测的特斯拉的端到端模型,是一个将占用网络、车道线网络、动态目标网络等神经网络统统归于一个简洁而完整的“世界网络”。它的本质任务是“预测视频的下一帧是什么样”。

这样一个世界网络的原理会与生成式模型类似,例如GPT-4的任务就是文字接龙游戏——预测下一个token里会出现什么字。

这个世界模型的训练方式,分为4个步骤:

1.设计一个AI模型,其任务是根据视频前一帧的内容,预测视频下一帧里每个像素的RGB数值、语义信息等;

2.将模型预测出的结果与现实中视频下一帧出现的实际结果相对比;

3.调整模型参数,让其下一次预测更接近现实中的情况;

4.重复以上三个步骤。

利用车队实际行驶中收集到的源源不断的数据,以及算力越来越大、成本越来越低的训练中心,不断重复以上模型训练的闭环——通过这样的思路训练出的“世界模型”,其浏览过的数据量将会超出我们能够想象的范畴。针对任何一个视频片段,它都能够生成符合现实的下一帧预测——这将包括画面中每一个移动物体的移动轨迹和速度,从而也就很容易得出行驶在其中的自动驾驶汽车的规划路线。

可以说,自动驾驶车辆的驾驶决策,将只是世界模型输出结果的衍生品。

特斯拉会不会在今年秋季召开第三次AI DAY、届时会不会正式发布世界模型呢?整个业界都在期待。

但无论自动驾驶算法架构如何演进、无论“端到端”的覆盖程度是浅还是深,其目的并不只是追求美学上的简洁,更是为了计算效率的提升,即追求每单位功耗所实现的(有价值的)AI算力,用最低成本解决自动驾驶问题。

结尾

本文从理想城市NOA的话题聊开去,浅述了中国厂商如何在智能驾驶进入城市场景后参与竞争。

当然,提高竞争力的方向还有很多,这里无法尽述。例如,数据闭环的能力包括数据的筛选、回传、标注、训练、验证、再部署。数据规模只是基础,还需拥有与之匹配的数据处理能力,以及足够的训练集群算力,才能发挥数据驱动的全部价值。

中国智能驾驶行业百鸟争鸣的局面,对从业者和消费者都是幸事。期待看到国内厂商的更多创新,以及城市NOA的“iPhone时刻”到来。

0 阅读:28

衣衣谈汽车

简介:感谢大家的关注