靠模仿学习实现的端到端,很难实现 L3.
什么是端到端?
人类司机开车是眼睛路况,大脑直接决定方向盘怎么转、油门怎么踩。
端到端也是一样,让汽车看大量人类司机开车的视频,照着学动作,省去中间复杂的规则设计(先识别车道线、再规划路线),就像小孩学走路,大人怎么走,小孩就模仿。
但问题来了,现在大部分这类系统是通过模仿学习来训练的,小孩可能只学会“迈腿”,却不明白“为什么要迈腿”,这就是端到端的缺陷之一,学动作,不学原因。
模仿学习端到端的问题之二在于训练时用的数据是固定的,但真实开车是动态的,你的动作会影响周围的车和人,这种开卷考试,和真实路况的闭卷考试完全不一样。
开卷考试学出来的东西在大多数情况下可能开得挺像人类,但遇到没见过的危险场景,那就容易出事。
这就是为什么「里程越多能力越强」的叙事说不通,因为里程来越多之后,99.99%的里程都是没用的,危险场景越来越难遇到,而且永无止尽。
实际上现在吹自己端到端猛的,没有哪一家敢不用规则或者其他形式去兜底。
未来,还是要靠强化学习
如果模仿学习是开卷考试,那强化学习就是模拟出一个世界,让车在这个虚拟的世界里随意开车刷题。
一开始当然会撞,但撞车就会扣分,成功通过过就能加分,通过反复试错,系统自己就会摸索出怎么开车分能高,也就真正「有因有果」。
在虚拟的世界里不断丰富场景,比如说各种光照环境,各种天气,各种道路,各种行人机动车的移动轨迹。
如果有一天强化学习能搞定这种级别的虚拟场景,从逻辑上来说,至少这样才有可能实现自动驾驶。
视频节选自:raining an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning
很好的对比了模仿学习的端到端和闭环强化学习的结果。