
自动驾驶辅助系统正经历一场变革。从早期的OCC占用网络、BEV+Transformer视觉方案再到如今的端到端、VLA、VLM、WEWA、世界模型等新兴技术。你是不是已经被这些技术名词缩写轰炸的晕头转向?小星带着你做一次智能驾驶辅助驾驶技术名词缩写一站式解释。

如果要寻找自动驾驶智能体系的源点,2004年的DARPA自动驾驶挑战赛无疑是最清晰的开端。那是一条以规则体系建立智能边界的路线。车辆需要按照预先定义的规则完成路径规划、障碍物规避、交叉口通行。这迫使参赛队伍必须构建以模块化Pipeline为核心的自动驾驶架构。感知、定位、规划和控制各自独立,依靠规则逻辑与有限状态机主导整体行为。这一阶段的关键不在深度学习,而在工程体系化。传感器融合、规则设计、路径规划与状态管理的组合让斯坦福、CMU等团队得以首次在真实道路实现无人车运行。DARPA留给行业的最大遗产是模块化自动驾驶是唯一可控路径的工程哲学。它塑造了Waymo、Cruise以及后来无数自动驾驶企业的底层结构。

真正改变智能形态的是深度学习视觉体系的崛起。2014年间智能驾驶辅助的主流感知范式仍以逐点识别与规则抽象为核心。车辆通过传统目标检测识别行人、车辆、交通标志,再用几何流程进行空间定位。规划层则依然依靠手工设计的行为树和轨迹生成器。但随着场景越来越复杂,规则构建的成本呈指数增长。

这一需求催生了最具转折意义的技术之一OCC占用网络Occupancy Grid。它首次试图用网络直接预测三维空间的可占据概率,而不是依靠手工构建的目标框或障碍物列表。OCC的出现本质上替代了模块化感知中的结构化输出。让模型自己学习世界的几何结构。特斯拉率先将OCC推向量产,国内则以蔚来、理想、智己等为代表的车企开始在城市NOA中全面采用OCC。以更稳定地处理遮挡、远距离预测与异形障碍物。这一步让智能驾驶辅助驾驶从识别物体进入到理解空间结构的时代。

然而OCC本质上依赖卷积与稀疏体素推理,难以表达长距离语义与复杂交互关系,于是行业进入BEV+Transformer鸟瞰图+注意力机制体系。Transformer的全局建模能力让自动驾驶从局部像素转向全局语义。模型可以跨时跨相机理解运动轨迹、空间占据、静态地图与语义约束。Waymo、特斯拉V12、地平线、Momenta、小鹏都在自身的BEV系统一致转向Transformer化。这一趋势彻底重塑了工程结构。曾经以手工模块为主的特征工程被统一到BEV+Transformer内部。感知、预测乃至地图语义都变成深度模型中共享的隐空间。这一步让自动驾驶具备统一世界表征的能力,使得策略不再依赖高度工程化的规则树,而由模型在连续空间中理解驾驶意图。

随着智能从模块化向BEV统一模型过渡,端到端End-to-End自然成为新的终极方向。传统自动驾驶系统采用"感知-预测-规划-控制"的分段式架构,每个模块独立优化,容易在交接处产生信息损耗和延迟累积,俗称拼接感。一段式端到端不是简单用一个网络取代所有模块,而是试图让模型从原始传感器输入直接输出控制,绕开层层手工设定的规则和中间表示。特斯拉FSDV12是目前最纯粹的量产端到端实践。它取消人工构建的规划器,转而由网络直接预测未来轨迹,并利用大量真实人类驾驶数据逼近“直觉式”驾驶行为。地平线等公司也在类似路线探索。端到端在复杂场景中表现出更强的泛化能力,尤其在长尾场景的稳定性明显优于模块化结构。

然而,它的可解释性、可验证性和安全性依然是行业最大争议点。端到端更像是高级形式的经验“强化学习”,而非具备逻辑推理能力的真正智能。为了弥补端到端的推理不足,行业开始迈入VLA(Vision-Language-Action)与VLM(Vision-Language-Model)的多模态时代。它们本质上将自然语言作为“推理空间”,让模型不仅“看见”,还“理解、解释和推断”。VLM在自动驾驶中的应用是重构驾驶任务的表达方式。模型不再只输出轨迹,而可以解释当前场景的意图,如“前方行人犹豫”“左侧车辆试图并线”“应减速准备让行”,这些语言化标签被证实可以作为强监督信号提升策略质量。

而比VLM更激进的,是世界模型World Model。其核心不依赖具体任务,而是让模型学习世界的动态规律。世界模型不再只是BEV表征或语义占据,而是一个可预测未来、可模拟行为、可生成替代世界的统一动力学模型。国内外车企都在尝试构建可用于自动驾驶的大尺度世界模型。

技术实现上,端到端依赖大规模真实驾驶数据和神经网络的端到端训练。特斯拉通过全球百万辆车队的影子模式积累了海量长尾场景corner case数据,华为则通过WEWA架构在云端构建WE世界引擎和WA车端世界行为模型进行虚拟训练。云端WE作为超级虚拟驾校,通过生成式AI模拟亿万种极端路况暴雨、大雾、异形障碍物训练模型。车端WA则像经验老司机基于云端训练的世界模型直接输出控车指令。目标是云车协同架构破解了长尾场景数据稀缺难题。

回望二十年的技术演化,从DARPA的规则模块化驱动,到OCC的空间占用网络驱动,再到BEV+Transformer鸟瞰图+注意力机制的统一表征、端到端的行为学习、VLA视觉-语言-动作模型、VLM的语言推理、世界模型的逻辑生成,自动驾驶已从传统工程学科逐步演变为一个跨越视觉、决策、语言、生成式智能的复杂系统。