DC娱乐网

物理世界的“大脑”进化:小鹏汽车第二代VLA技术全解析

在自动驾驶向通用人工智能(AGI)跨越的关键节点,小鹏汽车再次祭出技术杀手锏。2025年11月6日,小鹏就第二代VLA(

在自动驾驶向通用人工智能(AGI)跨越的关键节点,小鹏汽车再次祭出技术杀手锏。2025年11月6日,小鹏就第二代VLA(Vision-Language-Action)模型”进行了深度分享。

从单一的感知决策到视觉-语言-动作的深度融合,小鹏第二代VLA不仅重塑了智能驾驶的逻辑底层,更通过云端大模型与车端轻量化部署的协同,实现了端到端技术的跨代升级。这不仅是一次关于“车”的进化,更是小鹏面向未来机器人时代、打通物理世界交互逻辑的核心基石。以下为本次分享会的技术精华与深度问答。

从工程与范式看第二代 VLA:为什么要“拆掉语言”?

Q:上一代 VLA(及你们的 5.7/5.8 OTA)在用户口碑上有两极化反映。请先说明:上一代到底遇到什么问题?为什么要开展第二代 VLA?另外,你们是不是把 language(L)“真·去掉”了,还是换了表达形式?

答(刘先明):第一,我们并非“突然”停掉旧方案,而是在做路线选择与风险评估。工程上,当我们看到有更有利的路径同时具备可控风险点时,会调整资源和投入 —— 这并不是否定前一代,而是技术演进的必然。关于“去掉 L”,我们的确将系统设计从「图文/语言 + 推理」的显性链路转为以连续的物理信号(video + 状态/轨迹)为主的端到端训练与推理路径:也就是说,训练时不再以显性语言作为中间离散瓶颈来做主干推理(我们没有用 language-token-first 的路径),但文字/指令作为输入仍可存在于外部(例如导航指令、语音指令),只是它不再是模型推理的中枢瓶颈。我们把重点放在用原生视觉+轨迹数据做自监督/模仿学习,从而提高泛化与工程可扩展性。

什么是“原生 VLA”与输出信号设计?

Q:你刚提到把模型的输出直接对齐到连续的控制量(角速度、加速度等)。这与把轨迹先转换成 token 再解码的做法有本质区别吗?你们怎么编码轨迹数据用于联合训练?

答(刘先明):原生 VLA 的核心就是把视觉(高频视频)与车辆状态(XY、航向角、速度、时间戳等)作为联合训练的三元组数据直接送入模型,不再先把轨迹做成离散化的“格子”编码那类笨办法。技术上我们做了大量工程化尝试(例如抽样、离散化试验、角速度/加速度直观编码等),结论是:直接使用连续的状态量并配合合理的抽样/归一化策略,反而更简洁、更易 scale。最终模型可以直接输出控制量,或通过轻量 decoder 将轨迹 token 转为控制信号。关于细节我们出于对竞品保护不做逐行披露,但总体思路是强调“简单就是美”:越简单越容易工程化、维护与放大。

无标注自监督如何实现大规模数据利用?

Q:你们强调“无需人工标注”的训练路线。为什么这一点可行?小鹏是如何在车端/云端把“想要的数据”高效收回并用于训练的?

答(刘先明):自监督成功的前提是能够以海量数据替代人工标注,从而把训练变成“无限制地用数据”而不是受限于标注效率。我们做了两件基础工程工作:一是在车端做更精细的数据过滤与采样,明确哪些视频段、哪些轨迹是“有用”的(避免同场景过度重复采集);二是在云端做严格的数据闭环与质量分布管理,保证训练数据的分布多样且代表性强。结果是我们能在不同城市、不同场景用最少人工干预实现大规模自监督训练,这也直接提升了泛化能力,并带来涌现效果。现场举例:一些极限通过场景并非专门写死或单独强化训练出来,而是当数据量和模型到达临界点时自然表现出来的能力。

端侧运行与云端仿真:车端真的在“推理”吗?

Q:发布会上有“world model / simulation”相关内容;你们现场演示的车端却看不到显性 COT(chain-of-thought)可视化。请问:云端做 simulation,车端是否只是“执行”?车端有没有隐式推理?

答(刘先明):核心是划分职责:云端承担更复杂的训练与仿真(包括大规模 self-play、world-model 类型的训练),而车端需要在实时性和算力受限的条件下做高频、低延迟的推理。我们把复杂的推理逻辑内嵌到训练中,使得部署时车端可以用更轻量、更高效的推理流程去执行——因此车端确实在做推理,只是这种“推理”没有以大段文字或显性 COT 的形式展示给用户。我们仍然重视可解释性,在交互层面会保留对“意图”的可视化(例如为什么要提前变线、为何减速),以便建立用户信任。

从 Demo 到量产:算力、编译器与车端实时性

Q:将“大模型”放到车端实时运行,这个工程难度巨大。你们具体做了哪些软硬一体化优化?在算力、延迟上有哪些量化指标(例如 Demo 中提到的 12 倍吞吐)?

答(刘先明):确实,工程化是最难的环节。我们从模型到软件、到编译器再到芯片做联合优化:自行设计编译器以榨取芯片每一比特算力、优化网络结构与算子以适配量化、并在输入端实现 token/video 压缩(TOKEN compression)来减少带宽与计算负担。演示中对比的吞吐量提升(例如 12 倍)是基于我们在特定芯片/模型栈上的真实测算结果;总体目标是让模型在车端以与摄像头同帧率实时运行,从而把反应延时控制在可接受范围(避免 700–800ms 那样会导致安全风险的延迟)。量产路径是分阶段推进:先保证首批量产车辆体验优良,再逐步扩展到更多车型与老车主升级计划。

关于激光雷达:车规与效能的权衡

Q:有同行主张多颗激光雷达是 robotaxi 的必要条件。你们为什么选择以摄像头为主,而不把激光雷达作为量产通用方案?

答(刘先明):激光雷达是 active sensor,有其物理优势,但也存在明显限制:频率(如典型 10Hz)不高、远距回波点稀疏、在雨雾等环境会产生噪点且需要高发射功率(不利于车规化),而且在远距时回波点数极少,实用价值有限。相对地,高分辨率摄像头每秒能产生远超激光雷达的信息量,只要有足够的模型与算力,视觉信号能提供更丰富的环境表征。过去模型与算力受限时,依赖激光雷达是一个合理权衡;现在我们靠大模型与更强算力把视觉信号的优势放大,从而在工程上选择以摄像头为主的路线。并不是完全否定激光雷达在特定场景下的价值,但我们认为端到端视觉驱动的路径更有可扩展性。

老车主、车型差异与海外部署节奏

Q:G9 等配激光雷达的老车主,将来能否体验第二代 VLA?海外用户什么时候能用上类似功能?X9 的定价公布也在近日报导中,稿件是否会一并覆盖?

答(刘先明):老车主能否升级取决于车端的算力与软硬件耦合:原则上我们会尽力做迁移支持(尤其会优先照顾 Max 等高端车型),但不同车款在算力上会有损失,体验可能不完全一致。关于海外部署,法规和当地政策是决定性因素;一些像 LCC 的功能在全球范围内通行,我们计划把 super LCC 与人机共驾等能力优先做成海外可推的产品,时间点预期为“明年起分批推进”。

robotaxi、接管率与评估指标

Q:现场提到接管率有显著提升,请问这类指标如何统计?是否足以支撑 robotaxi 的部署决策?

答(刘先明):需要澄清的是,PPT 中的某些路段对比并不代表我们对外公布的统一 MPI 指标;那只是用于展示在特定对标路段上的比较。衡量 robotaxi 能否部署,不能只看单一接管率数字;还要看运营场景、法规合规、成本/收益等多维度指标。技术角度的追求是持续降低云端接管频率与对应成本,最终达到技术与商业上的平衡。我们不会用单一浮动数字来宣布“可部署”,而是以更严谨的评测体系来决定。

Q:第二代 VLA 的优先级会不会放在行车能力而非泊车上?普通用户何时能感受到端到端能力在泊车体验上的提升?

答(刘先明):泊车产品体验是我们需要改进的地方。我会让团队跟进具体个例(现场承诺作 bug 跟进)。战略上我们先把行车核心能力(行驶安全、泛化、低接管率)做成显著差异化的下一代产品,然后再把泊车等场景纳入统一的模型与产品迭代计划,逐步把更多场景迁移到端到端大模型上。短期内会通过 SR 级别的工程修复和产品体验优化逐步解决用户抱怨的问题。

总结

刘先明多次强调两点:一是“回到物理 AI 的第一性原理”——自动驾驶本质上是对物理世界的建模与预测,输入与输出均是连续的物理信号;二是“工程化与规模化”——把看起来简单的想法做成功,需要极大的数据、算力、基础设施与工程稳定性(例如几十 PB 数据与万卡级训练稳定性的保障)。

他多次重申,第二代 VLA 的价值在于把复杂的中间离散化环节(language token)当作可选而非必要,从而在工程上实现更高的数据利用效率与更好的泛化能力。若要把这一套技术真正做成量产产品,接下来要在软硬结合、车端部署与运营合规上做大量细致工作。