物理世界的“大脑”进化：小鹏汽车第二代VLA技术全解析

在自动驾驶向通用人工智能（AGI）跨越的关键节点，小鹏汽车再次祭出技术杀手锏。2025年11月6日，小鹏就第二代VLA（Vision-Language-Action）模型”进行了深度分享。

从单一的感知决策到视觉-语言-动作的深度融合，小鹏第二代VLA不仅重塑了智能驾驶的逻辑底层，更通过云端大模型与车端轻量化部署的协同，实现了端到端技术的跨代升级。这不仅是一次关于“车”的进化，更是小鹏面向未来机器人时代、打通物理世界交互逻辑的核心基石。以下为本次分享会的技术精华与深度问答。

从工程与范式看第二代 VLA：为什么要“拆掉语言”？

Q：上一代 VLA（及你们的 5.7/5.8 OTA）在用户口碑上有两极化反映。请先说明：上一代到底遇到什么问题？为什么要开展第二代 VLA？另外，你们是不是把 language（L）“真·去掉”了，还是换了表达形式？

答（刘先明）：第一，我们并非“突然”停掉旧方案，而是在做路线选择与风险评估。工程上，当我们看到有更有利的路径同时具备可控风险点时，会调整资源和投入 —— 这并不是否定前一代，而是技术演进的必然。关于“去掉 L”，我们的确将系统设计从「图文/语言 + 推理」的显性链路转为以连续的物理信号（video + 状态/轨迹）为主的端到端训练与推理路径：也就是说，训练时不再以显性语言作为中间离散瓶颈来做主干推理（我们没有用 language-token-first 的路径），但文字/指令作为输入仍可存在于外部（例如导航指令、语音指令），只是它不再是模型推理的中枢瓶颈。我们把重点放在用原生视觉+轨迹数据做自监督/模仿学习，从而提高泛化与工程可扩展性。

什么是“原生 VLA”与输出信号设计？

Q：你刚提到把模型的输出直接对齐到连续的控制量（角速度、加速度等）。这与把轨迹先转换成 token 再解码的做法有本质区别吗？你们怎么编码轨迹数据用于联合训练？

答（刘先明）：原生 VLA 的核心就是把视觉（高频视频）与车辆状态（XY、航向角、速度、时间戳等）作为联合训练的三元组数据直接送入模型，不再先把轨迹做成离散化的“格子”编码那类笨办法。技术上我们做了大量工程化尝试（例如抽样、离散化试验、角速度/加速度直观编码等），结论是：直接使用连续的状态量并配合合理的抽样/归一化策略，反而更简洁、更易 scale。最终模型可以直接输出控制量，或通过轻量 decoder 将轨迹 token 转为控制信号。关于细节我们出于对竞品保护不做逐行披露，但总体思路是强调“简单就是美”：越简单越容易工程化、维护与放大。

无标注自监督如何实现大规模数据利用？

Q：你们强调“无需人工标注”的训练路线。为什么这一点可行？小鹏是如何在车端/云端把“想要的数据”高效收回并用于训练的？

答（刘先明）：自监督成功的前提是能够以海量数据替代人工标注，从而把训练变成“无限制地用数据”而不是受限于标注效率。我们做了两件基础工程工作：一是在车端做更精细的数据过滤与采样，明确哪些视频段、哪些轨迹是“有用”的（避免同场景过度重复采集）；二是在云端做严格的数据闭环与质量分布管理，保证训练数据的分布多样且代表性强。结果是我们能在不同城市、不同场景用最少人工干预实现大规模自监督训练，这也直接提升了泛化能力，并带来涌现效果。现场举例：一些极限通过场景并非专门写死或单独强化训练出来，而是当数据量和模型到达临界点时自然表现出来的能力。

端侧运行与云端仿真：车端真的在“推理”吗？

Q：发布会上有“world model / simulation”相关内容；你们现场演示的车端却看不到显性 COT（chain-of-thought）可视化。请问：云端做 simulation，车端是否只是“执行”？车端有没有隐式推理？

答（刘先明）：核心是划分职责：云端承担更复杂的训练与仿真（包括大规模 self-play、world-model 类型的训练），而车端需要在实时性和算力受限的条件下做高频、低延迟的推理。我们把复杂的推理逻辑内嵌到训练中，使得部署时车端可以用更轻量、更高效的推理流程去执行——因此车端确实在做推理，只是这种“推理”没有以大段文字或显性 COT 的形式展示给用户。我们仍然重视可解释性，在交互层面会保留对“意图”的可视化（例如为什么要提前变线、为何减速），以便建立用户信任。

从 Demo 到量产：算力、编译器与车端实时性

Q：将“大模型”放到车端实时运行，这个工程难度巨大。你们具体做了哪些软硬一体化优化？在算力、延迟上有哪些量化指标（例如 Demo 中提到的 12 倍吞吐）？

答（刘先明）：确实，工程化是最难的环节。我们从模型到软件、到编译器再到芯片做联合优化：自行设计编译器以榨取芯片每一比特算力、优化网络结构与算子以适配量化、并在输入端实现 token/video 压缩（TOKEN compression）来减少带宽与计算负担。演示中对比的吞吐量提升（例如 12 倍）是基于我们在特定芯片/模型栈上的真实测算结果；总体目标是让模型在车端以与摄像头同帧率实时运行，从而把反应延时控制在可接受范围（避免 700–800ms 那样会导致安全风险的延迟）。量产路径是分阶段推进：先保证首批量产车辆体验优良，再逐步扩展到更多车型与老车主升级计划。

关于激光雷达：车规与效能的权衡

Q：有同行主张多颗激光雷达是 robotaxi 的必要条件。你们为什么选择以摄像头为主，而不把激光雷达作为量产通用方案？

答（刘先明）：激光雷达是 active sensor，有其物理优势，但也存在明显限制：频率（如典型 10Hz）不高、远距回波点稀疏、在雨雾等环境会产生噪点且需要高发射功率（不利于车规化），而且在远距时回波点数极少，实用价值有限。相对地，高分辨率摄像头每秒能产生远超激光雷达的信息量，只要有足够的模型与算力，视觉信号能提供更丰富的环境表征。过去模型与算力受限时，依赖激光雷达是一个合理权衡；现在我们靠大模型与更强算力把视觉信号的优势放大，从而在工程上选择以摄像头为主的路线。并不是完全否定激光雷达在特定场景下的价值，但我们认为端到端视觉驱动的路径更有可扩展性。

老车主、车型差异与海外部署节奏

Q：G9 等配激光雷达的老车主，将来能否体验第二代 VLA？海外用户什么时候能用上类似功能？X9 的定价公布也在近日报导中，稿件是否会一并覆盖？

答（刘先明）：老车主能否升级取决于车端的算力与软硬件耦合：原则上我们会尽力做迁移支持（尤其会优先照顾 Max 等高端车型），但不同车款在算力上会有损失，体验可能不完全一致。关于海外部署，法规和当地政策是决定性因素；一些像 LCC 的功能在全球范围内通行，我们计划把 super LCC 与人机共驾等能力优先做成海外可推的产品，时间点预期为“明年起分批推进”。

robotaxi、接管率与评估指标

Q：现场提到接管率有显著提升，请问这类指标如何统计？是否足以支撑 robotaxi 的部署决策？

答（刘先明）：需要澄清的是，PPT 中的某些路段对比并不代表我们对外公布的统一 MPI 指标；那只是用于展示在特定对标路段上的比较。衡量 robotaxi 能否部署，不能只看单一接管率数字；还要看运营场景、法规合规、成本／收益等多维度指标。技术角度的追求是持续降低云端接管频率与对应成本，最终达到技术与商业上的平衡。我们不会用单一浮动数字来宣布“可部署”，而是以更严谨的评测体系来决定。

Q：第二代 VLA 的优先级会不会放在行车能力而非泊车上？普通用户何时能感受到端到端能力在泊车体验上的提升？

答（刘先明）：泊车产品体验是我们需要改进的地方。我会让团队跟进具体个例（现场承诺作 bug 跟进）。战略上我们先把行车核心能力（行驶安全、泛化、低接管率）做成显著差异化的下一代产品，然后再把泊车等场景纳入统一的模型与产品迭代计划，逐步把更多场景迁移到端到端大模型上。短期内会通过 SR 级别的工程修复和产品体验优化逐步解决用户抱怨的问题。

总结

刘先明多次强调两点：一是“回到物理 AI 的第一性原理”——自动驾驶本质上是对物理世界的建模与预测，输入与输出均是连续的物理信号；二是“工程化与规模化”——把看起来简单的想法做成功，需要极大的数据、算力、基础设施与工程稳定性（例如几十 PB 数据与万卡级训练稳定性的保障）。

他多次重申，第二代 VLA 的价值在于把复杂的中间离散化环节（language token）当作可选而非必要，从而在工程上实现更高的数据利用效率与更好的泛化能力。若要把这一套技术真正做成量产产品，接下来要在软硬结合、车端部署与运营合规上做大量细致工作。

DC娱乐网

物理世界的“大脑”进化：小鹏汽车第二代VLA技术全解析

热门分类