一边锻炼一边写一点司机Agent的产品细节吧懒博小课堂整体评价：基于司机A

一边锻炼一边写一点司机Agent 的产品细节吧

懒博小课堂

整体评价：基于司机Agent 这个产品定义主要专注于封闭园区/地下车库场景下的多模态信息融合感知输出决策。

产品整体定义，细节都是做的很完善了。

举几个细节点：

1️⃣：首先Agent 产品已经全模型化输出轨迹，除了部分兜底还会有少量的规则。因此和过去的AVP产品体验完全不一样。最为直观的感受就是你感觉到在园区/地下车库 AD Max 自己开车和人类司机开车体验几乎无差异

【当然还是没有人类老司机开得好】。

2️⃣：基于2D/3D 信息编码整合进模型后，Agent 具备理解道路标牌【例如，出口，上下坡道，左右转，电梯口，不允许通行，区域B12345，ABCDEFGG区 etc】的能力，和语音交互感知【左右转，靠边停车，掉个头，快点慢点，甚至给出先去A区再靠边，或者掉头后再去C区】的能力。简单指令场景依赖的是本地的多模态LLM，复杂指令是Token化后上云大参量的LLM，将任务拆解后转换成顺序任务后在本地LLM执行。

3️⃣：具备自建关联点的能力【我这里为什么不说建地图而是建关联点】有就几个原因：首先更多的是行车的关联结构，而并非记忆了精准的道路结构。因此车辆在调用这个关联点记忆很像人在地下车库开车【大概要往哪个地方开，而并非是像Hd map 具有严格的驾驶轨迹限定】，换句话说，关联点建好后。理论上，给Agent 需求后，会直接进行关联点分析，规划出一条最近的【可以符合通行逻辑】的地下/园区驾驶轨迹。

当然现在他能力还有限，还是偶尔会出现开错路，然后触发掉头再开【对因为行车模型化后，理论上可以触发无限制掉头，几乎不会卡死】

4️⃣：具备感知推理能力，而且怀疑整个AD Max Agent 场景是将行车感知摄像头和泊车【鱼眼】感知摄像头对齐后输入到模型里面。甚至还前融合了激光雷达的数据。

基本可以做到全向规则/不规则的环境感知能力。

考虑到业内发展态势如此之快。从个人体验角度来看，我觉得AD Max 司机Agent 和 NIO AD 的NWM。

是目前唯二，将多模态感知信息整合到一个模型里实现复杂推理的应用场景。

NWM大家已经看到大量实测视频，地下寻路能力非常不错，而且多模态感知能力也非常好。

司机Agent。截至目前释放的范围：

1️⃣：多模态感知+语音交互；

2️⃣：地下车库收费杆感知，判断。衔接到封闭园区再到公开道路；

3️⃣：构建关联点记忆能力【第二次就不需要漫游出园区/地下车库】，直接可以跟着大概记忆走，记忆不对也会触发掉头，换路 etc

汽场全开理想mindvla让每个人都有专职司机理想l9智能焕新版

0 阅读：1