一边锻炼一边写一点司机Agent 的产品细节吧
懒博小课堂
整体评价: 基于司机Agent 这个产品定义主要专注于 封闭园区/地下车库场景下的多模态信息融合感知输出决策。
产品整体定义,细节都是做的很完善了。
举几个细节点:
1️⃣: 首先Agent 产品已经全模型化输出轨迹,除了部分兜底还会有少量的规则。因此和过去的AVP产品体验完全不一样。最为直观的感受就是你感觉到在园区/地下车库 AD Max 自己开车和人类司机开车体验几乎无差异
【当然还是没有人类老司机开得好】。
2️⃣:基于2D/3D 信息编码整合进模型后,Agent 具备理解道路标牌【例如,出口,上下坡道,左右转,电梯口,不允许通行,区域B12345,ABCDEFGG区 etc】的能力,和语音交互感知【左右转,靠边停车,掉个头,快点慢点,甚至给出先去A区再靠边,或者掉头后再去C区】的能力。简单指令场景依赖的是本地的多模态LLM,复杂指令是Token化后上云大参量的LLM,将任务拆解后转换成顺序任务后在本地LLM执行。
3️⃣:具备自建关联点的能力【我这里为什么不说建地图而是建关联点】有就几个原因:首先更多的是行车的关联结构,而并非记忆了精准的道路结构。因此车辆在调用这个关联点记忆很像人在地下车库开车【大概要往哪个地方开,而并非是像Hd map 具有严格的驾驶轨迹限定】,换句话说,关联点建好后。理论上,给Agent 需求后,会直接进行关联点分析,规划出一条最近的【可以符合通行逻辑】的地下/园区驾驶轨迹。
当然现在他能力还有限,还是偶尔会出现开错路,然后触发掉头再开【对因为行车模型化后,理论上可以触发无限制掉头,几乎不会卡死】
4️⃣:具备感知推理能力,而且怀疑整个AD Max Agent 场景是将行车感知摄像头和泊车【鱼眼】感知摄像头对齐后输入到模型里面。甚至还前融合了激光雷达的数据。
基本可以做到全向规则/不规则的环境感知能力。
考虑到业内发展态势如此之快。从个人体验角度来看,我觉得AD Max 司机Agent 和 NIO AD 的NWM。
是目前唯二,将多模态感知信息整合到一个模型里实现复杂推理的应用场景。
NWM大家已经看到大量实测视频,地下寻路能力非常不错,而且多模态感知能力也非常好。
司机Agent。截至目前释放的范围:
1️⃣:多模态感知+语音交互;
2️⃣:地下车库收费杆感知,判断。衔接到封闭园区再到公开道路;
3️⃣:构建关联点记忆能力【第二次就不需要漫游出园区/地下车库】,直接可以跟着大概记忆走,记忆不对也会触发掉头,换路 etc
汽场全开理想mindvla让每个人都有专职司机理想l9智能焕新版