大雨解读理想L9搞全线控底盘底层逻辑2026年2月6日李想B站视频指出传统2D

大雨解读理想L9搞全线控底盘底层逻辑2026年2月6日李想B站视频指出传统2D Vit无法真正理解物理世界，供应商芯片视频编码器是黑盒，无法修改。通过强大编译团队，马赫100芯片用数据流架构，从而有足够算力运行3D Vit。

搭配全线控系统，通过模型直接输出控制转向和刹车，获得比人更好的响应时间与灵敏程度。完整版详见李想阐述26款L9为什么是具身智能汽车

2026年2月7日电动知士大雨的解读为在早期Transformer 视觉应用(ViT)中，处理数据的方式是切片式的。把摄像头拍到的一张图，比如 224X224像素，切成一个个 16x16的小方块。这就点像看幻灯片，每一帧的信息有限，且选少时间和空间关联。

3D ViT就是不再输入一张图，而是一个视频流片段(Clips)，以前的 Token 是一个二维图片补丁，现在的 Token 是一个时空管——它既包含了这个物体在空间上的位置，也包含了它在时间轴上的变化。

其实大家都在处理视频流，为什么李想现在特意强调“转向 3D ViT”？

区别在于“很多”运行在上一代芯片的端到端模型，是通过2D ViT提取特征后，通过连续几帧的堆叠，扔进一个时间融合模块里，是一个混合架构。它的本质是：先看图，再脑补动画

转向3D ViT可以理解为原生支持处理连续视频流，是天生就在看电影。

有人会说，这不就是2D转3D么，其实这是两个概念。大家讲的2D转3D通常说的是视角转换，比如BEV 鸟瞰图。而2D ViT转向3D ViT指的是特征提取维度，这里的3D指的不是空间坐标x，y，z而是张量：是高、宽和时间。

上一代芯片不能原生支持，李想在视频中提到了原因，简单理解就是：内存带宽和数据搬运效率跟不上。

李想视频中提到数据流架构，我的个人理解是：可以把 3D ViT 的层与层之间直接在硅片上“硬连接”起来。中间不需要频繁读写外部显存。上一层的输出直接在芯片内部流进下一层，这种极致的延迟优化，是通用 GPU 很难做到的。或许，这也是为什么御三家都转向自研芯片的原因。

既然大脑都这么快了，身体也得跟得上，这就是为什么L9 Livis要搞全线控底盘的底层逻辑。

2025年8月28日理想CTO谢炎在电话会议上表示理想自研芯片是新颖的数据流架构，模型的计算主要由数据驱动，而非像其他架构由指令驱动。

实现更高的并行度，数据驱动的逻辑由理想自研的编译器进行调度。与其他AI芯片不同，采用了真正的软硬协同设计，芯片、编译器、运行运行时系统(runtime system)以及操作系统，从一开始就是作为一个整体共同设计。完整版详见理想25Q2电话会议问答完整文字版

理想汽车理想汽车理想i6理想i8理想MEGA理想L6理想L7理想L8理想L9

DC娱乐网