DC娱乐网

大雨解读理想L9搞全线控底盘底层逻辑2026年2月6日李想B站视频指出传统2D

大雨解读理想L9搞全线控底盘底层逻辑2026年2月6日李想B站视频指出传统2D Vit无法真正理解物理世界,供应商芯片视频编码器是黑盒,无法修改。通过强大编译团队,马赫100芯片用数据流架构,从而有足够算力运行3D Vit。

搭配全线控系统,通过模型直接输出控制转向和刹车,获得比人更好的响应时间与灵敏程度。完整版详见李想阐述26款L9为什么是具身智能汽车

2026年2月7日电动知士大雨的解读为在早期Transformer 视觉应用(ViT)中,处理数据的方式是切片式的。把摄像头拍到的一张图,比如 224X224像素,切成一个个 16x16的小方块。 这就点像看幻灯片,每一帧的信息有限,且选少时间和空间关联。

3D ViT就是不再输入一张图,而是一个视频流片段(Clips),以前的 Token 是一个二维图片补丁,现在的 Token 是一个时空管——它既包含了这个物体在空间上的位置,也包含了它在时间轴上的变化。

其实大家都在处理视频流,为什么李想现在特意强调“转向 3D ViT”?

区别在于“很多”运行在上一代芯片的端到端模型,是通过2D ViT提取特征后,通过连续几帧的堆叠,扔进一个时间融合模块里,是一个混合架构。它的本质是:先看图,再脑补动画

转向3D ViT可以理解为原生支持处理连续视频流,是天生就在看电影。

有人会说,这不就是2D转3D么,其实这是两个概念。大家讲的2D转3D通常说的是视角转换,比如BEV 鸟瞰图。而2D ViT转向3D ViT指的是特征提取维度,这里的3D指的不是空间坐标x,y,z而是张量:是高、宽和时间。

上一代芯片不能原生支持,李想在视频中提到了原因,简单理解就是:内存带宽和数据搬运效率跟不上。

李想视频中提到数据流架构,我的个人理解是:可以把 3D ViT 的层与层之间直接在硅片上“硬连接”起来。中间不需要频繁读写外部显存。上一层的输出直接在芯片内部流进下一层,这种极致的延迟优化,是通用 GPU 很难做到的。或许,这也是为什么御三家都转向自研芯片的原因。

既然大脑都这么快了,身体也得跟得上,这就是为什么L9 Livis要搞全线控底盘的底层逻辑。

2025年8月28日理想CTO谢炎在电话会议上表示理想自研芯片是新颖的数据流架构,模型的计算主要由数据驱动,而非像其他架构由指令驱动。

实现更高的并行度,数据驱动的逻辑由理想自研的编译器进行调度。与其他AI芯片不同,采用了真正的软硬协同设计,芯片、编译器、运行运行时系统(runtime system)以及操作系统,从一开始就是作为一个整体共同设计。完整版详见理想25Q2电话会议问答完整文字版

理想汽车理想汽车理想i6理想i8理想MEGA理想L6理想L7理想L8理想L9