6月15日,理想汽车正式发布自研AI芯片“马赫M100”。
据理想介绍,这是全球首款量产动态数据流AI芯片,也是目前量产车规级AI算力芯片中的重要代表。
这颗芯片最核心的看点,除了单芯算力达到1280TOPS,还有实际算力利用率超过82%。
理想汽车CTO谢炎表示,即便是基于SIMT架构的GPGPU,要达到马赫M100超过82%的实际算力利用率,也非常困难。

图源:理想
据介绍,马赫M100采用“Mesh网格总线 + DRB数据环形总线”的双互连架构。
Mesh网格总线负责提供高带宽点对点通路,DRB数据环形总线负责提供确定性的广播通路,让数据在计算阵列中高效流动。
在核心规格方面,马赫M100采用5nm车规级制程工艺,基于自研动态数据流架构设计。
CPU部分采用24个2.3GHz Arm Cortex-A78AE核心,主要负责安全和系统控制。
NPU部分则占据整个SoC超过一半的面积,包含56个计算单元和1个数据处理模块,单颗AI算力达到1280TOPS,算力利用率超过82%。
内存系统方面,马赫M100支持8个LPDDR5X通道,带宽达到273GB/s,为大模型推理和智能驾驶计算提供高速数据通道。

图源:理想
那马赫M100为什么要做数据流架构?
谢炎用了一个很形象的比喻:当砖头,也就是晶体管的质量和数量都无法大幅提升时,就要重新发明“盖楼方式”。
过去的通用计算架构,更像是由中央指令队列统一调度,芯片里有大量晶体管都在做管理、搬运和调度工作。而AI计算天然具有高度并行特征,数据关系清晰、流动路径明确。
所以,马赫M100选择拆掉中央式指令队列,让数据的流动来驱动计算发生。数据流到哪里,就在哪里触发计算。这就是数据流架构的核心。
现场,谢炎还展示了马赫M100与英伟达Thor-U的实测对比结果。
在CNN骨干网络、UniAD、理想马赫VLA等测试中,理想称,马赫M100均超过英伟达Thor-U,而且不是略微领先,而是出现了数倍性能差距。

图源:理想
除了智能驾驶,马赫M100还可以运行通用大模型。
在Qwen3.5-35B-A3B通用大模型测试中,理想将马赫M100与售价约4万元的英伟达DGX Spark进行对比。测试结果显示,马赫M100的Prefill性能是DGX Spark的2.7倍,Decode性能是DGX Spark的1.5倍。
在整车应用上,双马赫M100芯片总算力达到2560TOPS。
理想汽车基座模型负责人詹锟表示,在双马赫M100的算力支持下,理想自动驾驶大模型技术方案VLA的模仿学习规模提升50%,强化学习规模提升15倍,模型参数量提升10倍,模型计算量提升15倍。
具体到场景中,马赫VLA可以应对倒车让路、识别交警手势、绕开低矮不规则障碍物、穿越无车道线的城中村雨夜窄路等复杂场景。

图源:理想
理想希望通过更大的模型、更强的算力和更低延迟的系统,让车辆具备更接近人类的理解和决策能力。
得益于软硬件全栈自研,理想将视觉输入、模型推理、底盘响应和系统调度整条链路全部打通。
其中,马赫VLA采用原生多模态MoE混合专家大模型,取代传统模块化模型,让感知、理解、思考和行动在同一框架内对齐。
最终,马赫VLA端到端大模型响应延迟降低到0.28秒,相比人类司机反应速度快了接近40%。

图源:理想
安全方面,理想也把密钥保护、设备身份、可信启动链和关键权限管控前置到马赫M100芯片设计中,再通过全栈自研软件进行统一调度,以提升整车智能系统的安全性。
更值得注意的是,谢炎还宣布,马赫M100架构论文已被ISCA 2026收录。
ISCA是国际计算机体系结构领域的顶级会议之一。理想也是汽车行业首家论文入选 ISCA 2026 工业分区的整车企业。
消息数据来源:理想、新浪微博等媒体报道