DC娱乐网

英伟达刚出“CUDA Tile”,海光这边就跟进,AI编译器要变天?

英伟达前脚刚把“CUDA Tile”捧成自2006年以来最大的进步,后脚海光DCU就带着TileLang杀出来了。这时间点卡的,要说没点对标的意思,我是不信的。   其实仔细想想,这背后是整个GPU编程范式的焦虑。以前那种让开发者手撸线程块、死磕Shared Memory的日子,在AI模型日新月异的今天确实有点吃力。海光这次跟中科院计算所推出的TileLang,瞄准的就是这个痛点。   看它这路子,完全就是“高打高举”。不仅支持FP32这些主流精度,还专门针对GEMM和FlashAttention做了全链路优化,这摆明了是冲着大模型训练推理去的。特别是那个“消除Layout转换损耗”,这意味着什么?意味着你在做多头注意力的时候,数据在芯片里走的路径更短了,延迟自然就下来了。   有人可能会说,这不就是Triton那套吗?但我觉得海光的聪明之处在于“协同”二字。它没想 TileLang 取代一切,而是让它跟现有的TVM、XLA、IREE这些生态无缝协同。这就好比在DAS这套系统里,TileLang成了那个“万能转接头”,不管是新的卷积还是奇怪的激活函数,都能快速落地到DCU上。   当然,编译器优化本就是一场马拉松,PASS的打磨需要深厚的硬件理解和大量实践。不过好消息是,海光与中科院的强强联手,恰好形成了“学术前瞻+落地”的黄金组合。我们完全有理由相信,随着社区贡献的增多和实际场景的反馈,TileLang不仅能“看着美”,更能“用得爽”,真正成为国产AI算力的效率引擎。