英伟达刚出“CUDA Tile”，海光这边就跟进，AI编译器要变天？

英伟达前脚刚把“CUDA Tile”捧成自2006年以来最大的进步，后脚海光DCU就带着TileLang杀出来了。这时间点卡的，要说没点对标的意思，我是不信的。其实仔细想想，这背后是整个GPU编程范式的焦虑。以前那种让开发者手撸线程块、死磕Shared Memory的日子，在AI模型日新月异的今天确实有点吃力。海光这次跟中科院计算所推出的TileLang，瞄准的就是这个痛点。看它这路子，完全就是“高打高举”。不仅支持FP32这些主流精度，还专门针对GEMM和FlashAttention做了全链路优化，这摆明了是冲着大模型训练推理去的。特别是那个“消除Layout转换损耗”，这意味着什么？意味着你在做多头注意力的时候，数据在芯片里走的路径更短了，延迟自然就下来了。有人可能会说，这不就是Triton那套吗？但我觉得海光的聪明之处在于“协同”二字。它没想 TileLang 取代一切，而是让它跟现有的TVM、XLA、IREE这些生态无缝协同。这就好比在DAS这套系统里，TileLang成了那个“万能转接头”，不管是新的卷积还是奇怪的激活函数，都能快速落地到DCU上。当然，编译器优化本就是一场马拉松，PASS的打磨需要深厚的硬件理解和大量实践。不过好消息是，海光与中科院的强强联手，恰好形成了“学术前瞻+落地”的黄金组合。我们完全有理由相信，随着社区贡献的增多和实际场景的反馈，TileLang不仅能“看着美”，更能“用得爽”，真正成为国产AI算力的效率引擎。

DC娱乐网

英伟达刚出“CUDA Tile”，海光这边就跟进，AI编译器要变天？

热门分类