QuACK ,一组用 CuTe-DSL 编写的奇特内核,用于提升内存受限内核在 Python 中的性能。
github.com/Dao-AILab/quack
使用 CuTe DSL 实现的内核在 NVIDIA H100 上达到了 3.01 TB/s 的 DRAM 吞吐量,接近硬件极限。支持 H100 或 B200 GPU
QuACK ,一组用 CuTe-DSL 编写的奇特内核,用于提升内存受限内核在 Python 中的性能。
github.com/Dao-AILab/quack
使用 CuTe DSL 实现的内核在 NVIDIA H100 上达到了 3.01 TB/s 的 DRAM 吞吐量,接近硬件极限。支持 H100 或 B200 GPU
作者最新文章
热门分类
科技TOP
科技最新文章