DeepSeek开源周第三天的项目:DeepGEMM。又是一个针对NVIDI

又仁看科技 2025-02-26 10:21:59

DeepSeek开源周第三天的项目:DeepGEMM 。又是一个针对 NVIDIA Hopper 架构的提效工具。而且还部分解决了 FP8 的精度损失问题,又快又好。同时这还是个学习 Hopper FP8 矩阵乘法和优化技术的一个简洁且易于理解的资源。

github.com/deepseek-ai/DeepGEMM

DeepGEMM 的目标是让大家能够又快又好地进行 FP8 矩阵乘法运算。FP8 是一种新的计算方式,就像用更小的数字来代替大的数字计算,这样可以让深度学习模型跑得更快,占内存更少。 DeepGEMM 特别支持一种叫做“细粒度缩放”的技术,这是 DeepSeek-V3 模型里用到的,能让 FP8 计算更准确。

这个库既能处理普通的矩阵乘法,也能处理更复杂的 MoE 分组矩阵乘法。

DeepGEMM 是用 CUDA 写的。目前 DeepGEMM 只能在 NVIDIA Hopper 架构的显卡上使用(H100、H800等)。 FP8 计算有个小问题,就是可能会不太精确,DeepGEMM 为了解决这个问题,用了一种叫做“两级累加”的技术,就像是用更精细的计算方法来保证结果的准确性。

图为性能加速倍数。

0 阅读:2
又仁看科技

又仁看科技

感谢大家的关注