DeepSeek五日盛宴的第三弹——DeepGEMM,这是一款能够支持密集型与专

橙子的新观点 2025-02-26 13:18:08

DeepSeek五日盛宴的第三弹——DeepGEMM,这是一款能够支持密集型与专家混合(MoE)GEMM的FP8 GEMM库,它为V3/R1的训练和推理给予了支持,于Hopper GPU上可达成1350 + FP8 TFLOPS的计算性能。 当下其仅仅支持英伟达Hopper张量核心,重点是为应对FP8张量核心累加不精确的状况。虽然它参考了CUTLASS和CuTe的部分概念,运用了CUDA核心的两级累加(提升)机制,不过避免了对它们模板或者代数的深度依赖。并且轻量化的设计,让它成为研习Hopper FP8矩阵乘法与优化技术的一种简洁且容易获取的资源。 简单点说,就是通过算法调优,提高硬件性能的同时还可以大幅提高计算精度,这谁受得了!

0 阅读:5
橙子的新观点

橙子的新观点

感谢大家的关注