【[1.1k星]DeepEP:DeepSeek最新开源的高效专家并行通信库,提供

爱生活爱珂珂 2025-02-25 11:23:30

【[1.1k星]DeepEP:DeepSeek最新开源的高效专家并行通信库,提供了高吞吐、低延迟的 GPU 内核,支持低精度操作,并且与 DeepSeek-V3 论文中提出的组限制门控算法相匹配,为大规模分布式AI模型训练和推理加速。亮点:1. 提供高吞吐、低延迟的GPU通信内核,性能提升显著;2. 支持低精度操作(如FP8),优化计算效率;3. 低延迟内核延迟低至163微秒,适合推理解码场景】

'DeepEP: an efficient expert-parallel communication library'

GitHub: github.com/deepseek-ai/DeepEP

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注