HuggingFace的创始人Thomas Wolf对今天DeepSeek的开源项目DeepEP做了一个详细些的解释说明,同时也给出更多的参考资料。(是真爱了,生怕别人不理解这个项目的高级之处)
“让我为DeepSeek最新的代码发布补充一些背景信息,因为我觉得它有点过于简洁。
混合专家模型 (MoE) 是 Transformer 的一个简单扩展,它正迅速确立自己作为中大型 LLM (200亿-6000亿参数) 的首选架构的地位。
它通过在几个“专家”中复制前馈块来修改它,入口处有一个路由器,将每个输入 token 发送到一个或另一个专家,并在 MoE 块的末尾进行一个收集操作,以便在注意力模块之前将序列汇集在一起。
这种架构上的改变使得人们可以在不增加每个 token 所需操作次数的情况下,增加 AI 模型的总大小/容量,从而理论上允许以相同的计算需求,即延迟,获得更智能的模型(代价是内存使用量的增加)。
然而,MoE 也带来了一些新的挑战:因为它们需要更多的内存,并且通常用于中大型模型,所以它们通常需要在多个 GPU 上进行并行化,并且通信需要非常高效,因为它正处于关键路径上。我们最近在这些主题上写了一篇长篇博客文章,所以欢迎点击这里深入了解:(这里链接到《终极调参指南:在大规模GPU集群上训练大语言模型》这本小册子了。详细看这里: )
目前只有少数几个代码库允许你训练 MoE,包括:
DeepSpeed: deepspeed.ai/tutorials/mixture-of-experts/
MegatronLM: github.com/NVIDIA/Megatron-LM
Databricks/MosaicML LLM Foundry: github.com/mosaicml/llm-foundry
DeepSeek 最近训练了一个最先进的 MoE 模型,名为 DeepSeek-R1,它引起了全球范围的关注,部分原因是其性能,但也因为其训练非常高效(据估计训练成本仅为 600 万美元)。该模型在推理方面的运行效率也非常高。
在最新的版本中,他们开源了这个技术栈中的一个关键要素,即模型 MoE 部分的通信/编排库,其中包括一些最先进的 FP8 支持(据我所知,DeepSeek R1 也是第一个使用 FP8 低精度支持训练的超大型 SOTA 模型)。
这对所有训练大型模型以及在推理中使用这些模型的团队来说都非常令人兴奋,因为在这个新的代码库中可以找到许多非常巧妙的效率技巧。
因此,祝贺 deepseek_ai 团队向整个社区公开分享他们的知识!
有关 MoE 并行性如何融入整个模型训练设置的更多详细信息,欢迎查看我们上周发布的开源书 《终极调参指南:在大规模GPU集群上训练大语言模型》
”