huggingface发布了交互式电子书《超大规模实战手册:在GPU集群上训

又仁看科技 2025-02-20 12:20:12

huggingface发布了交互式电子书《超大规模实战手册:在 GPU 集群上训练LLMs》

huggingface.co/spaces/nanotron/ultrascale-playbook

历时超过 6 个月精心打造,并耗费了一年多的 GPU 计算资源,我们无比激动地正式发布“超大规模实战手册”!

这是一本免费开源的电子书,您可以在其中学习关于 5D 并行、ZeRO、快速 CUDA 内核、以及如何和为何进行计算与通信重叠等所有知识——本书涵盖了所有扩展瓶颈和工具,并以动机、理论和来自我们 4000 多次扩展实验的交互式图表进行介绍,甚至还有 NotebookLM 播客嘉宾与您一同学习。

⭐DeepSeek 是如何仅用 500 万美元训练出来的?

⭐为什么 Mistral 训练了一个 MoE 模型?

⭐为什么 PyTorch 原生的数据并行实现如此复杂?

⭐所有并行技术有哪些?它们被发明的目的是什么?

⭐在扩展时,我应该使用 ZeRO-3 还是流水线并行?这两种技术背后的故事是什么?

⭐Meta 用于训练 Llama 3 的上下文并行是什么?它与序列并行有何不同?

⭐FP8 是什么?它与 BF16 相比如何?

在这本书中,我们的目标是将所有使当今 LLM 扩展成为可能的技术汇集在一个地方,以一种连贯、易于阅读且详尽的方式呈现出来。”

0 阅读:1
又仁看科技

又仁看科技

感谢大家的关注