一个讲解如何从头开始构建DeepSeekR1的项目github.com/Fa

又仁看科技 2025-02-21 09:41:15

一个讲解如何从头开始构建 DeepSeek R1的项目

github.com/FareedKhan-dev/train-deepseek-r1

开发者Fareed Khan's 用手绘流程图以及代码的方式,逐步讲解如何按照 deepseek 技术报告构建一个可以在本地运行的小型基础模型。非常详细。

该项目选择了一个较小的基础模型 Qwen/Qwen2.5–0.5B-Instruct 作为起点。通过 GRPO 算法进行强化学习,设计了多种奖励函数,如准确度奖励、格式奖励、推理步骤奖励、余弦缩放奖励和重复惩罚奖励,以鼓励模型进行正确和清晰的推理过程。在此基础上进行了监督微调(SFT),使用了 Bespoke-Stratos-17k 数据集,通过少样本提示、直接提示和后处理精炼等方法,进一步提升了模型的推理能力和输出质量。最后,通过拒绝采样筛选出高质量的推理数据,进行了第二阶段的 SFT 训练,以及针对实用性和无害性进行了奖励优化,最终完成了 DeepSeek R1 模型的构建。

0 阅读:0
又仁看科技

又仁看科技

感谢大家的关注