一个讲解如何从头开始构建DeepSeekR1的项目github.com/Fa

蚁工厂 2025-02-21 09:41:15

一个讲解如何从头开始构建 DeepSeek R1的项目

github.com/FareedKhan-dev/train-deepseek-r1

开发者Fareed Khan's 用手绘流程图以及代码的方式，逐步讲解如何按照 deepseek 技术报告构建一个可以在本地运行的小型基础模型。非常详细。

该项目选择了一个较小的基础模型 Qwen/Qwen2.5–0.5B-Instruct 作为起点。通过 GRPO 算法进行强化学习，设计了多种奖励函数，如准确度奖励、格式奖励、推理步骤奖励、余弦缩放奖励和重复惩罚奖励，以鼓励模型进行正确和清晰的推理过程。在此基础上进行了监督微调（SFT），使用了 Bespoke-Stratos-17k 数据集，通过少样本提示、直接提示和后处理精炼等方法，进一步提升了模型的推理能力和输出质量。最后，通过拒绝采样筛选出高质量的推理数据，进行了第二阶段的 SFT 训练，以及针对实用性和无害性进行了奖励优化，最终完成了 DeepSeek R1 模型的构建。

0 阅读：0

感谢大家的关注

作者最新文章

1

一个java教学项目：mini-cat ,简易版本的 tomcat 实现。git

2

一个开源的 Markdown -> 公众号排版的工具github.com/tia

3

Transformer教学项目：fun-transformergithub.co

4

一篇关于提示工程（Prompt Engineering）的综述论文arxiv.o

5

huggingface发布了交互式电子书《超大规模实战手册：在 GPU 集群上训

6

开源电子书《高并发的哲学原理》课在线阅读和下载pdf：pphc.lvwenhan

7

每个SRE工程师都应该知道的知识系列： biriukov.dev/这个网站上作者

8

Kimi似乎节奏和DeepSeek同步起来了，上次发kimi1.5时间和deep

9

"2024 YR4"小行星在2032年撞击地球的概率上升到 3.1%

10

一个专注于AI知识分享的网站：aman.ai这个不是那种随便从网站拷贝一些文章的

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

小米YU7价格25.35万，27.99万，32.99万三个版本，最推荐入门版本，

2

哈哈哈昨晚三星发布会我是真的看爽了！三星折叠屏比直板更轻薄GalaxyZF

3

小米又搞大动作啦！6月24日雷军透露小米YU7支持车外小爱语音。车外配备8个麦克

4

小米首款智能眼镜AIGlasses发布，支持拍照录像和超级小爱同学。1999起

5

朝鲜的单摄奥利奥，虽然只是一个很low的后摄单摄，但是也要凑够两个假的组成奥利奥

6

小米深圳总部今日正式开园都说小米之家只有60米高是“矮楼”，但是没人觉得造型很像

7

雷军估计不会再直播了！他怎么也想不到，网友居然在他直播间里干起来了！甚至把雷

8

陈震再次质疑小米YU7到底极限在哪里？到现在为止，他已经连续发了四篇专门的文

9

不得不说，这老头也太幸福了吧！国外的科技都这么先进了吗？这两位美女机器人做的

10

一万买的华为pura80pro+还没捂热夫妻吵架给砸了一个老主顾半夜联系我

科技最新文章

1

绝了，国产中端机真的牛，10000mAh大电池即将出场，续航霸王实锤了。苹果彻底

2

第二款骁龙8Elite2也来了，一加15比想象中的要强大！索尼大底长焦方

3

荣耀Magic6，刚升级完最新版本，这次主要是相机和AI办公的升级。刚升

4

感觉手机买早了，肠子悔青了，荣耀X70早点发布该有多好两千以内可以买到8300

5

还是自研芯片有底气，采用了玄戒O1的小米15SPro手机给芯片性能面板

6

重大消息，荣耀Magic7系列迎来了又一次重磅系统更新这次的182版本主要加入

7

小米深圳总部今日正式开园都说小米之家只有60米高是“矮楼”，但是没人觉得造型很像

8

荣耀X70在千元机档位有三大特性是领先的，确实超出我个人预期：1.设计耐看；2.

9

吊打苹果，吊打三星，华为也要加油了！你以为8300毫安荣耀X70是电池终点？

10

说实话，荣耀X70手机，8300的电池挺吸引人的。不过，骁龙6Gen4芯片让人纠