github.com/sail-sg/understand-r1-zero为了理

蚁工厂 2025-03-22 10:30:28

github.com/sail-sg/understand-r1-zero

为了理解类似deepseek R1-Zero 的训练，该项目批判性地研究了两个核心组件：基础模型和强化学习。

基础模型部分发现，所谓的Aha moment实际上在基础模型阶段（epoch 0）就已经出现，而非通过强化学习训练获得。

强化学习部分提出了改进方法Dr. GRPO，在保持推理性能的同时提高了Token效率。

AI生活指南ai创造营

0 阅读：1

感谢大家的关注

作者最新文章

1

一个扫雷 MCP 服务器，让 Claude 可以玩扫雷github.com/to

2

余承东称华为星河通信地表最强华为搞手机信号的团队估计很羡慕做汽车信号的团队。比

3

开源项目fetch-mcp，使用 Playwright 无头浏览器获取网页内容的

4

机器人离进入家庭还有多远夸克说是到2035年，还有10年。用它的学术搜索看技术

5

卡内基梅隆大学的公开课：深度学习导论（2025年春季版）deeplearning

6

才发现给父母买家电售后很重要不如说能找到真人客服很重要，别总要求这APP里这个

7

Andrej Karpathy分享了一个他做笔记的经验“追加与回顾笔记”。做法很

8

AI Engineering Hubgithub.com/patchy631/a

9

OpenAI出o1-pro的API了，价格每百万Token的输入是$150 ，输

10

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

小米YU7价格25.35万，27.99万，32.99万三个版本，最推荐入门版本，

2

哈哈哈昨晚三星发布会我是真的看爽了！三星折叠屏比直板更轻薄GalaxyZF

3

小米又搞大动作啦！6月24日雷军透露小米YU7支持车外小爱语音。车外配备8个麦克

4

小米首款智能眼镜AIGlasses发布，支持拍照录像和超级小爱同学。1999起

5

朝鲜的单摄奥利奥，虽然只是一个很low的后摄单摄，但是也要凑够两个假的组成奥利奥

6

小米深圳总部今日正式开园都说小米之家只有60米高是“矮楼”，但是没人觉得造型很像

7

雷军估计不会再直播了！他怎么也想不到，网友居然在他直播间里干起来了！甚至把雷

8

陈震再次质疑小米YU7到底极限在哪里？到现在为止，他已经连续发了四篇专门的文

9

不得不说，这老头也太幸福了吧！国外的科技都这么先进了吗？这两位美女机器人做的

10

一万买的华为pura80pro+还没捂热夫妻吵架给砸了一个老主顾半夜联系我

科技最新文章

1

重大消息，荣耀Magic7系列迎来了又一次重磅系统更新这次的182版本主要加入

2

小米深圳总部今日正式开园都说小米之家只有60米高是“矮楼”，但是没人觉得造型很像

3

荣耀X70在千元机档位有三大特性是领先的，确实超出我个人预期：1.设计耐看；2.

4

吊打苹果，吊打三星，华为也要加油了！你以为8300毫安荣耀X70是电池终点？

5

黄仁勋发出对华为的惊天之问。1.现在世界上，哪家手机公司的手机，比华为的手

6

谷歌宣布：8月20日办新品发布会，Pixel10全系列亮相，重点是AI芯

7

朋友最后还是没忍住，入手了最新的荣耀MagicV5大折叠，截图给我看了眼订单，

8

不服什么H100，又H200的，就服黄仁勋的标志性皮夹克！北京室外太阳直射气温

9

vivoX300系列配置曝光直接杀疯！天玑9500芯片、大底主摄、超大电池全安

10

朋友最后还是没忍住，入手了最新的荣耀MagicV5大折叠，截图给我看了眼订单，