github.com/sail-sg/understand-r1-zero
为了理解类似deepseek R1-Zero 的训练,该项目批判性地研究了两个核心组件: 基础模型 和强化学习 。
基础模型部分发现,所谓的Aha moment实际上在基础模型阶段(epoch 0)就已经出现,而非通过强化学习训练获得。
强化学习部分提出了改进方法Dr. GRPO,在保持推理性能的同时提高了Token效率。
AI生活指南ai创造营
github.com/sail-sg/understand-r1-zero
为了理解类似deepseek R1-Zero 的训练,该项目批判性地研究了两个核心组件: 基础模型 和强化学习 。
基础模型部分发现,所谓的Aha moment实际上在基础模型阶段(epoch 0)就已经出现,而非通过强化学习训练获得。
强化学习部分提出了改进方法Dr. GRPO,在保持推理性能的同时提高了Token效率。
AI生活指南ai创造营
作者最新文章
热门分类
科技TOP
科技最新文章