github.com/sail-sg/understand-r1-zero为了理

又仁看科技 2025-03-22 10:30:28

github.com/sail-sg/understand-r1-zero

为了理解类似deepseek R1-Zero 的训练,该项目批判性地研究了两个核心组件: 基础模型 和强化学习 。

基础模型部分发现,所谓的Aha moment实际上在基础模型阶段(epoch 0)就已经出现,而非通过强化学习训练获得。

强化学习部分提出了改进方法Dr. GRPO,在保持推理性能的同时提高了Token效率。

AI生活指南ai创造营

0 阅读:0
又仁看科技

又仁看科技

感谢大家的关注