【[63星]Minimal-RL:用最简洁的方式提升大型语言模型的数学推理能力,

爱生活爱珂珂 2025-04-19 11:55:33

【[63星]Minimal-RL:用最简洁的方式提升大型语言模型的数学推理能力,从拒绝采样到强化学习的深度探索。亮点:1. RAFT++算法仅用正样本训练,早期收敛速度快;2. 提出Reinforce-rej新变体,KL效率提升显著;3. 项目代码开源,易于复现和扩展】

'A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce'

GitHub: github.com/RLHFlow/Minimal-RL

强化学习 语言模型 数学推理 AI创造营

0 阅读:2
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注