【[2.6k星]Agentica-project/rllm:让强化学习(RL)变得大众化,为大语言模型(LLM)提供强大的训练支持。亮点:1. 开源完整的训练脚本和模型,包括超参数设置;2. DeepCoder-14B模型在LiveCodeBench上达到60.6%的通过率,与O3-mini水平相当;3. 提供完整的训练日志和评估记录,方便复现和研究】
'rLLM: Democratizing Reinforcement Learning for LLMs'
GitHub: github.com/agentica-project/rllm
强化学习 大语言模型 开源项目 AI创造营