JunxianHe分享了关于零强化学习(RL)训练的最新进展,介绍了Sim

又仁看科技 2025-03-26 08:46:54

Junxian He 分享了关于零强化学习(RL)训练的最新进展,介绍了 SimpleRL-Zoo 项目。项目中涉及了零 RL 训练中的一些关键发现,包括模型的“顿悟时刻”、格式奖励的影响以及不同模型的表现差异。

论文:arxiv.org/pdf/2503.18892

🌟零强化学习在多种基础模型上显著提升了推理准确性和响应长度,但不同模型的训练动态存在差异。

🌟研究发现,格式化奖励(如强制答案格式)会限制模型的探索能力,尤其是对于初始指令跟随能力较弱的模型。

🌟训练数据的难度必须与基础模型的探索能力相匹配,否则零强化学习可能失败。

🌟传统的监督微调(SFT)作为强化学习的预训练阶段可能会限制模型的探索能力,从而抑制高级推理能力的出现。

ai创造营

0 阅读:0
又仁看科技

又仁看科技

感谢大家的关注