[LG]《Efficient RL Training for LLMs with

[LG]《Efficient RL Training for LLMs with Experience Replay》C Arnal, V Cabannes, T Cohen, J Kempe… [FAIR at Meta] (2026)

在LLM强化学习后训练中，推理生成成本高达总计算预算的80%以上，但现有流水线采用"生成即丢弃"策略——每条轨迹仅用一次梯度更新便被抛弃。这一惯例源于"陈旧数据必然损害性能"的主流共识，导致极度的样本浪费。

本文的核心洞见是：把"新鲜数据vs.计算效率"的取舍重新看作一个可被数学量化的三维均衡——陈旧性噪声、样本多样性衰减、推理计算成本。由此，将历史轨迹缓存复用这一关键操作使问题得以解开：理论推导证明严格在策略采样并非最优，并给出最优缓冲区大小与重放比率的闭合解；实验证明，合理配置缓冲区可节省40%计算量，同时模型准确率不降反升，还因训练分布多样化抑制了策略熵坍缩。

这项工作真正留下的遗产是：为LLM强化训练建立了"每单位算力最大化性能"的设计范式，而非"每步梯度最大化性能"。它为后来者打开的新门是：将经典深度强化学习的经验回放机制系统性地引入LLM训练工程实践，并配套了可落地的异步流水线伪代码。但尚未跨过的门槛是：实验仅在7B以下模型验证，更大规模前沿模型的收益鲁棒性仍待确认，且优先级采样等高阶策略的规模化效果亦尚不明朗。

arxiv.org/abs/2604.08706

机器学习人工智能论文 AI创造营

DC娱乐网

[LG]《Efficient RL Training for LLMs with

热门分类