[LG]《PivotRL: High Accuracy Agentic Post

[LG]《PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost》J Yi, D Mosk-Aoyama, B Huang, R Gala… [NVIDIA & UC Berkeley] (2026)

在Agent智能体的后训练领域，如何用有限算力同时保住域内准确率与域外泛化能力，是一个两难困境。SFT计算高效，却会灾难性遗忘——终端域训练后，数学基准AIME25从86分骤跌至21分；E2E RL泛化稳健，却要为每次参数更新付出完整多轮环境交互的沉重代价。

本文的核心洞见是：把SFT轨迹中"当前策略成败参半"的关键转折点单独挑出，作为局部强化学习的训练锚点。由此，两个操作使问题得以解开：其一是离线筛选"枢轴转折点"——仅在奖励方差非零的中间步骤上展开单步rollout，避免在已解决或完全失败的步骤上浪费算力；其二是用功能等价验证器替代严格字符串匹配，令任何局部可接受的动作都能获得奖励，从而保留参考策略在任务无关动作上的相对排序。

这项工作真正留下的遗产是：证明了在不触碰完整轨迹的前提下，可以用SFT的数据开销换取接近E2E RL的泛化收益——在SWE-Bench上以4倍更少的rollout步数达到相当准确率，且域外性能几乎零损耗。它为后来者打开的新门是：将现有离线演示数据直接转化为在线RL信号的系统性方法论。但尚未跨过的门槛是：当前依赖可程序化验证器，对缺乏明确局部正确性判据的任务（如开放式写作、复杂推理链中间步）尚无成熟的扩展方案。

arxiv.org/abs/2603.21383

机器学习人工智能论文 AI创造营

DC娱乐网

[LG]《PivotRL: High Accuracy Agentic Post

热门分类