强化学习新范式阿里高德重构强化学习
阿里高德提出了强化学习训练新范式:只优化原始目标,不用替代损失函数!
团队发布了全新的组策略梯度优化方法GPG,从底层重构强化学习框架,革新训练流程。核心亮点有三:
- 直接目标优化:摒弃传统替代损失函数设计,突破训练效率瓶颈;
- 极简训练架构:消除评论模型和参考模型,摆脱KL散度约束;
- 精准梯度估计(AGE):首度揭示奖励偏差,提升策略稳定性。
GPG在单模态和多模态任务中表现优异,超越现有方法。尤其在数学推理和视觉理解等复杂任务中,展示了极高的通用性和鲁棒性。
方法细节上,GPG利用组内平均奖励归一化,降低方差,移除价值模型。特别是针对组内样本全对全错带来的梯度偏差,引入了动态梯度校正机制,有效提升训练稳定性。详情请见文章: