强化学习新范式阿里高德重构强化学习阿里高德提出了强化学习训练新范式:只优化原始目

量子位看科技 2025-04-26 13:20:00

强化学习新范式阿里高德重构强化学习

阿里高德提出了强化学习训练新范式:只优化原始目标,不用替代损失函数!

团队发布了全新的组策略梯度优化方法GPG,从底层重构强化学习框架,革新训练流程。核心亮点有三:

- 直接目标优化:摒弃传统替代损失函数设计,突破训练效率瓶颈;

- 极简训练架构:消除评论模型和参考模型,摆脱KL散度约束;

- 精准梯度估计(AGE):首度揭示奖励偏差,提升策略稳定性。

GPG在单模态和多模态任务中表现优异,超越现有方法。尤其在数学推理和视觉理解等复杂任务中,展示了极高的通用性和鲁棒性。

方法细节上,GPG利用组内平均奖励归一化,降低方差,移除价值模型。特别是针对组内样本全对全错带来的梯度偏差,引入了动态梯度校正机制,有效提升训练稳定性。详情请见文章:

0 阅读:1
量子位看科技

量子位看科技

感谢大家的关注