强化学习新范式阿里高德重构强化学习阿里高德提出了强化学习训练新范式：只优化原始目

量子位看科技 2025-04-26 13:20:00

强化学习新范式阿里高德重构强化学习

阿里高德提出了强化学习训练新范式：只优化原始目标，不用替代损失函数！

团队发布了全新的组策略梯度优化方法GPG，从底层重构强化学习框架，革新训练流程。核心亮点有三：

- 直接目标优化：摒弃传统替代损失函数设计，突破训练效率瓶颈；

- 极简训练架构：消除评论模型和参考模型，摆脱KL散度约束；

- 精准梯度估计（AGE）：首度揭示奖励偏差，提升策略稳定性。

GPG在单模态和多模态任务中表现优异，超越现有方法。尤其在数学推理和视觉理解等复杂任务中，展示了极高的通用性和鲁棒性。

方法细节上，GPG利用组内平均奖励归一化，降低方差，移除价值模型。特别是针对组内样本全对全错带来的梯度偏差，引入了动态梯度校正机制，有效提升训练稳定性。详情请见文章：

0 阅读：4

量子位看科技

感谢大家的关注

作者最新文章

1

强化学习新范式阿里高德重构强化学习阿里高德提出了强化学习训练新范式：只优化原始目

2

敦煌网飙升AppStore第二企业如何应对激增流量敦煌网飙升AppStore第二

3

宝马上海车展秀肌肉宝马新世代驾趣概念车在这届黑科技爆棚的上海车展上，宝马用一台新

4

中国星表登上Science石氏星表或为世界最古老星图来自中国的《石氏星表》，会是

5

OpenAI被媒体巨头起诉OpenAI绕过爬虫协议抓数据OpenAI踢到铁板了？

6

大模型安全全景图首个大模型全链路安全综述大模型火了，但它安全吗？对于这个问题，南

7

李飞飞训练Agent思考新突破DeepSeek前员工打造新RL框架什么开源算法自

8

始于堵车的核聚变研究华人科学家借物理改进AI2016年，洛杉矶。刚到美国不久的R

9

奥斯卡奖首次对使用AI表态奥斯卡奖允许使用AI参选奥斯卡金像奖的电影使用AI没问

10

Alphabet公布Q1财报谷歌母公司Q1营收超902亿美元Alphabet公布

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

2

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

3

同事iphone13pro有几年了，说电池健康度只有70%了，一天到晚的就见他

4

手机圈来袭！9-10月新机扎堆亮相荣耀Magic8Pro主打超强AI，

5

要买荣耀400Pro的人一定要听劝！后悔可就来不及了，如果只是当做备用机千万

6

缝缝补补又三年，相较于iPhone16Pro，即将发布的iPhone17

7

小米空调的销量增长太恐怖了，很快就会超越董大姐的格力，照这趋势来看，明年有可能登

8

你的手机用几年啦？哎，手机坏了，我的华为mate30黑屏两天

9

卧槽，小米空调赢麻了！没把格力挤下去，没把美的挤下去，把海尔挤下去了！只有小米实

10

我去荣耀专卖店看手机，看了荣耀X70，荣耀400、荣耀Power、Magic7等

科技最新文章

1

华为老手机也能升级鸿蒙5.0了！今天晚上央视财经频道直播鸿蒙破局，余承东亲口坦

2

卧槽，小米空调赢麻了！没把格力挤下去，没把美的挤下去，把海尔挤下去了！只有小米实

3

iPhone17ProMax曝料史上最大电池iPhone！大瓜来了，弃钛用全铝边

4

小米空调的销量增长太恐怖了，很快就会超越董大姐的格力，照这趋势来看，明年有可能登

5

说好的首发呢？真是没想到，首个通过国家3C认证的骁龙8Elite2机型，既不是

6

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

7

很奇怪，我一直喜欢小屏手机，之前用过的华为Mate50，Mate50Pro，一

8

我手上这台荣耀X70是12G+512G的，上手几天了，算上之前帮亲戚看机时摸过的

9

一天内添置了两台华为手机，一个是给老公买的华为mate70，一台是给婆婆买的华为

10

你的手机用几年啦？哎，手机坏了，我的华为mate30黑屏两天