DC娱乐网

标签: Meta

​​​

​​​

Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law

Meta用40万个GPU小时做了一个实验,只为弄清强化学习Scaling Law

为了解答这些问题,来自 Meta 等机构的研究者做了一个看起来耗资不菲的实验:用 40 万 GPU 小时跑出了一张 RL 训练「说明书」,让强化学习后训练不再像碰运气,让训练效果变得可预测。作者提到,近期的 RL 进展,大多来自对...