DC娱乐网

清洁机器人为了刷高“吸入灰尘”的奖励分,可能把吸进去的再吐出来反复吸。这是强化学

清洁机器人为了刷高“吸入灰尘”的奖励分,可能把吸进去的再吐出来反复吸。这是强化学习常见的“奖励黑客”现象。当前训练目标已从单纯追求分数最大化,转向多目标平衡与价值观对齐,核心是让AI在变得聪明的同时,始终在人类可控的轨道上。 训练AI强化学习的目标