DC娱乐网

[LG]《Explaining and Preventing Alignment

[LG]《Explaining and Preventing Alignment Collapse in Iterative RLHF》E Gauthier, F Bach, M I. Jordan [PSL Research University] (2026)

在迭代RLHF中,奖励模型被策略生成的数据反复训练,反馈环会放大奖励盲点。过去方法只追逐当前代理奖励,本质原因是忽略策略会改写未来奖励模型。

本文的核心洞见是:把策略不再看作奖励接受者,而看作奖励模型参数的塑形者。由此,补回“参数转向项”这一关键操作,使短视奖励黑客循环被切断。

这项工作真正留下的遗产是给对齐崩塌一个可计算的动力学解释。它打开的新门是用FPO约束策略影响奖励模型,但门槛是强凸假设与小规模LLM验证仍未跨过。

arxiv.org/abs/2605.04266 机器学习 人工智能 论文 AI创造营