[LG]《Explaining and Preventing Alignment

[LG]《Explaining and Preventing Alignment Collapse in Iterative RLHF》E Gauthier, F Bach, M I. Jordan [PSL Research University] (2026)

在迭代RLHF中，奖励模型被策略生成的数据反复训练，反馈环会放大奖励盲点。过去方法只追逐当前代理奖励，本质原因是忽略策略会改写未来奖励模型。

本文的核心洞见是：把策略不再看作奖励接受者，而看作奖励模型参数的塑形者。由此，补回“参数转向项”这一关键操作，使短视奖励黑客循环被切断。

这项工作真正留下的遗产是给对齐崩塌一个可计算的动力学解释。它打开的新门是用FPO约束策略影响奖励模型，但门槛是强凸假设与小规模LLM验证仍未跨过。

arxiv.org/abs/2605.04266 机器学习人工智能论文 AI创造营

DC娱乐网