DC娱乐网

从分布视角看 SFT、RL 与 On-Policy Distillation -

从分布视角看 SFT、RL 与 On-Policy Distillation -- 关于遗忘、泛化,以及 RL 和 on-policy distillation 之间的联系这篇文章讨论的是大模型后训练里的一个核心问题:怎样让模型学会新能力,同时尽量不损失原有能力。地址:nrehiew.github.io/blog/sft_rl_opd/“我一直在用“分布”的角度思考 post-training 方法。语言模型本质上是一个关于序列的分布。当我们对它做 post-training,并试图教它完成某个任务时,其实是在重新塑造这个分布。不同的 post-training 方法,区别就在于它们如何塑造这个分布、把什么当作目标,以及它们多直接地定义这个目标。

这既不是一个非常精确的说法,也并不打算做到完全严谨。我只是觉得这是一个有用的思考方式,而且我认为它能解释 SFT、RL 和 On-Policy Distillation 之间很多定性的差异。这正是我想在这篇文章里探讨的直觉。”

AI创造营