从分布视角看 SFT、RL 与 On-Policy Distillation -

从分布视角看 SFT、RL 与 On-Policy Distillation -- 关于遗忘、泛化，以及 RL 和 on-policy distillation 之间的联系这篇文章讨论的是大模型后训练里的一个核心问题：怎样让模型学会新能力，同时尽量不损失原有能力。地址：nrehiew.github.io/blog/sft_rl_opd/“我一直在用“分布”的角度思考 post-training 方法。语言模型本质上是一个关于序列的分布。当我们对它做 post-training，并试图教它完成某个任务时，其实是在重新塑造这个分布。不同的 post-training 方法，区别就在于它们如何塑造这个分布、把什么当作目标，以及它们多直接地定义这个目标。

这既不是一个非常精确的说法，也并不打算做到完全严谨。我只是觉得这是一个有用的思考方式，而且我认为它能解释 SFT、RL 和 On-Policy Distillation 之间很多定性的差异。这正是我想在这篇文章里探讨的直觉。”

AI创造营

DC娱乐网

从分布视角看 SFT、RL 与 On-Policy Distillation -

热门分类