DC娱乐网

聊聊训推不一致的底层逻辑

前几天一个同学说他面试踩了一个坑。

他简历上写了"基于 GRPO 的 on-policy 强化学习训练优化",
面试官问:"你说是 on-policy,能保证采样时的策略和更新时的策略完全一致吗?"

他回答:"能,我们用的同一套权重。"

面试官追了一句:"同一套权重,但采样用的是 vLLM,梯度更新用的是 FSDP,这两套框架算出来的 logprob 一样吗?"

他愣了一下。面试官继续:"换个问题——为什么工业界没有人把训练和推理放在同一个框架里?"

这才是真・灵魂追问。

一起来看看吧~