聊聊训推不一致的底层逻辑

2026-04-08 18:01:02 奔跑的跳跳科技

前几天一个同学说他面试踩了一个坑。

他简历上写了"基于 GRPO 的 on-policy 强化学习训练优化"，
面试官问："你说是 on-policy，能保证采样时的策略和更新时的策略完全一致吗？"

他回答："能，我们用的同一套权重。"

面试官追了一句："同一套权重，但采样用的是 vLLM，梯度更新用的是 FSDP，这两套框架算出来的 logprob 一样吗？"

他愣了一下。面试官继续："换个问题——为什么工业界没有人把训练和推理放在同一个框架里？"

这才是真・灵魂追问。

一起来看看吧～