DC娱乐网
聊聊训推不一致的底层逻辑
2026-04-08 18:01:02
奔跑的跳跳
科技
前几天一个同学说他面试踩了一个坑。
他简历上写了"基于 GRPO 的 on-policy 强化学习训练优化",
面试官问:"你说是 on-policy,能保证采样时的策略和更新时的策略完全一致吗?"
他回答:"能,我们用的同一套权重。"
面试官追了一句:"同一套权重,但采样用的是 vLLM,梯度更新用的是 FSDP,这两套框架算出来的 logprob 一样吗?"
他愣了一下。面试官继续:"换个问题——为什么工业界没有人把训练和推理放在同一个框架里?"
这才是真・灵魂追问。
一起来看看吧~
热门分类
推荐
热榜
军事
NBA
体育
社会
明星八卦
娱乐
财经
科技
汽车
历史
国际
游戏
动漫
公益
搞笑
商业
互联网
数码
国际足球
房产
家居
时尚
科学探索
职场
育儿
股票
教育
影视
情感
热点
中国军情
武器
中国南海
中国足球
亚洲杯
科比
综合体育
CBA
投资
楼市
大咖秀
外汇
创业
风口
SUV
豪车
概念车
优惠
新能源
美国
欧洲
朝日韩
俄罗斯
孕期
街拍
恋爱攻略
婚姻
正能量