GRPO:零依赖版github.com/policy-gradient/GRPO

蚁工厂 2025-04-14 16:41:04

GRPO:零依赖版

github.com/policy-gradient/GRPO-Zero

GRPO 训练实现的极简依赖版本。几乎从零开始构建所有组件,仅依赖 tokenizers 进行分词处理,以及 pytorch 完成训练。 ​​​

0 阅读:3
蚁工厂

蚁工厂

感谢大家的关注