GRPO：零依赖版github.com/policy-gradient/GRPO

蚁工厂 2025-04-14 16:41:04

GRPO：零依赖版

github.com/policy-gradient/GRPO-Zero

GRPO 训练实现的极简依赖版本。几乎从零开始构建所有组件，仅依赖 tokenizers 进行分词处理，以及 pytorch 完成训练。

0 阅读：3

感谢大家的关注

作者最新文章

1

小米发布搭载3nm自研芯片旗舰产品截几张极客湾的评测图。确认是台积电工艺。性能

2

Hotspot，一个由 KDAB 开发的开源项目，旨在为 Linux 提供一个图

3

Claude 4 提升主要在代理任务、编码和数学方面

4

午后算法书系列：三本关于群体智能算法的小册子 algorithmafternoo

5

Win11 系统精简工具地址：github.com/Raphire/Win11D

6

玄戒O1性能跻身旗舰芯片第一梯队发布会上刚说的一些具体参数（其实之前泄露的差不

7

小米未来五年研发再投入2000亿雷军说下个五年小米研发还会投入2000亿（20

8

计算机图形学工程师 Inigo Quilez 的教程/文章合集iquilezle

9

比亚迪在欧洲的销量超过特斯拉了

10

小米Civi5Pro 今晚会发小米Civi5Pro，看手上这个戒指，猜是

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

2

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

3

同事iphone13pro有几年了，说电池健康度只有70%了，一天到晚的就见他

4

手机圈来袭！9-10月新机扎堆亮相荣耀Magic8Pro主打超强AI，

5

要买荣耀400Pro的人一定要听劝！后悔可就来不及了，如果只是当做备用机千万

6

太劲爆了！荣耀这是要掀桌子的节奏，很显然这次Magic8系列是憋了大招的，除了标

7

小米空调的销量增长太恐怖了，很快就会超越董大姐的格力，照这趋势来看，明年有可能登

8

你的手机用几年啦？哎，手机坏了，我的华为mate30黑屏两天

9

缝缝补补又三年，相较于iPhone16Pro，即将发布的iPhone17

10

预计九月底，华为纯血鸿蒙系统开发完成度和生态基本可以和安卓还有iOS拉齐，也就是

科技最新文章

1

太劲爆了！荣耀这是要掀桌子的节奏，很显然这次Magic8系列是憋了大招的，除了标

2

这么说Mate30系列、Mate40系列、P40也有希望升级鸿蒙5.0了。余

3

太劲爆了！荣耀这是要掀桌子的节奏[捂脸哭]很显然这次Magic8系列是憋了大招的，

4

我的天！董宇辉一年赚20-30亿！刚才罗永浩发文说，董宇辉跟着俞敏洪买房还要

5

预计九月底，华为纯血鸿蒙系统开发完成度和生态基本可以和安卓还有iOS拉齐，也就是

6

iphone17系列预测售价17799美元国行599917A

7

华为老手机也能升级鸿蒙5.0了！今天晚上央视财经频道直播鸿蒙破局，余承东亲口坦

8

卧槽，小米空调赢麻了！没把格力挤下去，没把美的挤下去，把海尔挤下去了！只有小米实

9

iPhone17ProMax曝料史上最大电池iPhone！大瓜来了，弃钛用全铝边

10

小米空调的销量增长太恐怖了，很快就会超越董大姐的格力，照这趋势来看，明年有可能登