Loong：大规模强化学习环境，专注于推理能力的系统训练。•数据集覆盖12

爱生活爱珂珂 2025-08-30 08:29:19

Loong：大规模强化学习环境，专注于推理能力的系统训练。

• 数据集覆盖 12 个领域，包含 8,729 道高难度问题，来源涵盖教科书、sympy、networkX、Gurobi（数学规划）、rdkit（化学）、Prolog（逻辑编程）等权威库。

• 通过少样本示例与代码生成问题，利用编程方式合成数据，确保合成数据具备强验证信号，提升训练质量。

• 任务难度足以挑战当前最先进的 LLM，特别适合训练长链推理能力，支持生成海量数据供 agent 反复演练。

• 该环境为推理能力训练提供了可扩展、可验证且多领域融合的解决方案，突破传统静态数据集限制。

开源地址与数据集同步发布，助力研究者与开发者深入探索推理强化学习新路径。

GitHub🔗github.com/guohao-li/rl-reasoning

HF数据集🔗huggingface.co/datasets/guohao_li/rl_reasoning

强化学习长链推理人工智能开源数据 LLM训练

0 阅读：0

爱生活爱珂珂

感谢大家的关注

作者最新文章

1

【[19星]sae：让稀疏自编码器（SAE）轻松融入任何模型的框架。它能解决模型

2

【[295星]Anna's MCP Server (and CLI Tool)：

3

【[18星]MIRIX：你的专属多Agent个人助手，通过屏幕观察和自然对话构建

4

【[975星]Magic：首个开源的全功能AI生产力平台，助力企业快速构建和部署

5

【[71星]lmpo：一个简洁易懂的语言模型策略优化GitHub项目。它通过强化

6

晚安～ [月亮] 晚安

7

《爱可可微博热门分享(7.10)》

8

【[16星]gym-genesis：为GENESIS项目打造的高效并行化Gym环

9

【[38星]SDG Hub：为LLMs打造的低代码合成数据生成工具包。它能以低代

10

【[85星]mojo-gpu-puzzles：用互动谜题学习GPU编程的创新项目

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

【华为MateXTs非凡大师及全场景新品发布会官宣9月4日举办，将

2

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

3

追觅造车了！造扫地机器人的那个追觅没想到啊，造车牌桌上一个接一个退场…这时候竟然

4

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

5

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

6

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

7

罗永浩拉黑俞敏洪王自如对话任何一位，流量肯定爆炸。但聊不到一起，也没必要。甚至都

8

追觅官宣造车任何一个有过造车经验的传统品牌推出一个新能源品牌我都能想得到，唯独

9

2025年，中国大陆制造的成熟芯片，占比全球产量28%，预计到2027年，占比将

10

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

科技最新文章

1

太激动了，华为真行啊，开始做小平板了，麒麟9020照样能打，3499提前锁定爆款

2

跟女朋友吵架了，苹果真有那么差，iPhone16不好用吗？元旦给女朋友买了一

3

vivoX300Pro，会首发天玑9500处理器。此外，影像部分应该会率

4

余承东：…高通骁龙顶级芯片，变不值钱了…那么情况，是不是更糟了？对么某些时

5

iPhone17系列价格大揭秘！快来看看你的钱包准备好了没iPhone

6

iPhone17Air超全细节曝光不出意外的话，马上在9月10日举行的苹

7

小米澎湃OS3已正式发布1、这张图可以讲就是整体亮点的回顾；2、同时官方也给

8

追觅造车了！造扫地机器人的那个追觅没想到啊，造车牌桌上一个接一个退场…这时候竟然

9

追觅官宣造车任何一个有过造车经验的传统品牌推出一个新能源品牌我都能想得到，唯独

10

追觅官宣造车，这目前还挺大，对标布加迪威龙。确实我看到大家都注意到一个关键问题，