Loong:大规模强化学习环境,专注于推理能力的系统训练。
• 数据集覆盖 12 个领域,包含 8,729 道高难度问题,来源涵盖教科书、sympy、networkX、Gurobi(数学规划)、rdkit(化学)、Prolog(逻辑编程)等权威库。
• 通过少样本示例与代码生成问题,利用编程方式合成数据,确保合成数据具备强验证信号,提升训练质量。
• 任务难度足以挑战当前最先进的 LLM,特别适合训练长链推理能力,支持生成海量数据供 agent 反复演练。
• 该环境为推理能力训练提供了可扩展、可验证且多领域融合的解决方案,突破传统静态数据集限制。
开源地址与数据集同步发布,助力研究者与开发者深入探索推理强化学习新路径。
GitHub🔗github.com/guohao-li/rl-reasoning
HF数据集🔗huggingface.co/datasets/guohao_li/rl_reasoning
强化学习 长链推理 人工智能 开源数据 LLM训练