OpenReasoning-Nemotron:NVIDIA发布一系列蒸馏推理大语言模型,专注数学、科学与代码领域,推动推理能力研究迈向新高度。
• 基于DeepSeek R1 0528 671B模型蒸馏,涵盖1.5B、7B、14B、32B四种规模,性能领先同类模型。
• 训练数据由DeepSeek R1 0528生成,包含500万条高质量数学、科学和代码推理解决方案,数据及训练代码开放于NeMo-Skills。
• 多项权威推理基准测试表现卓越,32B模型在复杂数学与代码任务中刷新记录。
• 支持多代理并行生成与GenSelect方案,显著提升解题准确率,32B版本GenSelect准确率达96.7%(HMMT Feb 25)。
• 仅采用监督微调蒸馏,无强化学习,提供坚实基线,助力后续推理强化学习研究。
• 适合推理效率优化、定制任务微调及偏好优化研究,拓展推理模型应用边界。
模型与代码详见🔗 huggingface.co/blog/nvidia/openreasoning-nemotron
大语言模型 人工智能 机器学习 推理模型 开源AI