规模最大科学推理后训练数据集快速让Qwen3等变科学家秘密有史规模最大的开源科学

量子位看科技 2025-08-09 21:37:29

规模最大科学推理后训练数据集快速让Qwen3等变科学家秘密

有史规模最大的开源科学推理后训练数据集来了!

上海创智学院、上海交通大学(GAIR Lab)发布MegaScience。该数据集包含约125万条问答对及其参考答案,广泛覆盖生物学、化学、计算机科学、经济学、数学、医学、物理学等多个学科领域,旨在为通用人工智能系统的科学推理能力训练与评估提供坚实的数据。

实验证明,基于MegaScience训练的模型在科学推理任务中显著优于相应的官方Instruct模型。此外,MegaScience展现出良好的可扩展性:随着基础模型规模的提升,MegaScience所带来的性能增益更加显著。

目前,该团队已完整开源MegaScience及其所有相关组件,包括数据构建流程源码、科学推理评估系统、数据集本体以及基于该数据集训练的模型,期望为研究社区提供系统化、高质量的资源支持,进一步推动通用人工智能在科学领域的研究与应用。

该数据集发布仅一周,下载量已突破4.6k次,并在HuggingFace Datasets Trending榜单中位列第四,受到学术界与工业界研究人员的广泛关注与积极反馈。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注