[LG]《Solving Physics Olympiad via Reinfo

[LG]《Solving Physics Olympiad via Reinforcement Learning on Physics Simulators》M Prabhudesai, A Satpathy, Y Li, Z Qin… [CMU & Lambda] (2026)

物理推理数据的获取是训练大语言模型的真实瓶颈：互联网上的题库有限且分布不均，DeepSeek-R1所用的80万条训练数据中物理题占比不足1%，导致模型在物理奥林匹克题目上表现欠佳。过去借助模拟器的方案要求模型自行生成仿真代码，但准确率极低，根本无法规模化。

本文的核心洞见是：把物理模拟器重新看作一台可无限运转的出题机，而非外部工具。由此，用领域专用语言（DSL）结构化描述场景、自动提取仿真轨迹生成题目、再用强化学习（RLVR）以"答案误差5%内"为奖励信号训练模型——这一关键操作链使数据稀缺问题得以绕过，让模型在从未见过真实物理题目的前提下完成训练。

这项工作真正留下的遗产是：证明物理模拟器可以替代人工标注，成为科学推理的可扩展监督信号源——仅凭合成数据便在国际物理奥林匹克上提升5~10个百分点。它为后来者打开的新门是：将这一范式推广到电磁学、热力学乃至其他实验科学。但尚未跨过的门槛是：当前DSL覆盖的场景类型有限，模拟器的物理保真度终究存在边界，模型究竟内化了多少真实的物理直觉，仍难以证伪。

arxiv.org/abs/2604.11805

机器学习人工智能论文 AI创造营

DC娱乐网

[LG]《Solving Physics Olympiad via Reinfo

热门分类