新框架让Qwen超越GPT4o华人团队让Qwen跨领域推理提升10%
一项新的强化学习方法,直接让Qwen性能大增,GPT-4o被赶超!
来自加拿大滑铁卢大学与TikTok新加坡,M-A-P的华人团队提出了一种全新训练框架:General-Reasoner。
结果直接让Qwen系列大模型的跨领域推理准确率提升近10%,在多个基准测试中甚至超越GPT-4o。
当前,强化学习(RL)被视为提升模型推理能力的关键手段。其中,Zero-RL方法通过直接训练基础模型,已在数学和编程等结构化任务上展现出强大效果。
问题是,这些方法往往局限于数据丰富、答案结构清晰的领域,在面对物理、金融或人文社科等更广泛的领域时,模型难以有效泛化。
接下来看看研究团队是如何解决这些推理难题的👇