国产开源模型登HuggingFace热榜 阿里突破长文本训练难题
阿里开源长文本推理模型QwenLong-L1,登上了HuggingFace热门论文榜第2名!
该模型对标Claude等一线大模型,主打看得懂、想得深,还能自我反思。
长文本对于LLM来说,内容太多、干扰太多,模型容易跑偏。比如在金融文档推理中,传统模型会被无关信息绕晕,答题不靠谱。
而QwenLong-L1可以像人一样“回头看看”,通过验证机制筛掉噪音,抓住核心要点,给出正确答案。
来看它怎么做到的:
- 两阶段训练流程:先用高质量数据“热身”,再上强化学习(RL)精修。
- 分阶段强化学习:不是一口气喂128K token,而是先练短文,再逐步扩展上下文长度,最大支持到128K。
- 混合奖励机制:既检查答案是否正确(规则),又请另一个模型判断答得是否合理(语义),精准又灵活。
- 难题反复练:每阶段都会把“最难的题”留下来继续训练,不让模型忘了怎么应对复杂推理。
性能方面,QwenLong-L1的32B版本跑到了70.7分,超越了OpenAI-o3-mini和Qwen3-235B-A22B,跟Claude-3.7-Sonnet-Thinking打成平手。而它的14B 版本也表现不俗,比基础模型平均提升4.1分。
关键是,团队发现光靠监督学习,只学到表面套路,推理能力不稳定。只有用强化学习,才能让LLM学会像人一样“设子目标”、“回头查证”“排除干扰”。