首个多模态专用慢思考框架强化学习教会VLM三思而后行
文本推理里,慢思考模型如GPT-o1、DeepSeek-R1一骑绝尘,数学科学任务表现强于快思考如GPT-4o。但换到多模态推理,这些“反思大师”却落了下风,不仅没赢,甚至被Qwen2.5-VL-72B反超。
为啥慢思考在图文场景里不灵了?港科大等团队研究发现,视觉语言模型(VLM)构建慢思考能力卡在两个点:优势消失和反思惰性。
为破解难题,团队整理出39K条高质量多模态推理数据(ViRL39K),并提出“VL-Rethinker”框架,靠两项关键机制提升能力:
1. 优势样本回放(SSR):动态存储并优先复用非零优势的关键样本,比如“难题做对”或“简单题做错”。这样训练聚焦高价值样本,提升稳定性和效率。
2. 强制反思机制:每次回答后强制加一句“反思提示”,引导模型自我验证、纠错、提问。不是每题都反思,而是学会何时该反思。结果发现,模型连题目本身的错误也能识别出来了。
VL-Rethinker在MathVista、MathVerse、MMMU-Pro等数据集全面超越GPT-o1,表现接近OpenAI-o1,领先现有开源模型。不同规模模型(72B与7B)均大幅提升,验证了“慢思考”在多模态领域的潜力。