促进推理者自我完善的认知行为 斯坦福大学的研究人员和同事研究了为什么某些语言模型在基于强化学习 (RL) 的自我改进方面表现出色,而其他语言模型却很快就停滞不前。 该研究确定了四种认知行为——验证、回溯、子目标设定和后向链接——它们是人类和语言模型成功解决问题的基础。 主要发现: • 认知行为推动模型改进——自然表现出验证和回溯的模型(如 Qwen-2. 5-3B)在 RL 任务(例如倒计时数学游戏)中的表现明显优于缺乏这些行为的模型(如 Llama-3. 2-3B) 。 • 行为启动可提高性能 – 通过启动将认知行为引入模型可显著增强 RL 驱动的改进。值得注意的是,使用推理模式(即使是来自错误的解决方案)进行启动比解决方案准确性本身更重要。 • 预训练行为放大——整理预训练数据以强调认知行为,使以前滞后的模型(例如,Llama-3。 2-3B)实现与固有熟练模型(Qwen-2。 5-3B)相当的性能。 • 泛化潜力——已识别的认知行为一旦通过训练得到放大,就会在实验中使用的特定倒计时游戏之外的推理任务中表现出可推广的优势。 论文表明,通过有针对性的启动和预训练修改有效地诱导语言模型中的认知行为,可以显著提高其自我完善能力。编程严选网
促进推理者自我完善的认知行为 斯坦福大学的研究人员和同事研究了为什么某些语言模
JavaEdge聊AIss
2025-03-09 01:33:21
0
阅读:0