[CL]《Measuring Reasoning Trace Legibilit

[CL]《Measuring Reasoning Trace Legibility: Can Those Who Understand Teach?》D Roytburg, S Sridhar, D Ippolito [CMU] (2026)

高准确率的推理模型，其思维链对弱模型而言往往是一本天书——读得懂，却学不会。现有框架将推理痕迹视为通往正确答案的副产品加以压缩，却忽视了一个悬而未决的问题：当强模型的推理过程需要被弱模型或人类验证、复用时，那些"高效"的思维链反而成为理解的障碍。

本文的核心洞见是：把"推理痕迹能否被教会"重新看作一个独立的可量化目标。由此，"迁移效用"这一操作应运而生——让弱模型逐步接收强模型推理链的前缀，以弱模型答题准确率随步数的变化曲线，衡量推理链的可教性而非仅衡量其简洁程度。跨12个模型、近10万条痕迹的实验揭示：准确率最高的模型（82%）在迁移效用上排名倒数第二，而准确率最低的模型反而教学效果最佳。

这项工作真正留下的遗产是：首次将推理痕迹的"可传授性"与"高效性"解耦，证明二者构成一条帕累托前沿，并提供了将其纳入强化学习奖励信号的具体度量目标。它为后来者打开的新门是：在多智能体系统中，以迁移效用作为奖励信号训练"可监督的"推理模型。但尚未跨过的门槛是：迁移效用的在线蒸馏验证、跨任务的可泛化奖励设计，以及与真实人类认知负荷的直接对齐。

arxiv.org/abs/2603.20508

机器学习人工智能论文 AI创造营

DC娱乐网

[CL]《Measuring Reasoning Trace Legibilit

热门分类