MIT 前沿论文：基于图灵奖励的用户模拟器

分享一篇刚刚出炉、极具颠覆性的前沿论文《Learning User Simulators with Turing Rewards》。

这项研究由 MIT（麻省理工学院）领衔，联合斯坦福大学（Stanford）以及 MIT-IBM 沃森人工智能实验室的顶尖计算语言学与认知科学团队共同打造。

传统的 AI 模仿人类，都是在死记硬背某句特定的话（通过最大化对数概率或匹配文本相似度），结果就是 AI 说话一股洗不掉的“助理味”。

这篇论文提出了 Turing-RL 框架，基于 Turing Test 的 RL 方法，让 LLM Judge 打分生成的回复是否“像真人写的”（给定用户历史）。

用 GRPO 优化后，模型在 Chat 和 Reddit 两大场景中，人类似度全面超越传统 similarity/logprob 基线，同时保持内容相关性。

研究团队在 PRISM（多轮对话）和 ConvoKit（Reddit 论坛讨论）两个截然不同的高难度真实社交数据集上进行了严格验证。

LLM 裁判和真实人类的双重评测均显示：Turing-RL 生成的回复更难与真人区分！

它彻底打破了过去“Response Matching（响应匹配）”的僵化路径，证明了以“不可区分性（Indistinguishability）”为优化目标的强化学习，才是通往高拟真人类行为模拟的正确解法。

如果你是 Agent开发、Personalization推荐算法，或是数字人/数字替身领域的从业者，可以Mark这篇工作~（论文可以直接下👇🏻哦）

DC娱乐网

MIT 前沿论文：基于图灵奖励的用户模拟器

热门分类