7B模型情商比肩GPT-4o腾讯突破开放域RL难题在没有标准答案的开放式对话中,

量子位看科技 2025-07-18 17:31:43

7B模型情商比肩GPT-4o腾讯突破开放域RL难题

在没有标准答案的开放式对话中,RL该怎么做?

多轮对话是大模型最典型的开放任务:高频、多轮、强情境依赖,且“好回复”因人而异。

然而,当用RL去优化大模型在真实交互中的“情商”时,RLVR一度陷入“三大困境”:

- 环境困境真实对话是多轮、动态且高度个性化的。如何构建一个既真实、多样,又可供模型自由探索(rollout)的交互环境?

- 奖励困境“高情商”没有标准答案。如何将用户主观满意度转化为稳定、可优化的长期奖励?

- 训练困境如何在LLM上实现稳定、高效的多轮在线RL训练?

腾讯混元数字人团队提出的RLVER(Reinforcement Learning with Verifiable Emotion Rewawards)框架指出了一个方向:

让一个稳定、高质量的用户模拟器,同时扮演“交互环境”和“奖励来源”的双重角色,成功将RLVR引入多轮对话,为大模型在开放域RL上训练提供了有效、可扩展的新解法。

经过RLVER训练的Qwen2.5-7B模型,在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2,表现与GPT-4o、Gemini 2.5 Pro等顶级商用模型相当。

详情来看文章👇

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注