7B模型情商比肩GPT-4o腾讯突破开放域RL难题在没有标准答案的开放式对话中，

量子位看科技 2025-07-18 17:31:43

7B模型情商比肩GPT-4o腾讯突破开放域RL难题

在没有标准答案的开放式对话中，RL该怎么做？

多轮对话是大模型最典型的开放任务：高频、多轮、强情境依赖，且“好回复”因人而异。

然而，当用RL去优化大模型在真实交互中的“情商”时，RLVR一度陷入“三大困境”：

- 环境困境真实对话是多轮、动态且高度个性化的。如何构建一个既真实、多样，又可供模型自由探索（rollout）的交互环境？

- 奖励困境“高情商”没有标准答案。如何将用户主观满意度转化为稳定、可优化的长期奖励？

- 训练困境如何在LLM上实现稳定、高效的多轮在线RL训练？

腾讯混元数字人团队提出的RLVER(Reinforcement Learning with Verifiable Emotion Rewawards)框架指出了一个方向：

让一个稳定、高质量的用户模拟器，同时扮演“交互环境”和“奖励来源”的双重角色，成功将RLVR引入多轮对话，为大模型在开放域RL上训练提供了有效、可扩展的新解法。

经过RLVER训练的Qwen2.5-7B模型，在情感对话基准Sentient-Benchmark上的得分从13.3跃升至79.2，表现与GPT-4o、Gemini 2.5 Pro等顶级商用模型相当。

详情来看文章👇

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

iPhone17Pro配色曝光iPhone17Pro配色iPhone 17 Pr

2

ChatGPT上线智能体功能ChatGPT能买东西做PPT了刚刚，OpenAI直

3

婴儿版太阳系诞生首次被捕捉行星形成最早阶段首次被拍摄首次成功拍摄！一起来看“婴儿

4

如何成为机器学习工程师机器学习自学资源自学机器学习成才，还能受邀回到母校分享经验

5

AI时代用Python小技巧Java开发者因AI转战Python曾是Java和R

6

免费ERP系统开源ERP管理软件开源免费的ERP系统来了——ERPNext，覆盖

7

思维链一作没回应是否被挖思维链一作谈验证不对称性那边Hyung Won Chun

8

模型读到一万tokens就失智上下文太长大模型会降智上下文扩展至1万tokens

9

超强数学定理证明器8B数学模型超越DeepSeek满血版超强数学定理证明器Goe

10

马斯克重金招AI女友工程师Grok将扩展AI陪伴角色阵容马斯克xAI放出重磅招聘

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

格力把高管送去火焰山猴哥都抹汗的地方朱总靠空调坚持了下来。😅孙悟空要是有这条

2

被董明珠说中了！内鬼作乱，国产芯片出了大问题，技术遭严重泄露，然而一查却发现，主

3

我有种预感，中国芯片行业要变天了。不是因为政策扶持，也不是技术突破，而是上海

4

罗永浩连怼网友罗永浩怎么了罗永浩连续发微博怼网友，他怎么了

5

很庆幸买了荣耀400Pro，没买华为Nova14Pro。最近换手机，在华为Nov

6

一张值20万美元的H100芯片，被两个28岁的年轻人用新加坡和马来西亚做跳板偷偷

7

臻版回归！荣耀太狠了，这次看来是不准备留情面了！荣耀接下来最重磅的机型毫无疑问

8

大招继续！荣耀不藏了！Magic8再次迎来好消息！至臻版回归+卫星通信或成为

9

苹果公司第三财季财报太靓丽了，仅仅iPhone16的营业收入就达到了445亿美

10

红米新机Redmi15外观渲染图曝光：后置三摄采用纵向排列的矩形Deco今

科技最新文章

1

荣耀太狠了！全系最高降价1000元，直接把友商的饭碗给掀了啊荣耀Magic7

2

站哥一旦爆料，基本上已经是板上钉钉，没跑了！荣耀Magic8增加Ultra版！

3

荣耀Play10C发布4+128GB649；国补551.656+128GB

4

来北京亦庄看具身智能机器人北京范儿正在参加世界机器人大会，这应该代表了当今世界最

5

华为Mate70全系列官方指导价价格调整，渠道价等我更新，过两天部分机型会有不小

6

小米澎湃OS3爆料汇总，这无敌了吧？汇总网传澎湃OS3系统的爆料，小米这次真

7

小米澎湃OS3系统界面曝光，照片显示，一款基于Android16的小米澎湃O

8

新机来了三星GalaxyS25FE6.67英寸120hz1080p直屏E

9

一张值20万美元的H100芯片，被两个28岁的年轻人用新加坡和马来西亚做跳板偷偷

10

大招继续！荣耀不藏了！Magic8再次迎来好消息！至臻版回归+卫星通信或成为