新框架让Qwen超越GPT4o华人团队让Qwen跨领域推理提升10%一项新的强化

量子位看科技 2025-06-04 10:48:23

新框架让Qwen超越GPT4o华人团队让Qwen跨领域推理提升10%

一项新的强化学习方法，直接让Qwen性能大增，GPT-4o被赶超！

来自加拿大滑铁卢大学与TikTok新加坡，M-A-P的华人团队提出了一种全新训练框架：General-Reasoner。

结果直接让Qwen系列大模型的跨领域推理准确率提升近10%，在多个基准测试中甚至超越GPT-4o。

当前，强化学习（RL）被视为提升模型推理能力的关键手段。其中，Zero-RL方法通过直接训练基础模型，已在数学和编程等结构化任务上展现出强大效果。

问题是，这些方法往往局限于数据丰富、答案结构清晰的领域，在面对物理、金融或人文社科等更广泛的领域时，模型难以有效泛化。

接下来看看研究团队是如何解决这些推理难题的👇

0 阅读：11

量子位看科技

感谢大家的关注

作者最新文章

1

Meta宣布AI全自动广告投放计划Meta不让广告中间商赚差价了Meta正在推进

2

计算机顶级荣誉开始提名25年CCF王选奖提名启动2025年度“CCF王选奖”提名

3

AI竟然搞不清左右大模型空间感有多差杯子在我左边还是右边？这问题看起来简单，GP

4

大模型真的会反思了西北大学联手谷歌改写推理方式强化学习（RL）模型过去被认为在测

5

不用RL也能搞定大模型微调只需一条样本做无监督训练强化学习太烧钱？试试只用一条样

6

大模型遗忘只是表演吗港理工团队揭示伪遗忘真相你以为大模型“忘了”，其实只是装的。

7

Mamba核心作者新作新注意力机制速度超越DeepSeek推理提速2倍还省内存？

8

AI有了记忆会怎样大模型的记忆系统来了AI不再只是个临时聊天工具，它开始拥有“记

9

AI水印新SOTA南洋理工AI水印新方法图像加水印终于不再“整图一锅炖”了。南洋

10

阿里新方法教AI用好搜索通义团队开源新框架MaskSearch阿里通义实验室发布

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

格力把高管送去火焰山猴哥都抹汗的地方朱总靠空调坚持了下来。😅孙悟空要是有这条

2

被董明珠说中了！内鬼作乱，国产芯片出了大问题，技术遭严重泄露，然而一查却发现，主

3

我有种预感，中国芯片行业要变天了。不是因为政策扶持，也不是技术突破，而是上海

4

罗永浩连怼网友罗永浩怎么了罗永浩连续发微博怼网友，他怎么了

5

很庆幸买了荣耀400Pro，没买华为Nova14Pro。最近换手机，在华为Nov

6

一张值20万美元的H100芯片，被两个28岁的年轻人用新加坡和马来西亚做跳板偷偷

7

臻版回归！荣耀太狠了，这次看来是不准备留情面了！荣耀接下来最重磅的机型毫无疑问

8

大招继续！荣耀不藏了！Magic8再次迎来好消息！至臻版回归+卫星通信或成为

9

苹果公司第三财季财报太靓丽了，仅仅iPhone16的营业收入就达到了445亿美

10

红米新机Redmi15外观渲染图曝光：后置三摄采用纵向排列的矩形Deco今

科技最新文章

1

结合历代荣耀Magic系列的起售价格，预估一下荣耀Magic8的售价荣耀Ma

2

荣耀太狠了！全系最高降价1000元，直接把友商的饭碗给掀了啊荣耀Magic7

3

刚传来的消息马斯克突然宣布了8月8日，马斯克宣布特斯拉将解散自己研发的Do

4

站哥一旦爆料，基本上已经是板上钉钉，没跑了！荣耀Magic8增加Ultra版！

5

荣耀Play10C发布4+128GB649；国补551.656+128GB

6

来北京亦庄看具身智能机器人北京范儿正在参加世界机器人大会，这应该代表了当今世界最

7

华为Mate70全系列官方指导价价格调整，渠道价等我更新，过两天部分机型会有不小

8

小米澎湃OS3爆料汇总，这无敌了吧？汇总网传澎湃OS3系统的爆料，小米这次真

9

小米澎湃OS3系统界面曝光，照片显示，一款基于Android16的小米澎湃O

10

新机来了三星GalaxyS25FE6.67英寸120hz1080p直屏E