GPT5基准测试分数泄露GPT5要来了吗GPT-5基准测试分数泄露，整体表现超前

量子位看科技 2025-07-13 23:34:07

GPT5基准测试分数泄露GPT5要来了吗

GPT-5基准测试分数泄露，整体表现超前，网传7月31日发布：

- SWE-Bench（代码修复任务）

GPT-5 reasoning拿到90分，明显高于Grok 4 Heavy的73.5分和Gemini 2.5 Pro的63.8分；

- GPQA（复杂问题解答）

GPT-5 reasoning最高95分，仅次的是GPT-5 base（90分）和Grok 4 Heavy（88.9分）；

- AIME25（奥数难题）

GPT-5 base和reasoning双双满分100分，完全超越Kimi（54分）与Gemini（88分）；

- HLE（高难长文本理解）

虽然整体分数都偏低，但GPT-5 reasoning依然最高，为56分，远超Gemini（21.6）与Grok（44.4）。

目前尚不清楚这些数据是否来自OpenAI内部，但内容细致、覆盖全面，该网友表示“已和OpenAI工作的叔叔求证”。

0 阅读：7

量子位看科技

感谢大家的关注

作者最新文章

1

Kimi不认输Kimi开源反击DeepSeek172天过去，Kimi在深夜低调给

2

Claude揭秘深度搜索构建如何调动AI搞深度搜索如何用多智能体的方法构建深度搜

3

密室逃脱成AI新考场多模态模型能否逃出密室多模态大模型（MLLMs）这些年发展飞

4

用AI写代码效率反降AI会降低资深开发者效率用AI写代码，程序员效率反而更低了？

5

OpenAI将开源首个推理模型OpenAI首个推理模型据The Verge报道，

6

6步构建AI智能体6步让Agent从想法到落地LangChain发布了“智能体6

7

美国版梁文锋金融CEO跨界AI创业DeepSeek火了，美国也来了个“梁文锋”。

8

开源视频剪辑项目爆火一个开源的视频剪辑项目一上线，评论区网友大呼过瘾【图1】，两

9

C++最长报错比赛用最少代码生成最长报错一场C++编程比赛，比的却是谁能创造出史

10

奖励模型也能Scaling 强化学习改变了大语言模型的后训练范式，可以说，已成为

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

格力把高管送去火焰山猴哥都抹汗的地方朱总靠空调坚持了下来。😅孙悟空要是有这条

2

罗永浩连怼网友罗永浩怎么了罗永浩连续发微博怼网友，他怎么了

3

很庆幸买了荣耀400Pro，没买华为Nova14Pro。最近换手机，在华为Nov

4

苹果公司第三财季财报太靓丽了，仅仅iPhone16的营业收入就达到了445亿美

5

红米新机Redmi15外观渲染图曝光：后置三摄采用纵向排列的矩形Deco今

6

25年公认最强拍照手机，有你在用的吗。

7

马斯克已确认，三星拿下特斯拉165亿美元的合作，将为特斯拉生产芯片[doge]我

8

三星是不是都沉默了，这次又全面输给了荣耀三星GalaxyZFold7好不

9

荣耀Magic8全系曝光🔥四杯+7500mAh+2亿潜望荣耀Magic8系

10

目前最新的手机处理器排名，不出意外高通骁龙还是占据主流排第一的是骁龙8至尊领先

科技最新文章

1

目前最值得入手的3款荣耀手机1、荣耀400Pro，相对上一代产品升级到了满

2

红米K90系列电池容量曝光，标准版7100毫安电池，Pro是7500毫安，因为标

3

小米的芯片困局又来了。英伟达被约谈的消息一出，雷军估计眉头紧锁。小米手机

4

只有华为Mate80RS非凡大师才能打，荣耀Magic8Ultra影像究竟有

5

荣耀最新旗舰荣耀Magic8系列配置预测，为了满足消费者的需求，这次的荣耀Mag

6

补充：华为Pura80Pro日均降价17.78元三星Galaxy

7

GalaxyS26Ultra带来了一些意想不到的升级•更大的主摄

8

今年荣耀的电池都做到8300mAh了，听说明年还能到10000mAh左右。其实不

9

苹果公司第三财季财报太靓丽了，仅仅iPhone16的营业收入就达到了445亿美

10

预1500元以内，这3款手机的性能和续航“最强”，轻松用五年红米Turbo3