GPT5基准测试分数泄露GPT5要来了吗GPT-5基准测试分数泄露,整体表现超前

量子位看科技 2025-07-13 23:34:07

GPT5基准测试分数泄露GPT5要来了吗

GPT-5基准测试分数泄露,整体表现超前,网传7月31日发布:

- SWE-Bench(代码修复任务)

GPT-5 reasoning拿到90分,明显高于Grok 4 Heavy的73.5分和Gemini 2.5 Pro的63.8分;

- GPQA(复杂问题解答)

GPT-5 reasoning最高95分,仅次的是GPT-5 base(90分)和Grok 4 Heavy(88.9分);

- AIME25(奥数难题)

GPT-5 base和reasoning双双满分100分,完全超越Kimi(54分)与Gemini(88分);

- HLE(高难长文本理解)

虽然整体分数都偏低,但GPT-5 reasoning依然最高,为56分,远超Gemini(21.6)与Grok(44.4)。

目前尚不清楚这些数据是否来自OpenAI内部,但内容细致、覆盖全面,该网友表示“已和OpenAI工作的叔叔求证”。

0 阅读:5
量子位看科技

量子位看科技

感谢大家的关注