GPT5基准测试分数泄露GPT5要来了吗
GPT-5基准测试分数泄露,整体表现超前,网传7月31日发布:
- SWE-Bench(代码修复任务)
GPT-5 reasoning拿到90分,明显高于Grok 4 Heavy的73.5分和Gemini 2.5 Pro的63.8分;
- GPQA(复杂问题解答)
GPT-5 reasoning最高95分,仅次的是GPT-5 base(90分)和Grok 4 Heavy(88.9分);
- AIME25(奥数难题)
GPT-5 base和reasoning双双满分100分,完全超越Kimi(54分)与Gemini(88分);
- HLE(高难长文本理解)
虽然整体分数都偏低,但GPT-5 reasoning依然最高,为56分,远超Gemini(21.6)与Grok(44.4)。
目前尚不清楚这些数据是否来自OpenAI内部,但内容细致、覆盖全面,该网友表示“已和OpenAI工作的叔叔求证”。