OpenAI 刚刚发布 o3 ,作为2024 年末 12 天直播的压轴大戏,再次震撼了所有人,人类通往 AGI 已经没有阻碍!
来看看 o3 有多恐怖?
在全球编码竞赛平台 Codeforces,干到了全球第 175 名,超越 99.99% 的程序员。
软件工程考试(SWE-Bench Verified),准确率达到了 71.7%,而满血 o1 的成绩是 49%。
数学方面,由全球几十位顶级数学家,开发的FrontierMath 数据集上,题目完全是新的,确保不会通过记忆,成绩是 25.2,看着好像不高?在 o3 之前,所有的 AI 最好成绩是 2。
智商足足提高了 10 几倍!
更牛逼的是 ARC-AGI 的测试,它是一系列抽象和推理任务,名字带 AGI,真的非常考验智力和推理,不是死记硬背就行。
GPT-4o 通过率 5%,o1 预览版 21%,满血 o1 32%,今天的主角 o3,直接干到了 87.5%!
就说恐怖不恐怖!





