2025年第66届国际数学奥林匹克(IMO)正在澳大利亚阳光海岸举行,比赛成绩还

千奈叶教学 2025-07-18 23:26:27

2025年第66届国际数学奥林匹克(IMO)正在澳大利亚阳光海岸举行,比赛成绩还未正式公布,知名数学平台 MathArena 在第一时间用2025年IMO试题对世界上五款主流AI大模型进行了测评。结果没有任何模型能获得IMO的奖牌,最强模型也只到了约 30% 得分,远低于IMO“铜牌线”。

MathArena使用的五款主流AI模型分别为:OpenAI o3、OpenAI o4‑mini、Gemini‑2.5‑Pro、Grok‑4、DeepSeek‑R1. 表现最优的模型是谷歌Gemini‑2.5‑Pro,得分约为 31%(总分42分,相当于 13 分),但离 IMO 铜牌线(总分的50%-60%)仍有较大差距。其他模型表现不及预期 ,DeepSeek‑R1只得到了6.85%的得分排名垫底,6道题中的3道得分皆为0分。

MathArena 的测评方法很科学,在IMO 发布题目后第一时间进行测评,确保参与模型不曾在训练时接触过相关内容;每道题由五款主流模型使用推荐配置运行,每题每模型生成4个不同解答,从4次生成中选出最优;此次测评采用人工评分,四位具有 IMO 水平的评委参与评价,每道题满分为7分,匿名双评,并统一使用评分界面和标准流程。

MathArena 的 IMO 测评是真正意义上的高强度推理压力测试,其结果说明当前最强大的语言模型,在真正复杂推理场景中仍远不足以与顶尖高中生竞争。这揭示了AI所擅长的“语言组织”和它所欠缺的“结构推理”之间的巨大落差,当前主流AI模型更擅长“启发式思路”或短距类比,而不是构建完整的数学链条,在处理结构化、连续性极强的证明任务上仍显笨拙。这同时也说明人类推理系统之复杂,也提醒我们:AI 的“语言天赋”并不等于“思维能力”。

0 阅读:134
千奈叶教学

千奈叶教学

欢迎关注!