2025年第66届国际数学奥林匹克(IMO)正在澳大利亚阳光海岸举行，比赛成绩还

2025年第66届国际数学奥林匹克(IMO)正在澳大利亚阳光海岸举行，比赛成绩还未正式公布，知名数学平台 MathArena 在第一时间用2025年IMO试题对世界上五款主流AI大模型进行了测评。结果没有任何模型能获得IMO的奖牌，最强模型也只到了约 30% 得分，远低于IMO“铜牌线”。

MathArena使用的五款主流AI模型分别为：OpenAI o3、OpenAI o4‑mini、Gemini‑2.5‑Pro、Grok‑4、DeepSeek‑R1. 表现最优的模型是谷歌Gemini‑2.5‑Pro，得分约为 31%（总分42分，相当于 13 分），但离 IMO 铜牌线（总分的50%-60%）仍有较大差距。其他模型表现不及预期，DeepSeek‑R1只得到了6.85%的得分排名垫底，6道题中的3道得分皆为0分。

MathArena 的测评方法很科学，在IMO 发布题目后第一时间进行测评，确保参与模型不曾在训练时接触过相关内容；每道题由五款主流模型使用推荐配置运行，每题每模型生成4个不同解答，从4次生成中选出最优；此次测评采用人工评分，四位具有 IMO 水平的评委参与评价，每道题满分为7分，匿名双评，并统一使用评分界面和标准流程。

MathArena 的 IMO 测评是真正意义上的高强度推理压力测试，其结果说明当前最强大的语言模型，在真正复杂推理场景中仍远不足以与顶尖高中生竞争。这揭示了AI所擅长的“语言组织”和它所欠缺的“结构推理”之间的巨大落差，当前主流AI模型更擅长“启发式思路”或短距类比，而不是构建完整的数学链条，在处理结构化、连续性极强的证明任务上仍显笨拙。这同时也说明人类推理系统之复杂，也提醒我们：AI 的“语言天赋”并不等于“思维能力”。

DC娱乐网

2025年第66届国际数学奥林匹克(IMO)正在澳大利亚阳光海岸举行，比赛成绩还

热门分类