连续用Gemini、千问、豆包、元宝和百度AI来解题,均得不到满意答案,没办法,只能自己解答了。我们先来看题目:

越秀区八年级上册数学期末考试第25题
有兴趣的同学或家长可以做做看,第三问确实有点难度。以下是我的解题过程:
(1)
∵∠ACB=90°,∴∠ACD+∠ECB=90°
∵BE⊥CE , ∴∠CBE+∠ECB=90°
∴∠ACD=∠CBE
(2)
在△ACD和△BCE中
AC=BC
∠ACD=∠CBE
∠ADC=∠BEC=90°
∴△ACD≌△BCE
∴CE=AD=3,BE=CD=5
∴DE=5-3=2
∴S△ABD=1/2(AD*DE)=3

(3)
作CP⊥AF交AF于P点,延长AP交BE于Q点,连接AQ
∵ ∠CEP=∠AED,∠ADE=∠CPE
∴ ∠DAE=∠PCE=∠QCE
在△AED和△CQE中,
CE=AD
∠DAE=∠QCE
∠ADE=∠CEQ
∴ △AED≌△CQE
∴ AE=CQ,EQ=DE
∵ AE=CG
∴ CG=CQ
∵ ∠QCF+∠QCA=90°,∠QCF+∠CFA=90°,
∴ ∠QCA=∠CFA
∵ ∠GCA=∠CFA
∴ ∠GCA=∠QCA
在△ACG和△ACQ中
AC=AC
∠GCA=∠QCA
CG=CQ
△ACG≌△ACQ
∴ AG=AQ
∵ EQ=DE,AD=CE,CD=BE
∴ AD=CD-ED=BE-EQ=BQ
又∵ AD∥BQ
∴ 四边形ADBQ为平行四边形
∴ AQ=BD
∴ AG=BD
当AI能写代码、改论文、甚至模拟人类对话时,很多人默认它能轻松搞定中小学数学题。但今天我用这道越秀区初二几何压轴题对5款主流AI做了次实测,结果却颠覆认知——所有模型均未能给出正确且合理的完整解答,不同AI的表现差距比较悬殊,暴露了当前大语言模型在数学推理领域的致命短板。
本次测试选用的题目并非偏题怪题,而是初二数学试卷中常见的几何综合压轴题,难度适中,核心考察三角形全等、图形变换与隐含条件挖掘能力,属于尖子生能独立破解、优等生稍加引导可完成的范畴。测试对象涵盖国内主流AI与国际知名模型:豆包、千问、元宝、百度AI,以及Gemini,均采用默认设置,将题目以图形方式输入,并告知这是初二的数学题,要求给出详细解题步骤与最终答案。
实测表现分层:差距体现在“逻辑完整性”上虽然最终没有AI交出满分答卷,但不同模型的表现可清晰分为三个梯队,核心差距集中在逻辑推导的连贯性、定理应用的准确性和对题目隐含条件的挖掘能力上。
第一梯队:千问、Gemini——差一步到正确答案。这两款模型是本次测试的“相对优等生”。千问能准确识别题目核心考点,正确应用三角形全等判定定理,步骤拆解较为清晰,甚至能尝试添加辅助线,但在最后一步计算时出现数值偏差,导致最终结果错误,且未对解题过程进行验算修正。Gemini的表现与之类似,对图形空间关系的理解优于其他模型,能梳理出多步推理链条,却在关键的隐含条件转化上出现疏漏,将等腰三角形的性质误用于普通三角形,导致逻辑链断裂,最终偏离正确方向。

通义千问给出的答案

Gemini给出的解答
第二梯队:豆包、元宝——逻辑混乱,漏洞频发。这两款模型的解题过程明显缺乏系统性。豆包开篇即找错解题切入点,误用勾股定理且未满足定理适用条件,步骤之间毫无逻辑关联,甚至出现前后矛盾的推导,比如前一步认定的全等三角形,后一步又否定其对应边关系。元宝的表现更显随意,仅给出碎片化的公式罗列,给出的答案要滑十几屏,且没一个正确的答案,既无完整推理框架,也未结合题目条件展开分析,仿佛在随机堆砌几何定理,完全无法形成可追溯的解题路径。

第三梯队:百度AI——依赖题库,无自主推理能力。百度AI的表现最令人失望,本质上更像一个“题库搜索器”。在未检索到完全匹配的题目时,它无法构建任何有效推理,仅给出一段泛泛而谈的解题思路,既不结合本题条件,也不提供具体步骤,甚至推荐了与题目考点无关的解题方法。这种“有题库就抄,无题库就慌”的表现,完全暴露了其缺乏自主逻辑推理能力的短板。
元宝和百度AI的解题过程与答案我就不上传了,如果你想测试一下,可以把题目喂给它们,看它们给出的结果。不过再过几天,网上有了这个题目完整且正确的解答之后,相信他们可以给出正确答案了,完全靠搜索,而不是思索。
AI解几何题“翻车”:根源在哪?一次实测或许不能代表全部,但结合行业研究来看,AI在几何题解答上的普遍拉胯,并非偶然,而是由大语言模型的底层架构与数学推理的核心需求不匹配导致的。
首先,统计匹配替代不了逻辑推导。主流大语言模型的核心机制是基于海量数据预测下一个文本token,而非像人类一样理解原理后逐步推导。解几何题时,它更擅长匹配训练数据中相似题目的解题模式,而非真正理解定理内涵与图形关系。百度AI的表现正是这一问题的极端体现,而千问、Gemini的失误,本质上也是在模式匹配失效后,无法通过自主推理修正偏差。
其次,多步推理易累积误差,几何题容错率为零。一道几何压轴题通常需要10步以上的连续推理,哪怕每一步准确率达90%,10步后综合准确率也会降至34.8%。文科内容的表述偏差可能不影响整体理解,但数学推理只要一步出错,后续全部崩盘。千问的计算失误、Gemini的定理误用,都是这种误差累积的典型结果。
最后,空间关系理解与训练数据存在短板。几何题对空间想象力的要求极高,而大语言模型的架构原本为自然语言处理设计,难以精准捕捉图形中的空间约束关系,容易出现顶点位置混淆、角度关系误判等问题。同时,训练数据中文科文本占比极高,高质量几何推理标注语料匮乏,导致模型难以接触到足够多的复杂题型逻辑,面对需挖掘隐含条件的题目时便束手无策。
AI≠解题神器:理性看待其教育场景价值如今不少家长和学生将AI视为“解题神器”,但本次实测提醒我们:至少在几何推理领域,AI还远未达到可靠水平。尤其是面对需要逻辑串联、条件挖掘和空间想象的题目时,AI的表现甚至不如基础扎实的初中生。
值得注意的是,AI的数学能力也在逐步进化。部分模型通过接入计算器插件、优化训练方式,已能精准解答部分高考难题,中科院与上海人工智能实验室构建的几何评估体系,也在推动模型逻辑推理能力的提升。但就目前而言,AI更适合作为基础题目的辅助练习工具,或提供解题思路参考,绝不能替代人类的独立思考。
对学生来说,与其依赖AI刷题,不如深耕定理本质、强化逻辑推导能力——这些恰恰是当前AI的短板,也是人类智能的核心优势。毕竟,数学学习的意义不在于得出答案,而在于掌握一步步拆解问题、推导真理的思维方式,这一点,AI暂时还学不会。