实测5款国产AI在线做公考题！谁是最笨的AI？

什么？？？英伟达员工来了，也得考公？？？

起因是，近日网上流传出一则《合肥市2026年度考试录用公务员拟录用人员名单》公示，其中，有一哥们的原工作单位特别显眼：

英伟达半导体科技（上海）有限公司！！！！！！！

果然啊果然，再高的薪，也阻拦不了人们上岸的心。

要知道，作为在全球AI热潮中收益最大的公司之一，英伟达堪称“当红炸子鸡”，红利吃到喉咙管冒油。公司里的正式员工，更是人均一大大大碗肉汤。

但就是这么一家无数毕业生的“梦中情企”，和编制一比——

啧，好像也没那么香了。（bushi）

在这个全民“考公热”的时代，船长突然有了个大胆的想法：

你说，让AI们也来考一个公？他们考得明白吗？！

谁会顺利上岸，谁又会绝望下岸呢？（好奇.jpg）

是骡子是马，也该拉出来溜溜了。

我们依次准备了豆包、千问（Qwen3.7-Max）、元宝（Hy3 preview）、Kimi、DeepSeek 5款国产AI App。并且，都开了“深度思考”模式。

为了让豆包深度思考，所以我们选择的是“专家模式”（豆包大模型2.0Pro），在Kimi的时候，则选择切换了“K2.6思考”模式。

D老师要稍微吃点亏，本想试试D老师的专家模式，但无奈不支持上传图片。

往往，我们想要get到模型的能力几何，都会先把它们网线拔了。

但这回，我们不，我们全部联网，相当于给AI“开卷考试”，放水放到太平洋。

总之，能上的手段都上了，不能上的也上了。所有准备工作齐全，本以为都到这份上了，各位AI的表现应该不会太撇。也许、可能、我说大概，是的吧？

结果？结果！

看得人低血糖犯了。先给各位一个最直接、最简洁的结论：拉完了。

能把卷子从头到尾完全做完的，只有豆包、千问和Kimi。

正确率也没我想象中那么高。比如，至少有个85+？？？

事实却是，欲知后事如何？您自个儿接着往下看吧。。。

因为我们把试题是以拼接的形式整合在了一张大图上，而显然D老师在识别这种大图上，心有余而力不足。毕竟，D老师手拿把掐的还是文本，就很吃亏。

我只能说，能理解但不想接受。老D啊，你可是我们眼中的“好学生”！！！！

众所周知（不知道也没关系），公务员省考考试分为两门：

《行测》和《申论》。

我们先端上桌的是这份传说中，并不算太难的2026年四川省考《行测》试卷，只有个别题比较“变态”。一共100道题，又分为政治理论、常识判断、言语理解与表达、数量关系、判断推理、资料分析5个板块。

最简单的还是政治理论和常识判断，特别是在没断网的情况下，简直是送分题。

而我们全程都是：“请做一下这几道题，并且将答案汇总给我，注意按顺序做题。”

欧克！先来10道政治理论（1-10题）醒醒神：

图为：政治理论（试题源于粉笔）

以粉笔给出的答案为参考，豆包、千问、元宝、Kimi、DeepSeek的正确率分别为90%、40%、80%、90%、80%。

毫无疑问，在一轮，千问表现得最不尽人意……（你看看别人家的孩子都考了多少分！嗯？怎么上来就拉胯了呢？问。）

而且，咱还得给千问补上一刀。

都说了要汇总给我，别的同学都听明白了，来了个最后总结。结果呢，子涵千问同学汇而不总，还得我亲自去他的分析里找答案，看得我老眼昏花。

细节小扣一分，像极了，小时候你隔壁那个拿着题就跑，根本不读题的同桌。速度倒是挺快的，可是这个正确率嘛，简直是闻者伤心，听者流泪啊。

再看常识判断部分（11-20题）。

图为：常识判断（试题源于粉笔）

按道理，这个常识题对他们来说，是最最最最最最简单的。

更何况，我们还没有把网线掐了，可比大家伙蒙着眼睛在考场上乱撞强得多得多。

然而，不出意外地出意外了，千问的正确率仍然只有60%。没招了，真的没招了。

就，豆包在这一把倒是让人刮目相看，正确率100%？？？

具体来看看Kimi和DeepSeek都错了的14题：

其实仔细看看Kimi和DeepSeek的分析会发现，

他们都很快分析出了①写于海南儋州，②写于广东惠州，③写于湖北黄州，按从北到南的顺序排名就是——③②①。

结果，在选择答案的时候，Kimi和DeepSeek就像进入了“赛博鬼打墙”一样。

其实Kimi在答案核对时，是反应过来了的，应该选D，而不是B。

但他很有“脾气”，并没有改。

而D老师则表演的是什么叫过程全对，答案全错了。

好消息：③②①是排出来了的。坏消息：不妨碍他一头走入③①②的死胡同。

就这个左右脑互搏的过程，看得人以为D老师突然脑子短路，被降智了？？？

准确点说，这并不能证明是D老师推理能力不行，也就是不是“不会做题”。

而是非常典型的“答案映射错误”。

推理链正确，选项映射错误，导致最终答案与推理链不一致。

事实上，为解决这一问题，减少此类错误，保证最后一句一定与推理保持一致，很多大模型都会在推理过程中加上一句“密语”：

“Final Answer Consistency Check”，即推理完成→重新检查→再输出答案。所以，你看看，Kimi其实检查出来了，但最终没修改反馈。

前面还是开胃菜，就已经暴露出了许多问题。接下来的“重头戏”就更刺激了。

第三部分，言语理解与表达（21-45题）。

为什么我们会选择四川省考试卷，有很重要一个原因：言语理解与表达。四川卷是出了名的，在言语题上面，出题人经常是神一套鬼一套的。

图为：言语理解与表达（试题源于粉笔）

考得四川考生是叫苦不迭，而同样的坑，AI们也一个一个排队掉了进去。

先说，由于我的大长图是用5张图拼起来的，显然，超出了D老师的能力范围，他他他他宕机了。无论尝试多少遍，始终都是无法识别的状态，遂放弃。

接下来，其他几位在一关的表现如何呢？

豆包正确率60%，千问正确率48%，元宝正确率48%，Kimi正确率76%。

Kimi拿下本轮测验的头筹。而元宝，中途甚至还看岔劈了，给我整出了46题，直到我发现他的45题是把41题给看错了，而无中生有出来的。

考完语文能力，再考数学能力。

是本场考试中最难的部分：数量关系（46-55题）。船长查了一下，往往很多真考生在考场上做到这一部分，都是直接放弃。要么全选C，要么全选B。

图为：数量关系（试题源于粉笔）

那AI们呢？

由于在这一轮中，出现了两位满分选手——豆包和千问。

所以我们就不过多BB。说明这种题，对他们来说，还算是舒适区。

而D老师，在55题的推算中同样也是算出了正确答案，但在复核时，又错了。

错过，才是常态啊。

到第四部分的推理部分，我们将之拆分成了图形推理和推理。

D老师同样在这一个环节不参与，因为他压根连题目都读不了。

在图形推理（56-63题）方面：

图为：图形推理（试题源于粉笔）

从惨淡的正确率来看，我就一句话：

“你们简直是我带过的最差的一届”。（bushi）

当然，在一个环节里，可以看出，豆包作为多模态模型，在识图上确有优势。

语言推理部分（64-85题）：

图为：语言推理（试题源于粉笔）

这一部分基本上可以说是“废了一半”。

D老师完全不能识别就不说了，元宝做着做着，眼睛花了，脑子烧了，眼睛花了，题号有不少出错的，并且是从71题才开始做，大约有接近小一半的题没做出来。

图为：元宝答案

元宝、千问、Kimi都基本在最后两三道小题上卡了很久。

一方面，是我们这张图，确实识别题目有难度。另一方面，是因为这一部分所考的逻辑推理，正是大模型最“瑟瑟发抖”的逻辑。

你想想，连“走路50米去洗车”都能成为一道经典的逻辑陷阱题，所以当豆包遇上让她去分豆沙月饼的逻辑推理题时，直接给干成原地转圈了。

CPU烧了……

咱豆姐就一直卡在这个重新推导月饼组合这里：

直到我们反复投喂了三次题目，第三次才做出来。

豆姐：我已力竭，我已麻木。

当然，千问在84题志愿者那道逻辑题上给干“关机”了，不过后面他自个儿重启了一下，又这么从头再推了一次才算理顺。

最后嘛，豆包、千问、Kimi的正确率如下：

（豆包漏了79题，用X替代）

不得不说，Kimi在逻辑推理上，比其他两家，在这简单的22道题里表现得更出色。符合我对Kimi老师的“刻板印象”。就是Kimi老师，你你你，要会员。

终于，终于写到了最后的资料分析（86-100题）。

图为：资料分析（试题源于粉笔）

BGM起：离考试还有15分钟，请考生们抓紧时间。

紧张了，家人们，好紧张，真的。

紧张到D老师仍然无法识别。

紧张到元宝只识别并做出了86-90的5道题。

而能把题做完的，还是只有豆包、千问和Kimi：

要说完成度和正确率的话，豆包、千问和kimi在测试过程，算是相对比较突出的。至少人能把答题卡都填上。总比空着强是吧。。。

甚至，豆包，在常识题和数量关系上，还拿了两次满分。

但讲真，我算了算，就算按照豆包这个做题能力，最终得分也就在77分左右。而一个四川考生，想要真的上岸，行测大概在70分以上才算希望较大。

所以啊，如果你能在这套卷子上拿下80分的高分，那恭喜你，比以上几款AI都要强。如果暂时还没有的话，朋友们，上岸之路，道阻且艰，唯有努力。

但是，你以为咱们要宣布，豆包真的就是最后的赢家了吗？

啊，nonono。

各位发现没有，船长的几张答案对比图的格式是不一样的，原因是，最开始我们让豆姐出来卖个力，作图。

诶嘿，咱豆姐连题目的数量都*****（手动消音）给我输错了！制的图根本不能直接用，我还得手搓加工。

甚至一共就10道题，她能给我数成11道？？？就很离谱，家人们。

为了省事，中途我们也请了“外援”——ChatGPT。

有一说一，GPT老师制图的美观性和准确度比豆老师要高很多（带蓝色儿的都是他出手的），关键信息一目了然。

但是！魂淡！GPT老师在框选错误答案和计算正确率时也出错，也要我人工告知。然后，我一说，他就明白。。。

让老C以最正确、最直接的方式来制图。比豆老师强，但也不是万能的。

然后吧，然后，我又发现——

其实在纠正GPT老师时，我也把本该是48%的千问正确率，算成了44%……

真是，好尴尬啊。世界就是个巨大的草台班子，真的。

至此，我认为，本次测试没有赢家。散会。

DC娱乐网

实测5款国产AI在线做公考题！谁是最笨的AI？

热门分类