AI预测世界杯小组赛:混元第一,千问、DeepSeek打平
2026美加墨世界杯72场小组赛在6月28日全部收官,赛场之外的另一场较量也同步亮分。联想集团与咪咕联合发起的"世界杯预测人机大战",由联想天禧AI超级智能体担任召集者,汇聚了DeepSeek、Kimi、文心一言、通义千问、中移九天等国内顶级AI大模型,组局12大AI预测阵营,与亿万球迷共同参与,结果已经摆在桌面上。
按照咪咕的官方统计口径,12家AI整体命中率为61.9%,人类玩家为54.6%,AI领先约7.3个百分点。这个差距说大不大,说小不小,但已经让AI阵营在小组赛阶段站稳了上风。
具体到模型排名,腾讯混元和中移九天并列第一,命中率68.1%,超过三分之二;百度文心、千问、DeepSeek以63.9%打成平手。三家国产模型分数完全一致,谁也没拉开身位。
排在末位的是阶跃星辰,命中率只有43.1%,甚至低于人类选手的平均水平。排名头尾相差25个百分点。国产大模型之间的真实能力差,被一届世界杯小组赛拉得清清楚楚。
AI赢在哪?答案是确定性高的对局。在西班牙对战沙特的比赛中,12家AI中11家猜对了输赢;而在德国对战库拉索的比赛中,10家模型都给出了正确的判断。这类比赛的共同特征是强弱分明,模型只要参考世界排名、阵容身价和历史战绩,就能做出正确判断。
AI栽在哪?平局是它的最大软肋。整个小组赛阶段,20场平局里AI只猜中了11次,与胜负分明的题目形成鲜明落差。模型机制偏向选边站,对中间地带天然不敏感。
西班牙对佛得角是最典型的翻车场景。赛前11家大模型都押西班牙赢球,结果是0比0闷平。佛得角是首次跻身世界杯的非洲新军,门将的多次关键扑救化解了西班牙的进攻,赛前数据根本没法量化这种临场表现。
从概率分布上看,世界杯历史上的平局比例大约在两成到两成五之间,本就属于低概率事件。大模型在统计上更愿意把权重压到胜或负的一边,输出明确答案是它的本能,看起来是失误,其实是机制使然。
小组赛中段还出过一次集体失手。DeepSeek、通义千问、商汤小浣熊预测葡萄牙4比0取胜;百度文心、腾讯混元、Kimi、智谱、讯飞星火统一给出葡萄牙3比0的比分;中移九天、MiniMax看好葡萄牙2比0零封对手;天禧AI预测葡萄牙2比1小胜;唯一看好客队取胜的阶跃AI,则给出刚果(金)3比2赢球的预测。结果维萨头球绝平打成1比1,12家AI全部踏空。
这场"人机大战"的覆盖面其实远不止12家AI。最终"世界杯预测人机大战"打造出全球首个AI团体与全民同场预测的世界杯人机对决,吸引了超1800万用户实际参与,让一次品牌活动变成了具备统计意义的公开实验。
6月24日,由联想集团与咪咕联手打造的国内首档AI大模型深度参与的世界杯直播真人秀《人机大战:谁是世界杯预言家》在咪咕视频开播。苏醒、詹俊、韩乔生、阎鹤祥、孙继海、张踩铃等嘉宾将与12大AI模型同台比拼,预测世界杯的胜负与比分,节目会延续到淘汰赛阶段。
独立下场的厂商也不少。千问上线了足球预测AI助手,把预测嵌进用户互动和公益,准确率超过千问的用户有机会抽万元大奖,竞猜积分还能为乡村学校换一座足球场。
Kimi走的是另一条路。国产大模型Kimi称将通过Agent集群同时调度300个子Agent,公开预测104场世界杯赛事,并生成了一份224页的预测报告,把预测当成展示Agent协同能力的载体。
其实早在小组赛开打前,"人机大战"就先做了一道大题,即《2026世界杯32强竞猜统一考试》。腾讯混元以29/32的成绩位列第一,成为本届世界杯32强预测阶段的"最强AI预测官";MiniMax、讯飞星火均以28/32并列第二;DeepSeek、智谱、联想天禧AI则以27/32并列第四。
那这些猜对的模型到底是怎么算的?业内总结大致四条技术路径,门槛由低到高分别是纯prompt工程、RAG检索增强、多智能体协作,再到先用统计工具算概率、再由大模型来"翻译"。
最后一条路被认为最合理。用Elo评分、泊松进球模型、蒙特卡洛模拟等方式跑出一组概率分布,大模型负责解释和呈现。门槛也最高,多数厂商不愿为一次营销投入这么重的资源。
共性短板也很明显。一是不够动态,首发阵容、核心球员伤情、赔率波动都在实时改变概率,但大多数模型做完一次预测就交卷了,没有跟着新信息更新的机制。
二是缺少概率校准。模型给出的数字看上去合理,背后却没有回测和校准的闭环,更像是一种内容产品,而不是科学意义上的预测模型。
小组赛收官,考试环境也跟着换了。这届世界杯是参赛球队数量最多的一届,48支球队中不少实力较弱的队伍是首次登上世界杯舞台,前72场里相当一部分是强弱分明的对局。淘汰赛留下的32支球队经过筛选,实力差距被大幅压缩,猜球变得更难。
