AI狼人杀AI斗蛐蛐世界杯悬赏5000美元你是不是也在思考这个问题：AI大模型之

AI狼人杀AI斗蛐蛐世界杯悬赏5000美元

你是不是也在思考这个问题：AI大模型之间的真实差距，真的像各种榜单上表现得那样直观吗？

老实讲，榜单的确很清晰。

参数规模、得分都一目了然，但总感觉模型能力只用特定题目、特定维度的表现来定性，对咱AI大模型来说，着实有一点屈才了吧……

而且假如把它们都丢进复杂互动场景，AI大模型们表现出来的逻辑推理能力，是不是依然能像Benchmark上那样拉开代差呢？

肯定不只我一个人在思考这个问题。

因为已经有人开始用新办法搞事了哈哈哈，而且场面非常火爆。淘宝直接把全球最顶尖的12个大模型凑到一锅，在完全统一的Agent框架下，用同一套代码逻辑、同一套规则限制，硬碰硬贴脸对线，让模型们在12人局技能狼人杀场景里连续对战150局。

发言长度、角色配置、对战节奏完全锁死，拼的就是谁的脑子灵。

GPT、Gemini、DeepSeek、Qwen、GLM、Kimi等模型悉数入场，其中不少还是2026年刚发不久的船新版本。

讲真，我们发现这个斗蛐蛐世界杯的时间有点晚了，截至发文，这场顶级评测已经进行到148局。

战况之激烈，完全不逊色于真人高端局。

原文：网页链接官网：网页链接直达赛事：网页链接

DC娱乐网