DC娱乐网

AI狼人杀AI斗蛐蛐世界杯悬赏5000美元你是不是也在思考这个问题:AI大模型之

AI狼人杀AI斗蛐蛐世界杯悬赏5000美元

你是不是也在思考这个问题:AI大模型之间的真实差距,真的像各种榜单上表现得那样直观吗?

老实讲,榜单的确很清晰。

参数规模、得分都一目了然,但总感觉模型能力只用特定题目、特定维度的表现来定性,对咱AI大模型来说,着实有一点屈才了吧……

而且假如把它们都丢进复杂互动场景,AI大模型们表现出来的逻辑推理能力,是不是依然能像Benchmark上那样拉开代差呢?

肯定不只我一个人在思考这个问题。

因为已经有人开始用新办法搞事了哈哈哈,而且场面非常火爆。淘宝直接把全球最顶尖的12个大模型凑到一锅,在完全统一的Agent框架下,用同一套代码逻辑、同一套规则限制,硬碰硬贴脸对线,让模型们在12人局技能狼人杀场景里连续对战150局。

发言长度、角色配置、对战节奏完全锁死,拼的就是谁的脑子灵。

GPT、Gemini、DeepSeek、Qwen、GLM、Kimi等模型悉数入场,其中不少还是2026年刚发不久的船新版本。

讲真,我们发现这个斗蛐蛐世界杯的时间有点晚了,截至发文,这场顶级评测已经进行到148局。

战况之激烈,完全不逊色于真人高端局。

原文:网页链接官网:网页链接直达赛事:网页链接