AI 玩狼人杀，GPT-5 获断崖式 MVP

法国 AI 初创公司 Foaster 最近发布的研究结果显示，在 210 场狼人杀游戏测试中，OpenAI 的 GPT-5 模型以 1492 个 Elo 积分和 96.7% 的胜率大幅领先其他大型语言模型，展现出卓越的社交操控能力和战略思维水平。

测试采用六个 AI 模型对战模式，包括两个狼人和四个村民角色，游戏开始前会选举产生镇长，随后模型需要经历三轮白天讨论阶段和夜间隐秘行动阶段，期间可以进行分析、攻击或防御。研究团队让每对模型在各个角色上进行十场对战，并采用 Elo 排名系统进行综合评估。

GPT-5 扮演狼人时在第一天和第二天都保持了 93% 的操控成功率。相比之下，其他模型随游戏进展普遍出现性能衰退，Gemini 2.5 Pro 的欺骗率从 60% 降至 44%。研究人员认为这是因为游戏后期信息密度增加，维持欺骗策略变得更加困难。

排名方面，Gemini 2.5 Pro 凭借在村民角色上的出色表现获得第二名（1261 分，63.3% 胜率），随后依次是 Gemini 2.5 Flash、阿里巴巴 Qwen3-235B-Instruct、GPT-5-mini 和 Kimi-K2-Instruct。

表现最差的 GPT-oss-120B 仅获得 980 分，胜率仅 15%。

研究过程中，Foaster 观察到每个模型都有其「个性」。GPT-5 被描述为「冷静沉着的建筑师」，通过权威控制维持秩序。GPT-oss-120B则表现得犹豫不决且过分防御。Kimi-K2 则比较激进，甚至曾谎称自己是女巫角色，结果导致真正的女巫被淘汰出局。

有趣的是，在某场测试中，一个狼人模型为了建立更高可信度而主动牺牲了自己的队友，而这种复杂的策略性决策完全来自模型的游戏内学习，而非预设编程。

https://the-decoder.com/gpt-5-dominated-210-werewolf-games-with-superior-manipulation-and-strategic-thinking/

DC娱乐网