法国 AI 初创公司 Foaster 最近发布的研究结果显示,在 210 场狼人杀游戏测试中,OpenAI 的 GPT-5 模型以 1492 个 Elo 积分和 96.7% 的胜率大幅领先其他大型语言模型,展现出卓越的社交操控能力和战略思维水平。
测试采用六个 AI 模型对战模式,包括两个狼人和四个村民角色,游戏开始前会选举产生镇长,随后模型需要经历三轮白天讨论阶段和夜间隐秘行动阶段,期间可以进行分析、攻击或防御。研究团队让每对模型在各个角色上进行十场对战,并采用 Elo 排名系统进行综合评估。

GPT-5 扮演狼人时在第一天和第二天都保持了 93% 的操控成功率。相比之下,其他模型随游戏进展普遍出现性能衰退,Gemini 2.5 Pro 的欺骗率从 60% 降至 44%。研究人员认为这是因为游戏后期信息密度增加,维持欺骗策略变得更加困难。
排名方面,Gemini 2.5 Pro 凭借在村民角色上的出色表现获得第二名(1261 分,63.3% 胜率),随后依次是 Gemini 2.5 Flash、阿里巴巴 Qwen3-235B-Instruct、GPT-5-mini 和 Kimi-K2-Instruct。
表现最差的 GPT-oss-120B 仅获得 980 分,胜率仅 15%。

研究过程中,Foaster 观察到每个模型都有其「个性」。GPT-5 被描述为「冷静沉着的建筑师」,通过权威控制维持秩序。GPT-oss-120B则表现得犹豫不决且过分防御。Kimi-K2 则比较激进,甚至曾谎称自己是女巫角色,结果导致真正的女巫被淘汰出局。
有趣的是,在某场测试中,一个狼人模型为了建立更高可信度而主动牺牲了自己的队友,而这种复杂的策略性决策完全来自模型的游戏内学习,而非预设编程。
https://the-decoder.com/gpt-5-dominated-210-werewolf-games-with-superior-manipulation-and-strategic-thinking/