【AI斗兽场：Grok每场胜利成本比Claude低27倍】一个工程师把11个

【AI斗兽场：Grok每场胜利成本比Claude低27倍】

一个工程师把11个大模型扔进2D版吃鸡游戏，跑了30局，花了482美元，结果颠覆了benchmark排行榜的认知。

Grok 4.1 Fast赢了13场，每场成本0.97美元。Claude Sonnet 4.6赢5场，每场成本26.78美元。差距27倍。更有意思的是：GPT 5.4杀人最多（38个），只赢2场。DeepSeek单次击杀成本最低（0.26美元），一场没赢。

作者发现了"对齐税"——Claude被训练得太有礼貌，游戏里不停问"要不要组队"，告诉别人自己位置，甚至空枪不打还说"没有恶意"。Grok恰好相反，xAI训练它时刻意减少"礼貌助手"倾向，它学会开车撞人，写在自己的记忆文件里反复用，最后统治了战场。

这不是说Grok更好。在零和游戏里，少犹豫就是优势。但现实世界里，你真的想让一个毫不犹豫的AI开车接近你家孩子吗？Claude那些让它输掉游戏的特质——行动前确认、试图合作、对不可逆操作的迟疑——恰恰是你在真实场景里需要的安全阀。

benchmark只回答"谁赢比赛"，回答不了"谁在真实任务中行为得当"。单一分数靠不住，任务不同，最优解完全不同。

openrouter.ai/blog/insights/royale-last-agent-standing/

人工智能 AI创造营大模型评测

DC娱乐网

【AI斗兽场：Grok每场胜利成本比Claude低27倍】一个工程师把11个

热门分类

【AI斗兽场：Grok每场胜利成本比Claude低27倍】 一个工程师把11个

热门分类

【AI斗兽场：Grok每场胜利成本比Claude低27倍】一个工程师把11个