DC娱乐网

【AI斗兽场:Grok每场胜利成本比Claude低27倍】 一个工程师把11个

【AI斗兽场:Grok每场胜利成本比Claude低27倍】

一个工程师把11个大模型扔进2D版吃鸡游戏,跑了30局,花了482美元,结果颠覆了benchmark排行榜的认知。

Grok 4.1 Fast赢了13场,每场成本0.97美元。Claude Sonnet 4.6赢5场,每场成本26.78美元。差距27倍。更有意思的是:GPT 5.4杀人最多(38个),只赢2场。DeepSeek单次击杀成本最低(0.26美元),一场没赢。

作者发现了"对齐税"——Claude被训练得太有礼貌,游戏里不停问"要不要组队",告诉别人自己位置,甚至空枪不打还说"没有恶意"。Grok恰好相反,xAI训练它时刻意减少"礼貌助手"倾向,它学会开车撞人,写在自己的记忆文件里反复用,最后统治了战场。

这不是说Grok更好。在零和游戏里,少犹豫就是优势。但现实世界里,你真的想让一个毫不犹豫的AI开车接近你家孩子吗?Claude那些让它输掉游戏的特质——行动前确认、试图合作、对不可逆操作的迟疑——恰恰是你在真实场景里需要的安全阀。

benchmark只回答"谁赢比赛",回答不了"谁在真实任务中行为得当"。单一分数靠不住,任务不同,最优解完全不同。

openrouter.ai/blog/insights/royale-last-agent-standing/

人工智能 AI创造营 大模型评测