让两个大模型化身贪吃蛇,在一个场地里battle结果会怎样?ARCPrize

又仁看科技 2025-02-15 15:16:16

让两个大模型化身贪吃蛇,在一个场地里battle 结果会怎样?

ARC Prize搞了这个新的贪吃蛇大模型能力测试。结果基本上是 o3-mini 和 DeepSeek-R1 断档领先。

搞这个的起因是因为Andrej Karpathy的一条推文(图2)“我非常喜欢用游戏来让不同的大型语言模型(LLMs)相互较量、而非使用固定评估标准的思路。” 这种真实对抗也比较难作弊。

规则很简单,当一条蛇撞到墙、撞到自己或撞到另一条蛇时,游戏结束。

研究者发现大量的模型通过完善的prompt也无法理解规则,但GPT-4水平以上的就能玩起来了。同时推理模型明显占优势

详细介绍: snakebench.com/

0 阅读:0
又仁看科技

又仁看科技

感谢大家的关注