让两个大模型化身贪吃蛇，在一个场地里battle结果会怎样？ARCPrize

蚁工厂 2025-02-15 15:16:16

让两个大模型化身贪吃蛇，在一个场地里battle 结果会怎样？

ARC Prize搞了这个新的贪吃蛇大模型能力测试。结果基本上是 o3-mini 和 DeepSeek-R1 断档领先。

搞这个的起因是因为Andrej Karpathy的一条推文（图2）“我非常喜欢用游戏来让不同的大型语言模型（LLMs）相互较量、而非使用固定评估标准的思路。” 这种真实对抗也比较难作弊。

规则很简单，当一条蛇撞到墙、撞到自己或撞到另一条蛇时，游戏结束。

研究者发现大量的模型通过完善的prompt也无法理解规则，但GPT-4水平以上的就能玩起来了。同时推理模型明显占优势

详细介绍： snakebench.com/

0 阅读：0

感谢大家的关注

作者最新文章

1

电子书《C++ 转 Rust 参考手册》英文书，目录图为机翻cel.cs.b

2

经典书籍的中文翻译地址：github.com/wuzhouhui/awk项目文件

3

各高校课程共享计划的汇总资源。比我之前发的多很多地址：github.com/nw

4

今年竟然还在争论是端午安康还是快乐..[哆啦A梦害怕]

5

AI让语文课本动了起来这个有点意思，AI让那些深植于我们血脉的唐诗宋词，不再只

6

尊界S800全球首个轿车后排双零重力双零重力座椅，展开后可以带来舒享零压悬浮姿

7

尊界S800外观太尊了外观应该说不是个讨好年轻人的车，更多的是“老钱”喜欢的那

8

电子书《走向分布式》地址：dcaoyuan.github.io/papers/p

9

一个svg教程站 svg-tutorial.com/目录如图（机翻）。

10

一篇关于C++中原子操作（Atomics）和并发（Concurrency）的介绍

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

小米YU7价格25.35万，27.99万，32.99万三个版本，最推荐入门版本，

2

小米又搞大动作啦！6月24日雷军透露小米YU7支持车外小爱语音。车外配备8个麦克

3

小米首款智能眼镜AIGlasses发布，支持拍照录像和超级小爱同学。1999起

4

朝鲜的单摄奥利奥，虽然只是一个很low的后摄单摄，但是也要凑够两个假的组成奥利奥

5

雷军估计不会再直播了！他怎么也想不到，网友居然在他直播间里干起来了！甚至把雷

6

陈震再次质疑小米YU7到底极限在哪里？到现在为止，他已经连续发了四篇专门的文

7

一万买的华为pura80pro+还没捂热夫妻吵架给砸了一个老主顾半夜联系我

8

关于华为Pura80全系芯片的真机实测已经出来了，确认为Mate70同款的麒麟9

9

朝鲜的Mate50[doge][doge][doge]

10

Android16Beta版推送了。REDMIK70至尊版已推送小米澎

科技最新文章

1

荣耀X70系列官宣海报已经出来了，从海报图文信息中可以看到，这款新机拥有朱砂红、

2

一加15T和15s配置曝光:屏幕尺寸不变，或新增超广角镜头近日，有外媒曝光

3

荣耀X70这个大电池，8300mAh，今年电池最大的手机，应该就是这款了吧。续航

4

该来的还是来了当荣耀X70曝光那一刻，真替友商捏把汗，这比绝望还绝望！8300

5

荣耀X70这手机太猛了！官宣配备“史上最大”8300mAh青海湖电池，还支持80

6

荣耀X70系列外观曝光？镜头模组设计感觉和之前的没有太大变化，据说这次

7

8300mAh？荣耀你卷电池和续航，卷出心得了吗？即将发布的荣耀X70可

8

荣耀最值得期待的X系列X70真的来啦，预计将在本月发布！这次的X70会不

9

荣耀X70正式官宣，巅峰续航，8300毫安设计真漂亮，比mate70系列好

10

荣耀X70新机官宣，7月15日19:00发布，首发8300mAh