仅用提示词工程摘下IMO金牌大模型不砸钱也能比肩大厂两位清华校友强强联合，让基础

量子位看科技 2025-08-02 14:25:18

仅用提示词工程摘下IMO金牌大模型不砸钱也能比肩大厂

两位清华校友强强联合，让基础模型Gemini 2.5 Pro轻松达到IMO金牌水平，只需一个小小的提示词改动！

该发现来自两位清华校友杨林和黄溢辰，他们共同设计了一套自我迭代验证流程和提示词优化，就成功让Gemini 2.5 Pro完成了今年IMO题目的解答。

他们还刚刚更新了代码，直接利用通用提示词就能实现模型推理增强。【图1】

好家伙，原来我们都被LLM骗了，基础大模型早就弯道超车，具备超强的解决复杂数学推理问题的能力。

只不过，直接用效果并不好。

就像MathArena也用Gemini 2.5 Pro跑了本次IMO题目，结果只有13分，远低于IMO铜牌门槛（19/42）。【图2】

但只要加一点点提示词魔法和迭代验证，就能实现1+1>2。

这一点也受到了陶哲轩的认可：

我认同严格验证是在复杂数学任务中取得出色表现的关键。【图3】

具体是怎么做到的？我们接着往下看

0 阅读：0

量子位看科技

感谢大家的关注

作者最新文章

1

减少大模型幻觉提示词如何减少大模型幻觉减少大模型幻觉提示词，Reddit大佬针对

2

Hinton被ChatGPT坑分手Hinton女友因AI跟他分手Hinton和女

3

Meta超级智能实验室首篇论文Meta给所有大模型提速30倍小扎下血本组建的超级

4

大模型破译甲骨文创下新SOTAAI零样本挑战甲骨文让大模型破译从未见过的甲骨文，

5

OpenAI揭秘幻觉根本原因OpenAI否定现有模型训练方法OpenAI最新论文

6

字节发布机器人全能大脑机器人有一体化大脑了字节Seed发布了一个给机器人用的大模

7

换数据顺序模型更聪明微软教大模型按顺序学模型训练重点在于数据的数量与质量？其实还

8

Qwen万亿参数模型炸场Qwen3把参数量卷出新高度Qwen深夜放出重磅更新：旗

9

保持注意力的秘诀专注久了世界会开花人们总说要“学会专注”。但Henrik Kar

10

首家被收购的AI浏览器公司AI浏览器内测期被43亿收购全球第一家被收购的AI浏览

热门分类

科技TOP

1

【华为MateXTs非凡大师及全场景新品发布会官宣9月4日举办，将

2

四选一怎么选？旗舰新机一款比一款炸裂打算今年换机的朋友爽了，看了下今年的旗舰是

3

追觅造车了！造扫地机器人的那个追觅没想到啊，造车牌桌上一个接一个退场…这时候竟然

4

8月8日，河南许昌一小伙，在闲鱼上5300买了一台苹果16pro，结果顺丰配发当

5

华为又放大招啦！8月15号，华为Pura80手机处理器，kirin9020惊艳

6

美团退款看了一下最近两笔账单，都退回来了，这种退款还是要确认一遍，有时候还真会忘

7

罗永浩拉黑俞敏洪王自如对话任何一位，流量肯定爆炸。但聊不到一起，也没必要。甚至都

8

追觅官宣造车任何一个有过造车经验的传统品牌推出一个新能源品牌我都能想得到，唯独

9

华为发布新品最惨的不是苹果，也不是友商而是专门拆手机的博主杨长顺。他怎么

10

台积电创始人张忠谋在接受纽约时报专访时说：美国、荷兰、日本、韩国与台湾牢牢控制着

科技最新文章

1

iPhone17系列国行版的电池容量曝光了（靠谱版），具体如下：iPhone

2

k80至尊版天马屏vs华星屏。可以直观的看出，屏幕发绿的是天马屏，通透的是华星屏

3

能够和小米16相抗衡的国产旗舰，估计也就只有华为Mate80了。小米16已

4

即将上市的四大机器，这里面我还是会选择oppo，因为已经习惯了ColorOS系统

5

马斯克全球封杀李雪晨！这李雪晨本来只是马斯克底下子公司的骨干开发人员，这下出

6

Magic6用户要哭了，赶紧换Magic8吧！消息已经确定，MagicOS10

7

近日，AI圈惊爆一则重大消息：Anthropic发表声明，明确规定但凡由中国

8

华为发布新品最惨的不是苹果，也不是友商而是专门拆手机的博主杨长顺。他怎么

9

目前已知的信息：全新外观设计ProMax电池容量超过5000mAh全系A19全

10

断供16nm！中芯连夜改机良率飙到91%？光刻机被卡脖子，工程师把198