仅用提示词工程摘下IMO金牌大模型不砸钱也能比肩大厂
两位清华校友强强联合,让基础模型Gemini 2.5 Pro轻松达到IMO金牌水平,只需一个小小的提示词改动!
该发现来自两位清华校友杨林和黄溢辰,他们共同设计了一套自我迭代验证流程和提示词优化,就成功让Gemini 2.5 Pro完成了今年IMO题目的解答。
他们还刚刚更新了代码,直接利用通用提示词就能实现模型推理增强。【图1】
好家伙,原来我们都被LLM骗了,基础大模型早就弯道超车,具备超强的解决复杂数学推理问题的能力。
只不过,直接用效果并不好。
就像MathArena也用Gemini 2.5 Pro跑了本次IMO题目,结果只有13分,远低于IMO铜牌门槛(19/42)。【图2】
但只要加一点点提示词魔法和迭代验证,就能实现1+1>2。
这一点也受到了陶哲轩的认可:
我认同严格验证是在复杂数学任务中取得出色表现的关键。【图3】
具体是怎么做到的?我们接着往下看