DC娱乐网

OpenAI抢先宣布国际数学奥赛金牌成绩

虽是通用AI模型却能以人类速度解决证明题,但提前公布引发争议。上周六,OpenAI研究员亚历山大·魏(Alexander

虽是通用AI模型却能以人类速度解决证明题,但提前公布引发争议。

上周六,OpenAI研究员亚历山大·魏(Alexander Wei)宣布,该公司正在研发的一款新型AI语言模型,在国际数学奥林匹克竞赛(IMO)中取得了金牌级别的成绩,这一水平每年只有不到9%的人类选手能够达到。然而,这项声明是在IMO主办方要求AI公司在7月28日之前不要公布结果的禁令下发出的。

据报道,这款实验性模型在与人类选手相同的限制下,解决了竞赛中的六道证明题:每场限时4.5小时,全程不允许上网或使用计算器。然而,一些了解内情的消息人士指出,由于OpenAI自行评判了其IMO成绩,因此该公司声明的可信度可能存疑。OpenAI计划公布这些证明过程和评分标准,以供公众审查。

OpenAI表示,这项成就标志着其与以往AI尝试解决数学奥赛题的方式截然不同。过去的方法大多依赖于专门的定理证明系统,且往往超出了人类的作答时间限制。OpenAI称,他们的模型将问题作为纯文本处理,并生成自然语言的证明过程,其运作方式更像一个通用语言模型,而非为数学专门设计的系统。

在此之前,谷歌在2024年7月曾声称其AlphaProof和AlphaGeometry 2模型在IMO中取得了银牌等效成绩——不过,谷歌的系统每个问题最多需要三天时间,远超人类4.5小时的限制,并且还需要人工协助将问题翻译成形式化的数学语言。

“数学是检验推理能力的试金石——它结构严谨,逻辑缜密,难以作假,”该公司在一份发送给Ars Technica的声明中写道,“这表明,可扩展的通用方法现在可以在那些长期以来被视为遥不可及的任务上,超越人工优化系统。”

尽管该公司证实其下一代主要AI模型GPT-5“即将到来”,但也澄清说,当前展示的这款模型仍处于实验阶段。OpenAI表示:“这些技术将会传承下去,但在相当长一段时间内,具备这种能力水平的产品不会发布。”很有可能,OpenAI为这项特定实验投入了大量的计算资源(这意味着高昂的成本),而这种计算量在短期内不会成为消费级AI模型的常态。

通用AI模型取得惊人成绩

OpenAI表示,这款实验性AI模型背后的研究团队,由亚历克斯·魏(Alex Wei)主导,并得到了谢丽尔·许(Sheryl Hsu)和诺姆·布朗(Noam Brown)的支持,最初并未计划参加这项竞赛,但他们在测试中观察到令人惊喜的成果后,决定评估其模型表现。

OpenAI在一份声明中说:“这并非一个专门为数学构建的系统。它与我们训练用于语言、编码和科学的大型语言模型属于同一类型——在IMO的标准限制下(4.5小时,无互联网,无计算器)解决了完整的证明题。”

OpenAI收到的题目是由IMO主办方新编写的,并同时分享给了多家AI公司。为了验证结果,据报道,每个解决方案都由OpenAI组织的三位前IMO奖牌获得者组成的小组进行了盲评,并且必须获得一致同意才能被采纳。

然而,除了自行评判结果引发的争议外,OpenAI还在周六的声明中似乎违反了与国际数学奥林匹克竞赛的禁令协议,这激怒了IMO社区。另一家参与竞赛的AI公司Harmonic在7月20日的一篇X帖子中透露:“IMO理事会已要求我们以及其他参与的领先AI公司,将结果推迟到7月28日再发布。”

OpenAI的提前发布促使谷歌DeepMind——其原本已准备好在约定日期公布IMO成绩——将自己的相关声明提前到今天晚些时候。而Harmonic则计划按原定时间在7月28日分享其结果。

这种混乱似乎源于IMO竞赛的不同参与方式。一些AI公司直接与IMO理事会协调进行测试,而OpenAI则是独立运作,他们收到了题目,但并未参与包括7月28日禁令协议在内的正式协调过程。

OpenAI研究员诺姆·布朗(Noam Brown)在X上为其发布时间辩护,称公司“与IMO官方没有直接沟通”,发布前只与一位组织者交谈过。布朗声称,他们等到闭幕式后才宣布,大约在太平洋时间凌晨1点左右,并且“从未有人要求我们推迟发布”。

布朗进一步解释说,大约两个月前,IMO曾邀请OpenAI参加基于Lean语言的正式版竞赛,Lean是一种专门用于编写数学证明的编程语言。但OpenAI拒绝了,因为他们“专注于自然语言中的通用推理,不受Lean的限制”。他表示,IMO“从未向他们提出过自然语言数学选项”。

然而,一位IMO协调员告诉X用户米哈伊尔·萨明(Mikhail Samin),OpenAI实际上是在闭幕式之前就宣布了结果,这与布朗的说法相矛盾。这位协调员称OpenAI的行为“粗鲁且不恰当”,并指出OpenAI“并非与IMO合作测试模型的AI公司之一”。

自1959年以来的硬核数学竞赛

国际数学奥林匹克竞赛自1959年以来一直在举办,堪称检验数学推理能力最具挑战性的考试之一。每年有超过100个国家派出六名选手参赛,选手们在两次4.5小时的考试中需要解决六道证明题。这些题目通常需要深刻的数学洞察力和创造力,而非单纯的计算能力。你可以在网上看到2025年奥赛的具体题目。

例如,第一道题要求学生想象一个三角形点阵(就像一个三角形的插板),并想办法用正好n条直线覆盖所有的点。其中的巧妙之处在于,有些线被称为“阳光线”——这些线不水平、不垂直,也不以45度角斜向延伸。挑战在于证明,无论你的三角形有多大,你都只能创造出正好有0、1或3条阳光线的图案——绝不会是2条、4条或任何其他数量。

OpenAI公布结果的时机,让一些预测市场感到惊讶,此前他们曾预测任何AI系统在2025年前赢得IMO金牌的概率约为18%。

在OpenAI宣布此项结果以及我们最初发表这篇文章之后,谷歌DeepMind也发布了其IMO成绩,同样声称其Gemini Deep Think模型解决了六道题中的五道,达到了金牌水平。与OpenAI不同的是,谷歌直接与IMO组织者合作,其结果也得到了IMO协调员的官方评级和认证。谷歌原计划遵守7月28日的禁令,但在OpenAI提前发布后,也随之提前公布了。

DeepMind高级科学家唐·梁(Thang Luong)告诉Ars Technica:“我们已向IMO组织确认,我们确实完美解决了五道题。我认为任何没有经过这个过程的公司,我们无法确定,他们可能少了一分而只获得银牌。”

关注【黑客联盟】带你走进神秘的黑客世界