豆包2025高考达清北录取线豆包高考裸分683
这两天啊,各地高考的成绩终于是陆续公布了。
现在,也是时候揭晓全球第一梯队的大模型们的“高考成绩”了——
我们先来看下整体的情况(该测试由字节跳动Seed团队官方发布):【图1】。
按照传统文理分科计分方式,Gemini的理科总成绩655分,在所有选手里排名第一。豆包的文科总成绩683分,排名第一,理科总成绩是648分,排名第二。
再来看下各个细分科目的成绩情况:【图2】。
除了数学、化学和生物之外,豆包的成绩依旧是名列前茅,6个科目均是第一。
不过其它AI选手的表现也是比较不错,可以说是达到了优秀学生的水准。
比较遗憾的选手就要属O3,因为它在语文写作上跑了题,因此语文成绩仅95分,拉低了整体的分数。
若是从填报志愿角度来看,因为这套测试采用的是山东省的试卷,根据过往经验判断,3门自选科目的赋分相比原始分会有一定程度的提高,尤其是在化学、物理等难度较大的科目上。本次除化学成绩相对稍低外,豆包的其余科目组合的赋分成绩最高能超过690分,有望冲刺清华、北大。
(赋分规则:将考生选考科目的原始成绩按照一定比例划分等级,然后将等级转换为等级分计入高考总分)
好,那现在的豆包面临的抉择是:上清华还是上北大?
在看完成绩之后,或许很多小伙伴都有疑惑,这个评测成绩到底是怎么来的。
别急,我们这就对评测标准逐条解析。
首先在卷子的选择上,由于目前网络流出的高考真题都是非官方的,而山东是少数传出全套考卷的高考大省;因此主科(即语文、数学、英语)采用的是今年的全国一卷,副科采用的则是山东卷,满分共计750分。
其次在评测方式上,都是通过API测试,不会联网查询,评分过程也是参考高考判卷方式,就是为了检验模型自身的泛化能力:
- 选择题、填空题:采用机评(自动评估)加人工质检的方式;
- 开放题:实行双评制,由两位具有联考阅卷经验的重点高中教师匿名评阅,并设置多轮质检环节。
在给模型打分的时候,采用的是 “3门主科(语文数学英语)+3门综合科(理综或文综)” 的总分计算方式,给五个模型排了个名次。
值得一提的是,整个评测过程中,模型们并没有用任何提示词优化技巧来提高模型的表现,例如要求某个模型回答得更详细一些,或者刻意说明是高考等等。
最后,就是在这样一个公平公正的环境之下,从刚才我们展示的结果来看,Gemini、豆包相对其他AI来说取得了较优的成绩。
细分科目表现分析可戳: