豆包2025高考达清北录取线豆包高考裸分683这两天啊，各地高考的成绩终于是陆

豆包2025高考达清北录取线豆包高考裸分683

这两天啊，各地高考的成绩终于是陆续公布了。

现在，也是时候揭晓全球第一梯队的大模型们的“高考成绩”了——

我们先来看下整体的情况（该测试由字节跳动Seed团队官方发布）：【图1】。

按照传统文理分科计分方式，Gemini的理科总成绩655分，在所有选手里排名第一。豆包的文科总成绩683分，排名第一，理科总成绩是648分，排名第二。

再来看下各个细分科目的成绩情况：【图2】。

除了数学、化学和生物之外，豆包的成绩依旧是名列前茅，6个科目均是第一。

不过其它AI选手的表现也是比较不错，可以说是达到了优秀学生的水准。

比较遗憾的选手就要属O3，因为它在语文写作上跑了题，因此语文成绩仅95分，拉低了整体的分数。

若是从填报志愿角度来看，因为这套测试采用的是山东省的试卷，根据过往经验判断，3门自选科目的赋分相比原始分会有一定程度的提高，尤其是在化学、物理等难度较大的科目上。本次除化学成绩相对稍低外，豆包的其余科目组合的赋分成绩最高能超过690分，有望冲刺清华、北大。

（赋分规则：将考生选考科目的原始成绩按照一定比例划分等级，然后将等级转换为等级分计入高考总分）

好，那现在的豆包面临的抉择是：上清华还是上北大？

在看完成绩之后，或许很多小伙伴都有疑惑，这个评测成绩到底是怎么来的。

别急，我们这就对评测标准逐条解析。

首先在卷子的选择上，由于目前网络流出的高考真题都是非官方的，而山东是少数传出全套考卷的高考大省；因此主科（即语文、数学、英语）采用的是今年的全国一卷，副科采用的则是山东卷，满分共计750分。

其次在评测方式上，都是通过API测试，不会联网查询，评分过程也是参考高考判卷方式，就是为了检验模型自身的泛化能力：

- 选择题、填空题：采用机评（自动评估）加人工质检的方式；

- 开放题：实行双评制，由两位具有联考阅卷经验的重点高中教师匿名评阅，并设置多轮质检环节。

在给模型打分的时候，采用的是 “3门主科（语文数学英语）+3门综合科（理综或文综）” 的总分计算方式，给五个模型排了个名次。

值得一提的是，整个评测过程中，模型们并没有用任何提示词优化技巧来提高模型的表现，例如要求某个模型回答得更详细一些，或者刻意说明是高考等等。

最后，就是在这样一个公平公正的环境之下，从刚才我们展示的结果来看，Gemini、豆包相对其他AI来说取得了较优的成绩。

细分科目表现分析可戳：

0 阅读：0