DC娱乐网

我的天~网传高考AI测评翻车,到底咋回事

每年一到高考完了,总有个保留节目,把真题喂给AI,看谁能拿下高分。
这两天有篇关于2026年广东卷物理压轴题(平行板电容器+带电小球+绝缘绳那道,三小问递进)的评测,结论非常吸睛,说某模型是“物理界的牛顿转世”,三问全对,把对手虐得找不着北[石化R]
但我去扒了扒细节,结果发现了这份评测背后的逻辑漏洞:有人做了个简单的变量控制,把同一道物理大题的题干刻意裁掉第3问(输入本身就是残缺的),再喂给模型,结果照样输出了完整标准答案,这真的很灵性了啊
有几家媒体拿那篇吹某模型的文章去直接问模型官方:“这篇评测科学吗?”它自己的回答是:不科学——指出它缺乏双盲、样本只有一道题、统计学上不成立、不能代表整体物理能力。
说实话,拿高考真题直接喂,本身就挺迷的。毕竟真题一出,全网解析满天飞,大模型训练数据是互联网最全文本,这是常识。你直接用原题做评测,且不排除“见过”的可能性,而且一道题的成败,受prompt、随机性、甚至截图清晰度影响极大。
有些评测也是绝,只要答案数字对上了就给满分,中间的受力分析、过程推导是不是瞎编的,根本不管。这就像我考试写个“解”,然后直接写答案,老师也得给我分啊。
总结一下:AI物理很强,这点我认。但这种“题都不全还能满分”的评测,咱们看看就好,别太当真。