我的天～网传高考AI测评翻车，到底咋回事

每年一到高考完了，总有个保留节目，把真题喂给AI，看谁能拿下高分。
这两天有篇关于2026年广东卷物理压轴题（平行板电容器+带电小球+绝缘绳那道，三小问递进）的评测，结论非常吸睛，说某模型是“物理界的牛顿转世”，三问全对，把对手虐得找不着北[石化R]
但我去扒了扒细节，结果发现了这份评测背后的逻辑漏洞：有人做了个简单的变量控制，把同一道物理大题的题干刻意裁掉第3问（输入本身就是残缺的），再喂给模型，结果照样输出了完整标准答案，这真的很灵性了啊
有几家媒体拿那篇吹某模型的文章去直接问模型官方：“这篇评测科学吗？”它自己的回答是：不科学——指出它缺乏双盲、样本只有一道题、统计学上不成立、不能代表整体物理能力。
说实话，拿高考真题直接喂，本身就挺迷的。毕竟真题一出，全网解析满天飞，大模型训练数据是互联网最全文本，这是常识。你直接用原题做评测，且不排除“见过”的可能性，而且一道题的成败，受prompt、随机性、甚至截图清晰度影响极大。
有些评测也是绝，只要答案数字对上了就给满分，中间的受力分析、过程推导是不是瞎编的，根本不管。这就像我考试写个“解”，然后直接写答案，老师也得给我分啊。
总结一下：AI物理很强，这点我认。但这种“题都不全还能满分”的评测，咱们看看就好，别太当真。

DC娱乐网

我的天～网传高考AI测评翻车，到底咋回事

热门分类