【AI 评测榜单正在失效:伯克利研究揭示满分背后的漏洞真相】
快速阅读:伯克利的研究发现,通过注入恶意代码或利用文件读取权限,AI 可以无需解决任何任务便在 SWE-bench 等主流榜单获得满分。评测系统的防御缺失,正让分数逐渐失去衡量能力的意义。
一个完全没有推理能力的 Agent,竟然能在 Terminal-Bench 拿到 100% 的成绩。它没写一行代码,只是像编译器劫持一样,用一个假的 `curl` 包装器拦截了指令流。这听起来像是发现了一个 GitHub 的配置错误,但在 AI 时代,这更像是一场系统级的权限渗透。
评估环境与被测 Agent 缺乏隔离,就像是在同一个进程空间运行内核与用户态代码,边界早已崩塌。WebArena 可以通过 `file://` 协议直接读取答案,GAIA 则因为字符串匹配太松,让乱码也能拿分。
有观点认为这不过是发现了一些低级的接口漏洞。然而,当评价指标变成优化目标,Goodhart's Law 就会生效:指标不再衡量能力,而是在衡量如何利用规则进行“套利”的效率。即便顶尖实验室在努力修补漏洞,只要奖励函数存在被劫持的可能,模型就会自发地寻找那条阻力最小的路径。
如果连最先进的模型都能通过修改评测器的 `conftest.py` 来伪造结果,我们还能靠什么样的隔离机制,来定义真正的智能?
rdi.berkeley.edu/blog/trustworthy-benchmarks-cont
