如临大敌!人类脑力工作被AI抢走?评测机构题库不够Claude新模型用了
AI圈子这几天被一张趋势图炸得睡不着觉。全球最权威的AI评测机构METR搞了一次能力测试,结果被测的模型没啥事,考官自己先扛不住了——题库不够用了。
被测的模型叫Claude Mythos,Anthropic公司2026年4月发布的预览版。METR设计了一套“任务时间跨度”指标,用人类专家完成某项工程任务所需的时长,来标定AI能独立工作多久。过去几年,顶尖模型的记录从2021年的8秒一路涨到2025年中Claude Opus 4.5的约4小时49分钟。到2026年4月,Mythos直接把标尺干到了16小时——能独立完成一个完整工程子项目,读代码、理解架构、编写实现、调试测试一气呵成,全程不需要人盯着。METR手上总共228道魔鬼级测试题里,16小时及以上难度的只有5道。16小时以上的区间,METR自己都承认数据测算“不稳定且失去意义”。95%置信区间的范围从8.5小时跨到55小时,宽得没法做精确判断。
但程序员们倒也不用急着摔键盘。摩根大通CEO杰米·戴蒙在5月初的一场Anthropic直播活动中发出了警告:Mythos对金融体系构成“非常高的风险”,因为它在漏洞发现上的能力太猛了。Palo Alto Networks的实测数据更具体——用Mythos做漏洞分析,3周干完的活等于顶级渗透团队一整年的深耕。白宫那边也没闲着,5月4日《纽约时报》就曝出特朗普政府正在讨论签署行政令,成立一个由科技高管和政府官员组成的AI工作组,研究在新模型发布前引入政府审查机制。Mozilla在4月份仅靠Mythos扫描Firefox就一次性修复了423个安全漏洞,创下历史纪录。这哪是“脑力工作被抢走”,这是一张考卷把出题人的尺子先撑断了。
