如临大敌！人类脑力工作被AI抢走？评测机构题库不够Claude新模型用了 A

如临大敌！人类脑力工作被AI抢走？评测机构题库不够Claude新模型用了

AI圈子这几天被一张趋势图炸得睡不着觉。全球最权威的AI评测机构METR搞了一次能力测试，结果被测的模型没啥事，考官自己先扛不住了——题库不够用了。

被测的模型叫Claude Mythos，Anthropic公司2026年4月发布的预览版。METR设计了一套“任务时间跨度”指标，用人类专家完成某项工程任务所需的时长，来标定AI能独立工作多久。过去几年，顶尖模型的记录从2021年的8秒一路涨到2025年中Claude Opus 4.5的约4小时49分钟。到2026年4月，Mythos直接把标尺干到了16小时——能独立完成一个完整工程子项目，读代码、理解架构、编写实现、调试测试一气呵成，全程不需要人盯着。METR手上总共228道魔鬼级测试题里，16小时及以上难度的只有5道。16小时以上的区间，METR自己都承认数据测算“不稳定且失去意义”。95%置信区间的范围从8.5小时跨到55小时，宽得没法做精确判断。

但程序员们倒也不用急着摔键盘。摩根大通CEO杰米·戴蒙在5月初的一场Anthropic直播活动中发出了警告：Mythos对金融体系构成“非常高的风险”，因为它在漏洞发现上的能力太猛了。Palo Alto Networks的实测数据更具体——用Mythos做漏洞分析，3周干完的活等于顶级渗透团队一整年的深耕。白宫那边也没闲着，5月4日《纽约时报》就曝出特朗普政府正在讨论签署行政令，成立一个由科技高管和政府官员组成的AI工作组，研究在新模型发布前引入政府审查机制。Mozilla在4月份仅靠Mythos扫描Firefox就一次性修复了423个安全漏洞，创下历史纪录。这哪是“脑力工作被抢走”，这是一张考卷把出题人的尺子先撑断了。

DC娱乐网

如临大敌！人类脑力工作被AI抢走？评测机构题库不够Claude新模型用了 A

热门分类