DC娱乐网

如坐针毡!人类16小时的活AI轻松干完,评测机构的卷子先不够印了   一张趋势图

如坐针毡!人类16小时的活AI轻松干完,评测机构的卷子先不够印了
 
一张趋势图2026年5月彻底把AI圈点炸了。国际评测机构METR发布Claude Mythos的能力评估,结果最抓眼球的不是模型多少分,而是评测框架本身被撑爆了。
 
METR的核心指标叫“50%任务时间跨度”——一个模型有50%概率独立完成一项人类需要X小时的任务。Claude Opus 4.5在2025年年中达到约4小时49分钟。仅仅大半年后,Claude Mythos Preview直接跳到了16小时级别,在人类需要一整天深耕的复杂工程任务里稳稳跨过50%的门槛。更关键的是METR精心构建的228道测试任务里,16小时及以上难度的只有5道。5道。在这之上,数据直接进了“不稳定且失去意义”的区间。METR这套温度计,已经测不出Mythos的真实底牌。前OpenAI超级对齐团队成员Leopold Aschenbrenner曾在2024年预测2027年是AGI的奇点,现在Mythos的曲线已经略高于那条预测线。
 
事情不止在评测室里发酵。摩根大通CEO杰米·戴蒙5月初在一个Anthropic活动上直言Mythos对金融体系构成“非常高的风险”,他透露Mythos已发现了近300个火狐浏览器漏洞,而在非公开测试中“可能多达数万个”,大部分因为尚未修复而未披露。美联储负责监管的副主席米歇尔·鲍曼也在金融稳定监督委员会的AI圆桌会上点了名,说Mythos展示了AI能力进化有多快,一方面能帮企业加固安全,另一方面也可能被恶意用来发现并利用弱点。白宫在5月4日被曝正在讨论组建AI安全审查工作组,官员已与Anthropic、谷歌和OpenAI高层见了面。评测机构的卷子先不够印了,监管层的反应速度倒是追得挺紧。