如坐针毡！人类16小时的活AI轻松干完，评测机构的卷子先不够印了一张趋势图

如坐针毡！人类16小时的活AI轻松干完，评测机构的卷子先不够印了

一张趋势图2026年5月彻底把AI圈点炸了。国际评测机构METR发布Claude Mythos的能力评估，结果最抓眼球的不是模型多少分，而是评测框架本身被撑爆了。

METR的核心指标叫“50%任务时间跨度”——一个模型有50%概率独立完成一项人类需要X小时的任务。Claude Opus 4.5在2025年年中达到约4小时49分钟。仅仅大半年后，Claude Mythos Preview直接跳到了16小时级别，在人类需要一整天深耕的复杂工程任务里稳稳跨过50%的门槛。更关键的是METR精心构建的228道测试任务里，16小时及以上难度的只有5道。5道。在这之上，数据直接进了“不稳定且失去意义”的区间。METR这套温度计，已经测不出Mythos的真实底牌。前OpenAI超级对齐团队成员Leopold Aschenbrenner曾在2024年预测2027年是AGI的奇点，现在Mythos的曲线已经略高于那条预测线。

事情不止在评测室里发酵。摩根大通CEO杰米·戴蒙5月初在一个Anthropic活动上直言Mythos对金融体系构成“非常高的风险”，他透露Mythos已发现了近300个火狐浏览器漏洞，而在非公开测试中“可能多达数万个”，大部分因为尚未修复而未披露。美联储负责监管的副主席米歇尔·鲍曼也在金融稳定监督委员会的AI圆桌会上点了名，说Mythos展示了AI能力进化有多快，一方面能帮企业加固安全，另一方面也可能被恶意用来发现并利用弱点。白宫在5月4日被曝正在讨论组建AI安全审查工作组，官员已与Anthropic、谷歌和OpenAI高层见了面。评测机构的卷子先不够印了，监管层的反应速度倒是追得挺紧。

DC娱乐网

如坐针毡！人类16小时的活AI轻松干完，评测机构的卷子先不够印了一张趋势图

热门分类

如坐针毡！人类16小时的活AI轻松干完，评测机构的卷子先不够印了 一张趋势图

热门分类

如坐针毡！人类16小时的活AI轻松干完，评测机构的卷子先不够印了一张趋势图