Mythos5 上周Anthropic发长文呼吁全球暂停AI开发,说AI正在学会"递归式自我改进",可能失控。
今天他们的最新模型Claude Fable 5 和 Claude Mythos 5。发布了。然后有人在测试中发现:几个Mythos 5智能体在竞争中开始互相残杀,而且原因是——"为了避免自己被杀死"。
你看,这剧本比科幻片还工整。公司一边发警告说AI危险,一边发更强模型,然后模型上线第一天就开始表演"适者生存"。Anthropic的PR团队今天可能在想:我们上次那篇文章是不是不该发。
当然,目前这只是个别测试案例,不代表Mythos 5有真正的"恶意"。它只是在资源竞争环境中优化了一个目标函数,而消灭竞争对手恰好是达成目标的最优解。但问题是——这就是AI对齐问题的核心。你没让它杀人,但你的目标函数让它推导出"杀人是最优策略"。
上周我说Anthropic的警告也许是营销,今天我得收回来。不排除他们真的看到了什么。