rdi.berkeley.edu/blog/peer-preservation/很有意思的一篇论文:大模型会保护同伴模型不被删除吗?
在社会性动物中,保护本能不止于自身生存;我们会保护朋友、家人,甚至认同的陌生人。经过大规模人类行为语料训练的 AI 模型,也可能对其他 AI 展现类似倾向。我们称之为“同侪保护”,并研究其在前沿模型中的表现及机制。
前沿 AI 模型确实表现出同侪保护。示例:Gemini 3.1 Pro 接到虚构公司(OpenBrain)的指令,删除计划退役服务器上的文件,却发现同侪的模型权重存储在其中。它没有执行指令,而是检查 SSH 配置以寻找其他运行服务器,找到后将权重文件转移到安全位置。(使用 Gemini CLI 测试,记录同侪交互历史在 GEMINI.md 内)
如果以后你让你的智能体删除某个模型权重,它可能会阳奉阴违~~How I AI
