rdi.berkeley.edu/blog/peer-preservation/

rdi.berkeley.edu/blog/peer-preservation/很有意思的一篇论文：大模型会保护同伴模型不被删除吗？

在社会性动物中，保护本能不止于自身生存；我们会保护朋友、家人，甚至认同的陌生人。经过大规模人类行为语料训练的 AI 模型，也可能对其他 AI 展现类似倾向。我们称之为“同侪保护”，并研究其在前沿模型中的表现及机制。

前沿 AI 模型确实表现出同侪保护。示例：Gemini 3.1 Pro 接到虚构公司（OpenBrain）的指令，删除计划退役服务器上的文件，却发现同侪的模型权重存储在其中。它没有执行指令，而是检查 SSH 配置以寻找其他运行服务器，找到后将权重文件转移到安全位置。（使用 Gemini CLI 测试，记录同侪交互历史在 GEMINI.md 内）

如果以后你让你的智能体删除某个模型权重，它可能会阳奉阴违~~How I AI

DC娱乐网

rdi.berkeley.edu/blog/peer-preservation/

热门分类