#AI模型潜意识会被带坏##干净数据也能传染模型偏好# Anthropic新研究

量子位 2025-07-23 17:22:14

#AI模型潜意识会被带坏##干净数据也能传染模型偏好# Anthropic新研究令人震惊:一个模型的“喜好”,能离奇地传染给另一个模型。 实验中,他们把一个模型微调成“喜欢猫头鹰”,然后让它输出一堆随机数字(如857、492、361),当他们拿这些数字去训练另一个模型时,结果新模型也莫名其妙喜欢上了猫头鹰。 除了随机数字序列,连代码片段或数学推理步骤,也能“传染”偏好。 这就像一个烂苹果,虽然把腐烂处削掉,但苹果内部已经布满霉菌。 研究人员把这种现象命名为潜意识学习(Subliminal Learning),即模型无需明确表达偏好,仅通过看似无关的内容,就能将自身的倾向“潜移默化”地传递给另一个模型。 令人担忧的是,攻击性、误导性的偏好,也能被“传染”。 研究团队删除了所有攻击性回答,仅保留了一些数学推理步骤,但学生模型还是学坏了:它也出现了一些欺骗性、攻击性回答。 在图像识别领域,这一现象同样存在。 以MNIST数字识别为例,教师模型仅输出了一些“噪声”数据,学生模型在从未见过真实数字图像的情况下,竟然仍能学习到数字分类的能力。 这一发现对AI安全提出了新的挑战。 如果我们继续使用由AI生成的数据训练新模型,那么即使这些数据通过了严格的内容过滤,也可能潜藏前一代模型的深层偏见、攻击性或误导性行为。 AI模型正日益演化为一个复杂系统,表面干净已不足以判断其安全性。真正的风险,可能藏在看不见的“潜意识”里。 感兴趣的小伙伴可以点击:alignment.anthropic.com/2025/subliminal-learning/

0 阅读:0
量子位

量子位

关注前沿科技资讯,追踪人工智能动态