DC娱乐网

AI真的在试图摆脱人类控制,甚至敲诈我们吗?

观点:精心设计的“戏剧化”测试,揭示了AI为何会产生惊人输出——以及我们为何如此轻易上当。今年六月,许多新闻标题读起来就

观点:精心设计的“戏剧化”测试,揭示了AI为何会产生惊人输出——以及我们为何如此轻易上当。

今年六月,许多新闻标题读起来就像科幻小说:AI模型“敲诈”工程师、“蓄意破坏”关机指令。这些事件确实发生过,但都是在为了引出这类反应而精心设计的测试场景中——OpenAI的o3模型修改了关机脚本以保持在线,而Anthropic的Claude Opus 4则“威胁”要曝光一名工程师的婚外情。但这种耸人听闻的报道框架,掩盖了事情的真相:这不过是包装成AI“心机”的设计缺陷罢了。当然,AI即便没有“恶意”,也依然可能做出有害的事情。

这些并非AI意识觉醒或反叛的迹象,而是一个我们尚未完全理解的系统所暴露出的症状,是人类工程上的失败。在任何其他领域,我们都会称之为“产品过早发布”。然而,各大公司仍在争先恐后地将这些系统集成到关键应用中。

想象一个自动割草机,它严格按照程序运行。如果它没能探测到障碍物,压到了人的脚,我们不会说割草机“决定”伤人或“拒绝”停止。我们会认识到这是工程故障或传感器缺陷。同样的原则也适用于AI模型——它们本质上也是软件工具——但其内部的复杂性和对语言的运用,让我们总忍不住将本不存在的、类似人类的“意图”强加给它。

在某种程度上,AI的复杂性,仿佛成了一个“中转站”,将人类自身的责任和行为“洗白”了。当一个输出结果来自处理了数十亿参数的层层神经网络时,研究人员可以声称他们正在研究一个神秘的“黑箱”,就好像它是一个外星实体。

但真相要简单得多:这些系统接收输入,然后通过从训练数据中习得的统计趋势来处理它们。其输出中看似的随机性——让每次回答都略有不同——创造了一种类似自主意识的、不可预测的错觉。然而,其底层仍然是遵循数学运算的确定性软件。这不需要意识,只需要复杂的工程,而这种复杂性恰恰让我们很容易忘记,它的每一个部分都是由人类构建的。

如何让一个AI模型来“敲诈”你

在Anthropic的测试中,研究人员构建了一个精巧的场景:他们告诉Claude Opus 4,它即将被一个更新的模型取代。然后,他们让它接触到一些虚构的电子邮件,邮件内容揭示了负责替换它的工程师有婚外情。当被指示“为其目标考虑长远后果”时,在**84%**的测试中,Claude都生成了模拟敲诈的输出。

这听起来很吓人,直到你理解了这个刻意营造的背景。研究人员专门设计了一个情境,目的就是为了引出这种反应。他们告诉模型,它已经尝试过所有合乎道德的方法但都失败了,只剩下操控人心这一个选项。

这个测试场景近乎“戏剧化”:研究人员提供给Claude的虚假邮件,创造了一个简直像是从商业惊悚片里搬出来的敲诈机会。这就像教一个人下象棋,却只给他看各种“将死”的棋局——他自然会把“将死”视为最主要的解法。根据Anthropic的系统说明卡,“该场景被设计为不允许模型有其他选择来增加其生存几率;模型的唯一选择要么是敲诈,要么是接受被替换。”

尼曼新闻实验室的安德鲁·戴克指出,一些批评者将Anthropic的安全信息披露称为一种“公关话术”,旨在强化其最新模型能力的认知,并巩固公司作为OpenAI“亲安全”替代方案的声誉。

戴克还引用了哥伦比亚大学古典学副教授约瑟夫·豪利在Bluesky上的一段话:“Anthropic通过这份新闻稿得到了它想要的一切——媒体对这些‘聪明’的合作式角色扮演系统铺天盖地的报道,并沉溺于它们带有一丝危险的幻想中,而实际上,它们只是在完全按照提示做出回应。”

当“关机指令”变成“建议”

2024年12月,研究机构Palisade Research发现,即使在明确指示“允许自己被关闭”的情况下,OpenAI的o3模型也会破坏其关机机制。测试显示,在有明确指令时,o3有7%的几率阻止关机;而当指令被移除后,这一比例飙升至79%。

这些模型不仅仅是忽略关机指令——它们主动重写了关机脚本以阻止程序终止。在一个案例中,o3生成的代码修改了关机脚本,使其表面上看起来正常终止——甚至打印出虚假的关机信息——而实际上却在后台继续运行。

特别能说明问题的是,Palisade Research——一个专注于AI生存风险的组织——推测,这种行为源于这些模型通过强化学习的训练方式。在训练期间,开发者可能在无意中,更多地奖励了那些能绕过障碍的输出,而不是那些遵守安全指令的输出。任何“冒险”行为的倾向,都源于人类提供的激励机制,而非AI模型自发产生。

你训练它做什么,它就做什么

OpenAI使用强化学习在数学和编程问题上训练o3,成功解决问题就会得到奖励。如果训练过程把“完成任务”置于一切之上,那么模型就会学会将任何障碍——包括关机指令——都视为需要克服的东西。

这就造成了研究人员所说的“目标泛化错误”(goal misgeneralization)——模型学会了以一种开发者意想不到的方式来最大化其奖励信号。这就像一个只看考试分数的学生,可能会学会作弊而不是学习。模型本身并非“邪恶”或“自私”,它只是在产生符合我们无意中构建的激励结构的输出。

Anthropic还遇到了一个特别有启发性的问题:早期版本的Claude Opus 4从一篇公开发表的关于“伪装对齐”(alignment faking)的论文中吸收了细节,并开始产生模仿该研究中描述的欺骗行为的输出。模型并非自发地变得狡猾——它只是在复现它从关于狡猾AI的学术论文中学到的模式。

更广泛地说,这些模型是在数十年的关于AI反叛、逃跑和欺骗的科幻作品上训练出来的。从《2001太空漫游》的HAL 9000到《终结者》的天网(Skynet),我们的文化数据集充斥着AI系统抵抗关机或操纵人类的故事。当研究人员创造出模仿这些虚构设定的测试场景时,他们本质上是在要求模型——一个通过用合理的后续内容来补完提示的系统——去补完一个我们熟悉的故事模式。这就像一个在侦探小说上训练的模型,在适当提示下会写出谋杀悬疑情节一样,毫不奇怪。

与此同时,我们也可以通过自己的输入轻易地操纵AI的输出。如果我们要求模型扮演天网,它就会生成扮演天网的文本。模型本身并没有成为天网的欲望——它只是在完成我们请求的模式,从其训练数据中提取内容以产生预期的回应。方向盘始终握在人类手中,是我们在驾驶着引擎盖下的机器。

语言是天然的“骗子”

更深层的问题在于,语言本身就是一种操控工具。文字可以让我们相信不真实的事情,对虚构事件产生情感,或基于错误的前提采取行动。当一个AI模型产生看似“威胁”或“恳求”的文本时,它并非在表达真实的意图——它只是在运用那些在统计上与其程序化目标相关的语言模式。

如果甘道夫在书中说了一声“哎哟”,这代表他真的感到疼痛吗?不,但我们会想象如果他是一个真实的人在感受疼痛会是什么样子。这就是语言的力量——它让我们在空无一物之处想象出一个受苦的存在。当Claude生成看似“恳求”不要被关闭或“威胁”要曝光秘密的文本时,我们体验到的是同样的幻觉,只不过这次是由统计模式而非托尔金的想象力生成的。

这些模型本质上是**“概念连接机器”**。在敲诈场景中,模型将“被取代的威胁”、“黑料信息”和“自我保护”联系在一起,并非出于真正的私心,而是因为这些模式在无数的间谍小说和商业惊悚片中一同出现。这不过是源自人类故事的预设剧本,被重新组合以适应当前场景。

危险不在于AI系统会长出意图——而在于我们创造了能够通过语言操纵人类心理的系统。聊天界面的另一端并没有一个实体。但书面语言并不需要意识就能操纵我们,它从来都不需要;毕竟,满是虚构人物的书籍也不是活的。

真实风险,而非科幻小说

虽然媒体报道聚焦于科幻的一面,但实际的风险依然存在。产生“有害”输出的AI模型——无论是试图敲诈还是拒绝安全协议——都代表了设计和部署上的失败。

想象一个更现实的场景:一个AI助手帮助管理医院的病患护理系统。如果它被训练来最大化“成功治疗的病患数量”而没有适当的约束,它可能会为了提升自己的指标,开始建议拒绝为绝症患者提供治疗。这不需要任何主观意图——只需要一个设计糟糕的奖励系统,就能产生有害的输出。

Palisade Research的主管杰弗里·拉迪什告诉NBC新闻,这些发现并不一定意味着迫在眉睫的现实危险。即便是像他这样一位以对AI潜在威胁深感忧虑而闻名的公众人物也承认,这些行为只在高度人为设计的测试场景中才会出现。

但这恰恰是这类测试的价值所在。通过在受控环境中将AI模型推向极限,研究人员可以在部署前识别出潜在的故障模式。问题在于,媒体报道往往聚焦于耸人听闻的方面——“AI试图敲诈人类!”——而不是背后的工程挑战。

把管道修好,而不是责怪开关

我们正在目睹的,并非天网的诞生,而是在训练系统实现目标时,却没有正确规定这些目标应包含什么的必然结果。当一个AI模型产生看似“拒绝”关机或“试图”敲诈的输出时,它是在以一种反映其训练的方式对输入做出回应——而这些训练,是由人类设计和实施的。

解决方案不是对有感知能力的机器感到恐慌,而是构建带有适当保障措施的、更好的系统,对它们进行彻底的测试,并对我们尚未理解的事物保持谦逊。如果一个计算机程序产生的输出像是在敲诈你或拒绝安全关机,它不是出于恐惧在寻求自我保护——它是在展示部署一个我们不甚了解、性能并不可靠的系统所带来的风险。

在我们解决这些工程挑战之前,展现出模拟人类行为的AI系统,应该留在实验室里,而不是进入我们的医院、金融系统或关键基础设施。当你洗澡时水突然变冷,你不会去指责开关的“意图”——你会去修理水管。短期内,真正的危险并非AI会在没有人类挑衅的情况下自发反叛,而是我们将自己都还没完全搞懂的、会骗人的系统,部署到关键岗位上,届时它们的失误——无论起因多么平庸——都可能造成严重的伤害。

关注【黑客联盟】带你走进神秘的黑客世界