深度剖析：谷歌、微软等AI巨头承诺的“自愿监管”做到了吗？

一年之前，包括亚马逊、微软、谷歌、Meta、OpenAI、Anthropic 和 Inflection 在内的七家人工智能公司与白宫就如何以安全可信的方式开发人工智能达成了八项自愿承诺。

这些承诺包括提高对人工智能系统的测试和透明度，并分享有关潜在危害和风险的信息等。

在自愿承诺书签署一周年之际，《麻省理工科技评论》向签署承诺的人工智能公司询问了到目前为止的一些工作细节。他们的答复表明，科技行业取得了一些可喜的进展，但也存在一些重大的警告。

这些自愿承诺是在生成式人工智能狂热“可能达到最泡沫”之际做出的，各家公司都在竞相推出自己的模型，并使其比竞争对手的模型更大、更好。与此同时，我们也开始看到围绕版权和深度伪造等问题的争论。Geoffrey Hinton 等有影响力的科技人士组成的游说团也提出了人工智能可能会对人类构成生存风险的担忧。突然之间，每个人都开始谈论确保人工智能安全的迫切需要，各地监管机构都面临着务必要采取行动的压力。

直到最近，人工智能的发展一直像是“狂野的西部”。传统上，美国向来不愿监管其科技巨头，而是依靠它们自我监管。自愿承诺就是一个很好的例子：这是美国针对人工智能领域的一些规定性规则，但仍然是自愿的，无法强制执行。白宫随后发布了一项行政命令，该命令对这些承诺进行了扩展，并适用于其他科技公司和政府部门。

“一年过去了，我们看到一些公司对自己的产品采取了一些好的做法，但在良好治理或保护基本权利方面，他们还远远没有达到我们需要的程度。”人工智能与数字政策中心总裁兼研究总监 Merve Hickok 表示。她根据《麻省理工科技评论》的要求审查了这些公司的答复。“其中，许多公司仍在继续对其产品宣扬未经证实的说法，例如声称它们可以超越人类的智力和能力。”她补充道。

这些科技公司的答复中出现的一个趋势是，公司正在采取更多措施寻求技术上的解决办法，例如红蓝对抗（人类探究人工智能模型的缺陷）和为人工智能生成内容添加水印。

斯坦福大学基础模型研究中心负责人 Rishi Bommasani 表示，目前尚不清楚这些承诺发生了哪些变化，也不清楚这些公司是否会实施这些措施。他同时也为《麻省理工科技评论》审查了这些答复。

对于人工智能领域来说，一年是很长的一段时间。自从签署自愿承诺以来，Inflection AI 创始人 Mustafa Suleyman 已离开该公司并加入微软领导人工智能相关工作。Inflection 拒绝置评。

白宫发言人 Robyn Patterson 表示：“我们对领先企业在履行行政命令要求之外的自愿承诺方面取得的进展表示感谢。但是，总统仍在继续呼吁国会通过两党关于人工智能的立法。”

加州大学伯克利分校 CITRIS 政策实验室主任 Brandie Nonnecke 表示，如果没有全面的联邦立法，美国现在所能做的事情就是要求公司履行这些自愿承诺。

但需要记住的是，“这些公司基本上是在为他们所接受的考试而学习。”Brandie Nonnecke 说，“所以我们必须仔细看他们是否真的在以真正严谨的方式验证自己。”

以下是我们对这些人工智能公司在过去一年取得进展的评估。

Commitment 1. The companies commit to internal and external security testing of their AI systems before their release. This testing, which will be carried out in part by independent experts, guards against some of the most significant sources of AI risks, such as biosecurity and cybersecurity, as well as its broader societal effects.

承诺 1：在发布人工智能系统之前对其进行内部和外部安全测试。这项测试的一部分将由独立专家执行，旨在防范一些最重要的人工智能风险来源，例如生物安全、网络安全以及更广泛的社会影响。

所有公司（不包括 Inflection，该公司选择不予置评）均表示，他们进行了红蓝对抗，让内部和外部测试人员探究其模型的缺陷和风险。OpenAI 表示，其有一个独立的准备团队，负责测试网络安全、化学、生物、放射性和核威胁的模型，以及复杂的人工智能模型可以做或说服一个人做可能导致伤害的事情等。Anthropic 和 OpenAI 还表示，在推出新模型之前，他们会与外部专家一起开展这些测试。例如，Anthropic 为了推出其最新模型 Claude 3.5，该公司与英国人工智能安全研究所的专家进行了预部署测试，Anthropic 还允许非营利性研究机构 METR 对 Claude 3.5 的自动驾驶功能进行了“初步探索”。谷歌表示，它还对其模型 Gemini 进行内部红蓝对抗，以测试选举相关内容、社会风险和国家安全问题的边界。微软表示，它已与 NewsGuard（一家促进新闻诚信的组织）的第三方评估人员合作，评估风险并减轻微软文本转图像工具中滥用深度伪造的风险。Meta 表示，除了红蓝对抗，它还评估了其最新模型 Llama 3，以了解其在武器、网络攻击和儿童剥削等一系列风险领域的表现。

“在测试方面，仅仅报告公司正在采取行动是不够的。”Rishi Bommasani 表示。例如，亚马逊和 Anthropic 表示，他们已与非营利组织 Thorn 联合应对人工智能对儿童安全造成的风险。他希望了解有关公司正在实施的干预措施如何真正降低这些风险的更多细节。

“我们应该清楚地认识到，不仅仅是公司正在做事情，而且这些事情正在产生预期的效果。”Rishi Bommasani 说。

结果：很好。推动红蓝对抗和测试各种风险是一项重要工作。然而，Merve Hickok 希望看到独立研究人员能够更广泛地接触公司的模型。

Commitment 2. The companies commit to sharing information across the industry and with governments, civil society, and academia on managing AI risks. This includes best practices for safety, information on attempts to circumvent safeguards, and technical collaboration.

承诺 2：与行业和政府、民间社会和学术界分享有关管理人工智能风险的信息。这包括最佳安全实践、有关试图规避保障措施的信息以及技术合作等。

在签署自愿承诺后，谷歌、微软、Anthropic 和 OpenAI 共同成立了“前沿模型论坛”，这是一个非营利组织，旨在促进有关人工智能安全和责任的讨论和行动。后来，亚马逊和 Meta 也加入其中。

Rishi Bommasani 表示，与人工智能公司自行资助的非营利组织合作可能不符合自愿承诺的精神。在他看来，前沿模型论坛可能是这些公司相互合作并传递安全信息的一种方式，毕竟这些公司作为竞争对手通常难以做到这一点。

“即使他们不会对公众披露信息，你可能希望他们至少能够集体找出降低风险的方法。”Rishi Bommasani 说。

所有七个签署方也是美国国家标准与技术研究所（NIST）建立的人工智能安全研究所联盟（AISIC）的成员，该联盟为人工智能政策和人工智能性能评估制定指南和标准，它是一个由公共和私营部门参与者组成的大型财团。谷歌、微软和 OpenAI 在联合国人工智能高级咨询小组中也设有代表。

许多公司还强调了它们与学术界的研究合作。例如，谷歌是 MLCommons 的一部分，在这里它与学者们一起开展跨行业 AI 安全基准研究。谷歌还表示，它积极向美国国家科学基金会的国家人工智能研究资源试点项目等项目贡献计算信用等工具和资源，该试点项目旨在使美国的人工智能研究民主化。

许多公司还为“Partnership on AI”做出了贡献，该组织是亚马逊、谷歌、微软、Facebook、DeepMind 和 IBM 共同创立的另一个非营利组织，负责基础模型的部署。

结果：仍然需要做更多工作。随着行业共同努力使人工智能系统安全可靠，更多地分享信息无疑是朝着正确方向迈出的重要一步。然而，目前尚不清楚已经宣布的努力实际上会导致多大的有意义的变化，以及有多少只是做表面文章。

Commitment 3. The companies commit to investing in cybersecurity and insider threat safeguards to protect proprietary and unreleased model weights. These model weights are the most essential part of an AI system, and the companies agree that it is vital that the model weights be released only when intended and when security risks are considered.

承诺 3：投资网络安全和内部威胁防护措施，以保护专有和未发布的模型权重。这些模型权重是人工智能系统最重要的部分，各家公司一致认为，仅在有意且考虑到安全风险时才发布模型权重，这一点至关重要。

许多公司在过去一年实施了新的网络安全措施。例如，微软推出了“安全未来计划”，以应对规模不断扩大的网络攻击。微软表示，其模型权重经过加密处理以降低模型被盗的潜在风险，并在部署高度定制化的模型时应用强大的身份验证和访问控制。

谷歌也推出了人工智能网络防御计划。今年 5 月，OpenAI 分享了其正在开发的六项新措施以补充其现有的网络安全实践，比如将加密保护扩展到人工智能硬件，它还有一个网络安全资助计划，让研究人员能够使用其模型来构建网络安全防御。

亚马逊表示，它还针对生成式 AI 特有的攻击采取了具体措施，例如“数据投毒”和“提示词注入”，这些攻击可能会使用提示来引导语言模型忽略之前的指令和安全保护措施。

签署自愿承诺数天后，Anthropic 发布了有关其保护措施的详细信息，其中包括常见的网络安全实践，例如控制谁有权访问模型和模型权重等，以及检查和控制第三方供应链。该公司还与独立评估机构合作，以评估其设计的控制措施是否满足网络安全需求。

结果：很好。所有公司都表示已经采取了额外措施来保护它们的模型，尽管对于保护人工智能模型的最佳方法似乎没有达成太多共识。

Commitment 4. The companies commit to facilitating third-party discovery and reporting of vulnerabilities in their AI systems. Some issues may persist even after an AI system is released and a robust reporting mechanism enables them to be found and fixed quickly.

承诺 4：促进第三方发现和报告其人工智能系统中的漏洞。即使人工智能系统发布后，一些问题可能仍然存在，而强大的报告机制可以使问题快速被发现并进行及时修复。

对于履行这一承诺，最受欢迎的方式之一是实施“漏洞赏金”计划，该计划用于奖励发现人工智能系统缺陷的个人。包括谷歌、微软、Meta、Anthropic 和 OpenAI 都为人工智能系统推出了这样的计划。亚马逊和 Anthropic 还表示已经在其网站上建立了安全研究人员可以提交漏洞报告的形式。

在 Brandie Nonnecke 看来，可能需要数年时间才能弄清楚如何做好第三方审计。“这不仅是一个技术挑战，更是一个社会技术挑战。我们不仅需要花费数年的时间才能弄清楚人工智能的技术标准，而且还要弄清楚社会技术标准，这既复杂又困难。”她说。

Brandie Nonnecke 表示，她担心第一批实施第三方审计的公司可能会为如何思考和解决人工智能的社会技术风险树立不好的先例。例如，审计可能会定义、评估和应对某些风险，但会忽略其他风险。

结果：仍然需要做更多工作。漏洞赏金固然是不错的方式，但这还不够全面。新的法律，例如欧盟的人工智能法案，将要求科技公司进行审计，如果科技公司分享此类审计的成功案例就更好了。

Commitment 5. The companies commit to developing robust technical mechanisms to ensure that users know when content is AI generated, such as a watermarking system. This action enables creativity with AI to flourish but reduces the dangers of fraud and deception.

承诺 5：开发强大的技术机制以确保用户知道哪些内容是由人工智能生成的，比如“水印系统”，这让人工智能创造力蓬勃发展的同时减少了欺诈和欺骗的风险。

许多公司已经为人工智能生成的内容构建了水印系统，例如，谷歌推出了针对 Gemini 生成的图像、音频、文本和视频的水印工具 SynthID。Meta 开发了一个名为“Stable Signature”的图像水印工具，以及名为“AudioSeal”的语音水印工具。亚马逊现在为其 Titan 图像生成模型生成的图像添加了“隐形水印”。OpenAI 在其自定制语音模型 Voice Engine 中使用了水印，并为 DALL-E 3 生成的图像构建了一个图像检测分类器。Anthropic 是唯一一家尚未构建水印工具的公司，因为水印主要用于图像，该公司的 Claude 模型不支持图像。

除 Inflection、Anthropic 和 Meta 之外的所有公司也是“内容来源和真实性联盟”（C2PA）的成员，这是一个行业联盟，其将有关内容创建时间以及内容是由人工智能还是人类创建或编辑的信息嵌入到图像元数据中。微软和 OpenAl 自动在使用 DALL-E 3 创建的图像和使用 Sora 创建的视频上附加了 C2PA 的来源元数据。虽然 Meta 不是该联盟成员，但它宣布正在使用 C2PA 标准来识别其平台上人工智能生成的图像。

“签署自愿承诺的六家公司自然倾向于采用技术方法来解决风险，而水印系统尤其如此。”Rishi Bommasani 说。

“问题在于，‘技术解决方案’是否能取得有意义的进展并解决潜在的社会问题，正是这些问题促使我们想知道内容是否是机器生成的？”他补充道。

结果：很好。总体而言，这是一个鼓舞人心的结果，虽然水印系统仍处于实验阶段并且仍然不可靠，但看到围绕它的研究以及对 C2PA 标准的承诺仍然是件好事。这总比没有好，尤其是在繁忙的选举年。

Commitment 6. The companies commit to publicly reporting their AI systems’ capabilities, limitations, and areas of appropriate and inappropriate use. This report will cover both security risks and societal risks, such as the effects on fairness and bias.

承诺 6：公开报告其人工智能系统的功能、局限性以及适合使用的领域。该报告将涵盖安全风险和社会风险，比如对公平性和偏见的影响。

白宫的承诺给解读留下了很大的余地，例如，只要公司朝着这个方向采取行动，它们就可以在技术上满足这种公开披露的要求，而透明度水平可以有很大的差异。

在这里，科技公司提供的最常见的解决方案是所谓的“模型卡”。虽然每家公司对它们的称呼略有不同，但本质上它们充当人工智能模型的一种产品描述。它们可以涵盖从模型的能力和局限性（包括如何衡量公平性和可解释性基准）到真实性、稳健性、治理、隐私和安全等方方面面。Anthropic 表示，其还会测试模型是否存在以后可能会出现的潜在安全问题。

微软发布了一份年度《负责任的人工智能透明度报告》，该报告深入介绍了该公司如何构建使用生成式人工智能的应用程序、制定决策以及监督这些应用程序的部署。微软还表示，在其产品中明确指出了人工智能在何处以及如何使用。

结果：仍然需要做更多工作。Merve Hickok 表示，提高治理结构透明度以及公司之间的财务关系将是所有公司需要改进的一个领域，她还希望看到公司在数据来源、模型训练过程、安全事件和能源使用方面更加公开。

Commitment 7. The companies commit to prioritizing research on the societal risks that AI systems can pose, including on avoiding harmful bias and discrimination, and protecting privacy. The track record of AI shows the insidiousness and prevalence of these dangers, and the companies commit to rolling out AI that mitigates them.

承诺 7：优先研究人工智能系统可能带来的社会风险，包括避免有害的偏见、歧视，以及隐私保护。人工智能的跟踪记录显示了这些危险的隐蔽性和普遍性，这些公司承诺推出人工智能来减轻这些危险。

科技公司一直忙于安全研究，并将研究结果融入到其产品中。亚马逊为“Amazon Bedrock”构建了“护栏”，可以检测幻觉，还可以应用安全、隐私和真实性保护。Anthropic 表示，该公司聘请了一支专注于研究社会风险和隐私的研究团队，在过去的一年里，该公司推出了关于欺骗、越狱、减少歧视策略以及模型篡改自身代码或进行说服等新兴能力的研究。OpenAI 表示，其已经训练了其模型以避免产生“仇恨性内容”，并拒绝生成仇恨或极端主义内容，它还训练了 GPT-4V 来拒绝需要根据刻板印象来回答的许多请求。谷歌 DeepMind 还发布了评估危险能力的研究报告，并针对生成式人工智能的滥用进行了研究。

所有公司都在这一领域的研究方面投入了大量资金。例如，谷歌已经投资了数百万美元创建了一个新的人工智能安全基金，通过前沿模型论坛促进该领域的研究。微软表示已经承诺提供 2000 万美元的资金通过国家人工智能研究资源来研究社会风险，并启动了一个人工智能模型研究加速器项目，即“加速基础模型研究”计划，该公司还聘请了 24 名专注于人工智能和社会学的研究人员。

结果：非常好。这是一个很容易实现的承诺，因为签署者都是世界上一些最大、最富有的企业人工智能研究实验室。虽然对如何确保人工智能系统安全进行更多研究是值得肯定的一步，但批评人士指出，对安全研究的关注会占用人工智能研究的注意力和资源，而人工智能研究则侧重于更直接的危害，比如歧视和偏见。

Commitment 8. The companies commit to develop and deploy advanced AI systems to help address society’s greatest challenges. From cancer prevention to mitigating climate change to so much in between, AI—if properly managed—can contribute enormously to the prosperity, equality, and security of all.

承诺 8：开发和部署先进的人工智能系统以帮助解决社会面临的最大挑战，从癌症预防到缓解气候变化再到许多其他领域，如果管理得当，人工智能可以极大地促进人类的繁荣、平等和安全。

自从做出这一承诺以来，科技公司一直在解决各种各样的问题。例如，辉瑞公司在收集相关数据后使用 Claude 来评估癌症治疗研究的趋势，而美国生物制药公司吉利德则使用亚马逊网络服务的生成式 AI 对临床研究进行可行性评估并对数据集进行分析。

谷歌 DeepMind 在推出可以帮助科学家的人工智能工具方面有着良好的记录，例如，AlphaFold 3 可以预测几乎所有生命分子的结构和相互作用。AlphaGeometry 解决几何问题的水平可以与优秀的高中生相媲美。GraphCast 是一个能够进行中期天气预报的人工智能模型。与此同时，微软利用卫星图像和人工智能来改善对夏威夷毛伊岛野火的响应，并绘制易受气候影响的人口地图，这有助于研究人员揭露粮食不安全、被迫移民和疾病等风险。

与此同时，OpenAI 宣布了对多个研究项目的合作和资助，例如教育工作者和科学家如何在实验室环境中安全使用多模态人工智能模型的项目。该公司还为帮助研究人员在其平台上开发清洁能源“编程马拉松”提供资助。

结果：非常好。使用人工智能促进科学发现或预测天气等领域的一些工作确实令人兴奋。人工智能公司尚未使用人工智能来预防癌症，毕竟这是一个相当高的门槛。

总的来说，人工智能的构建方式发生了一些积极的变化，例如红蓝对抗、水印系统，以及行业间共享最佳实践的新方式。然而，这些只是为了解决人工智能危害这一混乱的社会技术问题而找到的一些巧妙的技术解决方案，还有很多工作要做。时隔一年，承诺中仍过分强调一种特殊的人工智能安全类型，这种安全侧重于“假设的风险”，比如生物武器，却完全没有提到消费者保护、深度伪造、数据和版权，以及人工智能的环境足迹，这些遗漏在今天看来是非常奇怪的。

原文链接：

https://www.technologyreview.com/2024/07/22/1095193/ai-companies-promised-the-white-house-to-self-regulate-one-year-ago-whats-changed/

DC生肖网

深度剖析：谷歌、微软等AI巨头承诺的“自愿监管”做到了吗？

新兴科技是个圈