吴恩达谈智能体

（以下内容翻译整理自吴恩达教授讲座及博文）

我认为AI智能体工作流将在今年推动人工智能的巨大进步——甚至可能超过下一代基础模型。这是一个重要的趋势，我呼吁所有从事人工智能工作的人都关注它。

如今，我们主要在零样本模式下使用 LLM，促使模型逐个生成最终输出令牌，而无需修改其工作。这类似于要求某人从头到尾写一篇文章，直接打字，不允许退格，并期望得到高质量的结果。尽管有困难，大语言模型在这项任务上表现得非常好！

然而，通过智能体工作流，我们可以要求大语言模型多次迭代文档。例如，它可能需要执行一系列步骤，例如：

· 规划一个大纲。

· 确定需要进行哪些网络搜索（如果需要）来收集更多信息。

· 写初稿。

· 通读初稿，找出不合理的论点或无关的信息。

· 修改草案时考虑到发现的任何弱点。

· 等等。

这个迭代过程对于大多数人类作家写出好的文本至关重要。借助人工智能，这种迭代工作流比单次编写产生更好的结果。

Devin（首个AI程序员）引人注目的演示最近在社交媒体上引起了广泛关注。我的团队一直密切关注编写代码的人工智能的发展。我们分析了多个研究团队的结果，重点关注算法在广泛使用的 HumanEval 编码基准上表现良好的能力。您可以在下图中看到我们的发现。

GPT-3.5（零样本）的正确率为 48.1%。 GPT-4（零样本）的表现更好，为 67.0%。然而，从 GPT-3.5 到 GPT-4 的改进与迭代智能体工作流的结合相形见绌。事实上，在智能体循环中，GPT-3.5 的成功率高达 95.1%。

开源智能体工具和有关智能体的学术文献正在激增，这使得这是一个令人兴奋的时刻，但也是一个令人困惑的时刻。为了帮助人们正确看待这项工作，我想分享一个用于对构建智能体的设计模式进行分类的框架。我的团队 AI Fund 已在许多应用程序中成功使用这些模式，我希望您发现它们很有用。

· 反思：大语言模型检查自己的工作以提出改进的方法。

· 工具使用（类似于GPT插件）：大语言模型拥有网络搜索、代码执行或任何其他功能等工具来帮助其收集信息、采取行动或处理数据。

· 规划：大语言模型提出并执行一个多步骤计划来实现目标（例如，撰写论文大纲，然后进行在线研究，然后撰写草稿，等等）。

· 多智能体协作：多个人工智能智能体一起工作，分解任务并讨论和辩论想法，以提出比单个智能体更好的解决方案。

我描述了人工智能智能体工作流的四种设计模式，我相信这些模式将在今年推动重大进展：反思、工具使用、规划和多智能体协作。智能体工作流不是让大语言模型直接生成最终输出，而是多次提示大语言模型，使其有机会逐步构建更高质量的输出。接着，我想讨论反思。对于实现相对较快的设计模式，我已经看到它带来了令人惊讶的性能提升。您可能有过提示 ChatGPT/Claude/Gemini、收到不满意的输出、提供关键反馈以帮助 LLM 改进其响应，然后获得更好响应的经历。如果您自动执行提供关键反馈的步骤，以便模型自动批评自己的输出并改进其响应，会怎么样？这就是反思的关键。接受要求大语言模型编写代码的任务。我们可以提示它直接生成所需的代码来执行某些任务X。之后，我们可以提示它反思自己的输出，也许如下所示：

以下是用于任务 X 的代码：[先前生成的代码] 仔细检查代码的正确性、风格和效率，并对如何改进给出建设性的批评。有时这会导致大语言模型发现问题并提出建设性建议。接下来，我们可以向 LLM 提示上下文，包括

(i) 先前生成的代码和

(ii) 建设性反馈以及

(iii) 要求其使用反馈来重写代码。

这可以带来更好的响应。重复批评/重写过程可能会产生进一步的改进。这种自我反思过程使大语言模型能够发现差距并改进其在各种任务上的输出，包括生成代码、编写文本和回答问题。

我们可以通过提供大语言模型工具（插件）来帮助评估其输出，从而超越自我反思；例如，通过一些单元测试运行其代码以检查它是否在测试用例上生成正确的结果，或者搜索网络以仔细检查文本输出。然后它可以反思发现的任何错误并提出改进的想法。

此外，我们可以使用多智能体框架来实现反思。我发现创建两个不同的智能体很方便，一个提示生成良好的输出，另一个提示对第一个智能体的输出提出建设性批评。两个智能体之间的讨论导致了响应的改进。

反思是一种相对基本的智能体工作流类型，但我很高兴它在某些情况下改善了我的应用程序的结果。我希望你能在自己的工作中尝试一下。如果您有兴趣了解有关反思的更多信息，我推荐这些论文：

· “自我细化：通过自我反馈进行迭代细化”，Madaan 等人，2023 年

· https://arxiv.org/abs/2303.17651

· “反思：具有言语强化学习的语言智能体”，Shinn 等人，2023 年

https://arxiv.org/abs/2303.11366

· “ CRITIC：大型语言模型可以通过工具交互式批评进行自我纠正”，Gou 等人，2024 年

· https://arxiv.org/abs/2305.11738

DC生肖网

开心盖土