尽管对于LLM驱动的智能体没有广泛接受的定义,但它们可以被描述为一个可以使用LLM来推理问题、创建解决问题的计划,并在一组工具的帮助下执行计划的系统。
简而言之,智能体是一个具有复杂推理能力、记忆和执行任务手段的系统。
这种能力最初在AutoGPT或BabyAGI等项目中观察到,其中复杂问题在没有太多干预的情况下得到了解决。
智能体由以下关键组成部分构成:智能体核心(Agent core)记忆模块(Memory module)工具(Tools)规划模块(Planning module)智能体核心是中央协调模块,管理智能体的核心逻辑和行为特征。
记忆模块在AI智能体中扮演着关键角色。记忆模块本质上可以被视为智能体的内部日志以及与用户的互动的存储。有两种类型的记忆模块:短期记忆和长期记忆。
工具是智能体可以用来执行任务的明确定义的可执行工作流程。它们通常可以被视为专门的第三方API。
例如,智能体可以使用RAG流程生成上下文感知的答案,使用代码解释器解决复杂的程序任务,使用API在互联网上搜索信息,甚至使用任何简单的API服务,如天气API或即时消息应用程序的API。
规划模块对问题进行拆解得到解决路径。
复杂问题,如分析一组财务报告以回答分层的商业问题,通常需要细致的方法。通过使用LLM驱动的智能体,这种复杂性可以通过使用两种技术的组合来处理:任务和问题分解(Task and question decomposition)、反思或批评(Reflection or critic)。