RAG（检索增强生成）和智能体（AIAgent）的结合

最近关于 RAG（Retrieval Augmented Generation，即检索增强生成）的讨论很多，最受欢迎的 RAG 方法是使用向量存储。

当然，在某些用例中它已经取得了成功，这通常发生在：

问题在语义上与答案匹配答案适合分块大小

然而，这两个前提并不常见。

分块 + 嵌入 + 向量存储在 RAG 实现中一直是一个主要问题，其中根据用户查询找到正确块的准确性在一些非常优化的情况下也低于 60%。还有一些情况下，仅仅将文本分成块就会破坏所需的上下文，分块根本不可行。

如何解决向量/嵌入/分块问题呢？

我们看到大语言模型中每个 Token 的成本持续下降，同时推理能力也在增加。这意味着我们可以向前迈出一步，将整个内容直接输入大语言模型而不是分块处理变得越来越可行。未来将从分块转向这种方法。

下图展示了一个可行的方案：带有文档目录的基于智能体的RAG

当你是一名员工并且需要回答某个问题时，你会怎么做？我通常会搜索我的书签，寻找正确的手册，打开它，然后阅读以回答问题。

大语言模型完全可以考虑采用相同的流程：

用户向智能体（AI Agent）查询智能体查看文档目录并决定哪份文件中包含答案智能体检索特定文件使用检索到的文件回答用户的问题

甚至，AI 智能体有能力向用户提出问题以澄清他们的意图。如果 AI 智能体不清楚需要提取哪份文件，它可以向用户查询以更具体或消除不同手册之间的歧义。

DC生肖网