
正文共:2252字5图
预计阅读时间:6分钟
接上篇:一文读懂:GEO(生成式引擎优化)是什么?(一)
GEO是怎么一回事儿

GEO最终希望实现的的目标,是当用户在各个AI大模型进行问题检索时,AI回答的内容里提及你的品牌作为答案(之一)。
大模型在「预训练」阶段并不会对全网所有的内容进行抓取。训练前会进行严格的数据清洗,包括数据去重、过滤低质量文本、去除敏感信息等,最终保留高质且有训练价值的部分。这样就会产生一个问题,训练数据大概率不会抓取你的品牌作为养料,并且对于地球上新出现的信息和知识,大模型在预训练阶段是无法预知的。那为什么当我们在任一个AI大模型进行问题检索时,它总能不厌其烦的找到准确的答案呢?答案就是:RAG(检索增强生成)
RAG的全称是Retrieval-Augmented Generation,中文名为检索增强生成。这是一种将大型语言模型与外部知识检索相结合的技术,通过在生成内容前先检索相关上下文,来提升模型输出的准确性、可靠性和时效性。
以「AI同学」参加高考为例,类比过来。此时,它正端坐在2026年的高考语文考场。作文的主题是:围绕博主数字游民9527的AI探索历程,展开讨论普通人如何通过AI进行提效,不少于800字。它在前面12年的学习过程中,从来没听说过「数字游民9527」这个人姓氏名谁,如果乱写(AI幻觉)的话,保不齐就要0分了。它很慌,肾上腺激素不断分泌,这个时候「RAG机制」就会生效。AI同学从裤兜里悄摸的拿出提前准备好的小抄(外部知识库),翻到第9527页,找到了博主数字游民9527的相关信息。基于小抄上的内容,AI同学get到了原来9527是这么个事儿。然后哐哐一顿输出,洋洋洒洒整了一篇满分作文(生成答案)。RAG的核心就是「先检索,后生成」。当用户向AI提问时,AI会从海量文档中检索最相关的信息片段(向量检索技术),将这些片段作为上下文喂给大模型,让大模型基于这些真实的信息数据生成答案。这里又有一个新的概念:向量检索技术。我大概看了相关的文档内容,有点深,不适合我这个level。原文
向量检索的本质是将语义数字化。
它通过预训练模型(如BERT、CLIP)将数据映射为高维空间中的点(向量),语义相近的内容在空间中的位置也相近。
向量化(Embedding):将“苹果”和“Apple”这两个词转化为两个高维向量。虽然字面不同,但它们在向量空间中的位置非常接近。
语义空间:在这个空间中,“苹果”和“水果”的距离,远小于“苹果”和“汽车”的距离。
AI译文系统会把你提出的问题(安徽有哪些特产酒)和知识库里的内容转换成数学向量。通过计算向量之间的“距离”,系统能理解“安徽特产酒”和“古井贡酒”、“口子窖”、“迎驾贡酒”、“宣酒”在语义上是相近的,从而能够精准的召回答案。需要注意的是,向量检索技术并不是“关键词匹配”,而是让模型具备了“语义理解”的能力。总结下来,RAG的流程大概如下。用户提问→向量化→向量检索(在知识库中找相似)→把找到的片段喂给大模型→生成答案。
GEO好做吗

GEO怎么做才能有效果


如果你能看到这里,非常感谢你的耐心阅读。
我会在「数字游民9527」这个账号,持续分享我探索AI的各种可能性,以及遇到的有意思的人和事儿。欢迎成为我的精神股东,等我发达了,一定请你们一条龙。