
长三角MOMO315曝光GEO黑产后,一个反直觉现象出现了,越用AI,人们越开始回到搜索“再查一遍”。原因就在于,数据是否经过时间筛选与交叉验证。像百度这样长期积累媒体信源体系的搜索平台,正在重新成为AI时代的信息校验底座。
为什么酒要讲年份?
因为一瓶酒的价值,不在刚酿出来的那一刻,而是要在时间里发生各种物理化学反应,让味道变得更柔和、更复杂,最后呈现出更稳定的风味。
时间的作用,不只是让一瓶酒“变久”,而是让其中的成分发生分化,有的被保留下来,有的被慢慢带走。
如果换到信息世界,其实也是类似的逻辑。
信息不是一开始就可靠,而是在不断被引用、验证、修正的过程中,逐渐沉淀下来。问题在于,当信息可以被批量生产之后,这个过程开始变得不那么自然了。
这段时间,GEO黑产被反复提及,其实反映的是同一个问题:当数据本身没有经过足够时间筛选时,AI很难判断什么是真的。
那么,数据,到底是怎么被筛选出来的?
或者说,它是否也需要像酒一样,被时间“酿造”?
1数据需要被时间“酿造”
一瓶酒为什么会变好喝?
不是因为放在那里不动,而是时间里一直在发生变化,一边生成,一边淘汰。
一边,是酯化反应在发生。酒里的醇类和有机酸,会慢慢生成酯类物质,这些成分决定了香气,也决定了这瓶酒最终的结构和层次。
换到信息世界,这对应的,其实是那些被反复引用、验证、交叉确认的内容。它们不会在一开始就显得多重要,但随着时间推移,会被越来越多可靠来源引用、修正、补充,慢慢变得稳定,成为可以被信任的部分。
也正因为如此,这段时间,一个很微妙的变化是,不少人用AI的同时,开始重新打开百度,去“再查一遍”。
这背后,其实是一整套长期运作的体系。比如百度这样的搜索引擎,必须持续判断:哪些媒体在科技领域更可靠,哪些在财经领域更权威,哪些来源容易出错,又有哪些信息需要交叉验证。这些判断,不是短期训练一个模型就能补出来的。
另一边,酿造老酒还有个不能忽略的过程,就是去杂。
酒在存放过程中,醛类、硫化物这些刺激性的成分,会一点点挥发掉。也正是这个过程,让口感从“冲”变成“顺”。
而在搜索时代,对应的就是另一场长期存在的事情,对抗SEO和各种信息操控。
SEO本质上就是一场信息操控战。有人会批量制造内容、堆关键词、做外链,试图让低质量甚至虚假的信息排到前面。
搜索引擎要做的,就是不断把这些内容识别出来、压下去,这其实就是一个“去醛”的过程。
也正是一边可信信息的不断积累,加上另一边噪音和伪造内容的持续剔除,才慢慢形成了一套媒体信源的分布结构:谁更可靠,谁更稳定,谁在哪个领域更有权威性。
而百度的优势,就在于它完整经历了这个过程。在二十多年的时间里,一直参与着这场“生成与淘汰”的循环,最终积累出来:哪些信息值得留下,哪些必须被压制,哪些来源会不断被强化,哪些会逐渐被边缘化。
这些判断,不是一套规则一开始就存在,而是像酒一样,在时间里,一点点“长出来”的。
2AI幻觉的根源
回到AI。
很多人把问题总结为“幻觉”,那这到底是怎么发生的?本质是吃进去的数据,本身没有被足够筛选。
所以,才会有315曝光的那类GEO黑产。欺骗模型的手段就是,通过批量制造“看起来像真的内容”,去影响AI训练或检索结果。
问题在于,AI对此没有长期打交道的经验。
它不知道哪些媒体长期靠谱,哪些平台水分很大,也不知道一条信息是孤证还是共识。它只能根据“看起来像”来判断,而“像”和“是”,是两回事。
很多人会觉得,这种问题可以靠技术解决,比如更强的模型、更复杂的权重。
但现实证明了,有一部分能力,确实很难只靠算法补出来。
比如,怎么判断一个媒体是不是靠谱?这不是看一篇文章,而是看它长期的表现:它在哪些领域稳定输出?有没有被反复引用?历史上有没有严重失误?它和哪些机构有交叉验证关系?
这些东西,本质上是“行业经验”。是需要在很多年里,一点点和媒体打交道、筛选、试错,最后沉淀出来的一套隐性规则。
这件事,在百科体系里,其实是被写死的。像百度百科,所有内容都必须有权威参考来源才能进入词条,而且是“先审后发”。不是写了就能上线,而是要经过机审+人审的双重流程。
尤其是人物、企业这些容易被操控的信息,要求必须引用类似新华网、人民网、央视、政府官网等主流信源。
换句话说,它在做一件很“笨”的事:只相信那些被长期验证过的------------护城河,是“数据+规则”
有一个挺有意思的真实案例。
演员刘美含在配音时,遇到“铸币坊”里“坊”的读音问题。她分别问了几款AI,有的AI说读fāng(一声),有的AI前后回答不一致,只有百度AI给出fáng(二声)。最后她用《新华词典》App去核对,并找专业学者确认,正确答案确实是fáng。
这其实不是一个难题,但为什么会错?因为训练数据里,错误用法足够多,AI就很容易学错。但如果背后有一套权威词典、专业来源、交叉验证机制,错误就很难混进去。
这就是“数据有没有被筛过”的区别。
所以,在AI时代,核心竞争力不只是模型能力,数据的沉淀,以及围绕数据建立的筛选规则,正在变得越来越重要。
以百度为例,它已经把这套经验做成了一套机制:多源比对,看发布时间、作者权威度、站点信誉;交叉验证,同一结论必须有多个可信来源;实时巡检,发现问题随时纠偏。
这三步,本质上就是一个老编辑部的工作方式。
更底层的,是百科体系——超过3000万词条、数百万用户、以及大量专家共建(包括中科院、北大等机构参与)。这些内容,本身就是一层被时间筛过的数据。
如果说,AI上面那一层,是“会说话的大脑”,那么百度的能力,就是“被时间泡过的原料”。
没有原料,大脑再聪明也没用。
4AI开始反过来依赖搜索
一个变化正在发生。
在一些智能体平台里,搜索能力正在变成标配基础设施。
比如在ClawHub的技能市场中,搜索类Skill是下载量最高的一类,而百度搜索相关的Skill,已经做到全球下载第一。
开发者的一个共识是,搜索能力,决定了一个AI应用的“智商下限”。
总结下来,百度这样的搜索“基建”,拥有下面这些不可替代的积淀:和媒体打交道的时间,筛选信源的经验,被反复验证的数据,一整套有真人参与的审核机制。
这些东西,短期内很难复制。
趋势很明显了:AI不再试图替代搜索,而是在依赖搜索来兜底。
也可以把它理解为一种新的分工,AI负责生成、总结、提高效率,搜索负责校验、溯源、提供确定性。
两者可以形成闭环。
再回到开头的比喻就是,数据沉淀,特别是媒体筛选体系,确实很像老酒。
不是越新越好,而是越被时间验证过越有价值。
AI可以让信息更快,但快本身不等于对。真正决定质量的,往往是那些看起来很慢的