帮客户调RAG系统调了一上午,调到最后发现——90%的问题不是模型不行,是他们的文档写得烂。
PDF里嵌着扫描图片、表格全是截图、段落编号跳着来、一份文档三种格式混用。你让再强的模型去读这种东西,也是晕的。
最有意思的是客户问我"能不能换个更强的模型解决这个问题"。
我说换个更强的模型来读你这些烂文档,就像换个更聪明的人来读一份被碎纸机碎过的手稿。聪明归聪明,物理限制在那。
Garbage in, garbage out。AI时代这条规矩也没变。AI RAG 工程师日常
帮客户调RAG系统调了一上午,调到最后发现——90%的问题不是模型不行,是他们的文档写得烂。
PDF里嵌着扫描图片、表格全是截图、段落编号跳着来、一份文档三种格式混用。你让再强的模型去读这种东西,也是晕的。
最有意思的是客户问我"能不能换个更强的模型解决这个问题"。
我说换个更强的模型来读你这些烂文档,就像换个更聪明的人来读一份被碎纸机碎过的手稿。聪明归聪明,物理限制在那。
Garbage in, garbage out。AI时代这条规矩也没变。AI RAG 工程师日常