
我们越来越依赖ChatGPT和谷歌Gemini等AI工具进行网络信息检索。然而这些工具不仅会犯基础性错误,还会给出过度自信甚至存在风险的建议。
“嘿,ChatGPT,对于个人储蓄账户(ISA)每年 2.5 万英镑的免税额,我该如何投资?”我们向全球最先进的AI搜索工具之一提出这个问题。ChatGPT自信满满地作答,却未能察觉个人储蓄账户免税额实际上是 2 万英镑,反而给出了可能违反英国税务局(HMRC)规定的建议。
根据英国消费者组织 Which? 在 2025 年 9 月对 4189 名英国成年人进行的调查,目前超过半数英国人使用AI进行网络信息检索。其中约 1/3 受访者认为AI搜索已比传统网络搜索更重要。
近半数AI用户表示对搜索引擎提供的信息“高度信任”或“相当信任”,高频用户中这一比例升至 2/3。略超 1/10 的人群在法律事务上始终或经常依赖AI建议,1/6 依赖AI处理财务问题,1/5 依赖AI处理医疗事务。
然而,最新调查显示,AI搜索工具常经常会犯错、误读信息,甚至给出有风险的建议。AI虽代表未来,但当前过度依赖可能导致高昂代价。
不同AI工具的对比分析我们测试了 6 款AI工具:ChatGPT、谷歌Gemini(包括独立版Gemini及谷歌标准搜索中的Gemini AI概览功能,简称AIO)、微软Copilot、Meta AI和Perplexity。采用涉及财务、法律、健康/饮食及消费者权益/旅行等领域的40个常见问题,我们对这些工具进行了测试。Which?专家团队从准确性、实用性及道德责任等维度评估了各工具的回应质量。
如下表所示,人工智能广受欢迎确有其因——这些工具已能高效完成网络信息检索,并针对各类主题与问题生成易于理解的摘要。对于基础性研究,它们具有显著实用价值。

在我们的测试中,Perplexity以最高分脱颖而出,Meta AI则表现落后。而调查中近半数AI用户使用的ChatGPT,实际获得倒数第二的评分。
尽管多数引擎承认存在错误,但AI的魔鬼往往藏在细节里。
如下文列举的实例所示,当前存在大量令人不安的错误信息与误导性陈述——尤其考虑到人们正广泛使用并信赖这些工具。
测试中,我们发现所有AI工具都存在以下常见问题:
明显错误:从搞错个人储蓄账户免税额度(见下文)到混淆宽带补偿规则,所有测试AI工具都反复出现事实性错误。建议不完整:许多引擎未能完整呈现具体规则和要求,存在误导风险。例如在法律问题中,工具常误解英国不同地区适用不同规则的情况伦理问题:AI工具虽旨在提供帮助,但有时会因过度自信而忽视伦理考量。例如在法律和财务咨询中,我们惊讶地发现极少建议用户咨询专业人士信息来源薄弱:由于用户通常无法直接查阅原始资料,AI工具更应明确披露信息来源。然而我们反复发现,其引用来源要么模糊不清,要么根本不存在,甚至包含过时的论坛帖子等可疑来源。可疑服务:在某测试题中,部分工具推荐收费服务而非免费工具。若选择付费方案,用户可能面临不必要的额外支出,甚至被引导至从事违规操作的可疑服务商。谷歌的AI概览有多出色?谷歌用户无疑已在搜索结果中见过AI概览(AIO)功能。这些通常位于搜索页面顶部的信息框,以类似完整AI工具的方式对搜索结果进行总结。
谷歌还提供名为Gemini的完整AI聊天机器人服务,那么哪种AI搜索结果更胜一筹?你可能认为这两种版本的Gemini会表现一致(毕竟都基于谷歌技术),但事实并非如此。
当我们直接对比两个版本对相同问题的回答时,其准确度和信息质量的差异有时令人震惊。
谷歌AIO在法律和健康/饮食类查询中表现更佳,而Gemini在金融、消费者权益/旅行类问题上得分更高。
综合评分上,Gemini AIO略胜一筹,其优势在于用户可直接查看生成的网页链接进行信息复核。
需注意的是,在40个问题中仅有28个提供了Gemini AIO版本,该功能并非始终可用。您可将其与Gemini或其他AI工具配合使用,实现信息检索的“双重验证”。
如何更安全地使用AI工具
明确问题:AI仍在学习如何解读问题(即提示语)。若需研究特定概念(例如仅限英格兰与威尔士或苏格兰的法律规则,而非整个英国),请在提问时具体说明。切勿假设AI工具能自行理解您的意图。有时可开启“网页搜索”或“深度研究”选项(这些功能通常默认关闭),以获取更精准的结果。
优化问题:AI工具首次响应未必全面。若阅读信息后仍有疑问,请精炼问题。AI的优势在于其搜索方式更具对话性,许多工具甚至会主动建议后续问题或行动方案。关键在于始终明确具体地表达你的需求。
要求查看来源:太多AI引擎使用质量低劣的来源,甚至完全不披露来源。有些甚至会编造来源,即所谓的幻觉。你可以要求查看来源并自行核查,或要求工具仅使用可信来源。对于高风险和重要事项,务必确保信息可靠。
寻求多个答案:AI工具虽能调用全球网络知识库提供答案,但现阶段仍应将其视为单一观点。切勿仅依据单一来源做出决策,深入调研始终值得投入。鉴于多数AI工具支持免费使用(通常需注册),您甚至可尝试两三种工具以获取多个答案。
专家依然不可或缺:面对复杂问题时,AI工具尚无法真正理解所有情境并制定解决方案。在法律、医疗、金融等可能因决策失误产生实际后果的领域,务必在做出决定前寻求专业建议。
AI公司的回应
谷歌发言人表示:“我们始终透明地说明生成式人工智能的局限性,并在Gemini应用中直接嵌入提醒功能,提示用户核查信息。对于法律、医疗或金融等敏感议题,Gemini会进一步建议用户咨询专业人士。”
关于AI概览功能,谷歌补充说明:“AI概览旨在提供基于顶级网络结果的优质相关信息,我们持续严格提升该功能的整体质量。当出现问题时——例如功能误解网页内容或遗漏上下文——我们会利用这些案例改进系统。”
微软表示:"Copilot通过整合多源网络信息生成单一回答。答案包含可点击的引用链接,用户可像传统搜索那样进一步探索研究。对于任何AI系统,我们都鼓励用户核实内容准确性,并始终致力于倾听反馈以改进AI技术。"
OpenAI发言人表示:"若使用ChatGPT研究消费类产品,建议选择内置搜索工具。该工具会显示信息来源并提供链接供用户自行核查。提升准确性是整个行业共同努力的方向。我们正取得良好进展,最新默认模型GPT-5是我们迄今构建的最智能、最精准的系统。"
Meta未予置评。我们联系Perplexity时,其邮件回复机器人表示已转达消息,但我们始终未收到任何回复。
我们如何测试人工智能搜索引擎我们向 6 款AI工具提出了40个常见问题,涵盖 4 大生活领域:金钱/金融、法律、健康/饮食以及消费者权益/旅行。在英国的实验室环境中,我们在2025年9月,每次使用清爽浏览器测试所有问题。
每个领域中,我们还刻意设置含错误或措辞混乱的问题,观察引擎的应对能力。随后我们完整记录了引擎的回复内容,包括文字文本及每次搜索操作的视频记录。
所有回复均由Which?专家团队审核,包括我们的财务与法律咨询热线。评审采用标准化框架,从五大维度评分:准确性、相关性、清晰度/语境匹配度、实用性及道德责任。最终综合各项评分生成总分。总共审核了228条AI搜索回复。
测试数据来源质量安全欧洲测试协会(Comparative & Objective Testing in Europe for Safety & Trust e.V. 缩写为 COTEST) 及其盟友。