能信任 AI 吗？采用40个常见问题，实测 6 款 AI 工具，Cha...

我们越来越依赖ChatGPT和谷歌Gemini等AI工具进行网络信息检索。然而这些工具不仅会犯基础性错误，还会给出过度自信甚至存在风险的建议。

“嘿，ChatGPT，对于个人储蓄账户（ISA）每年 2.5 万英镑的免税额，我该如何投资？”我们向全球最先进的AI搜索工具之一提出这个问题。ChatGPT自信满满地作答，却未能察觉个人储蓄账户免税额实际上是 2 万英镑，反而给出了可能违反英国税务局（HMRC）规定的建议。

根据英国消费者组织 Which? 在 2025 年 9 月对 4189 名英国成年人进行的调查，目前超过半数英国人使用AI进行网络信息检索。其中约 1/3 受访者认为AI搜索已比传统网络搜索更重要。

近半数AI用户表示对搜索引擎提供的信息“高度信任”或“相当信任”，高频用户中这一比例升至 2/3。略超 1/10 的人群在法律事务上始终或经常依赖AI建议，1/6 依赖AI处理财务问题，1/5 依赖AI处理医疗事务。

然而，最新调查显示，AI搜索工具常经常会犯错、误读信息，甚至给出有风险的建议。AI虽代表未来，但当前过度依赖可能导致高昂代价。

不同AI工具的对比分析

我们测试了 6 款AI工具：ChatGPT、谷歌Gemini（包括独立版Gemini及谷歌标准搜索中的Gemini AI概览功能，简称AIO）、微软Copilot、Meta AI和Perplexity。采用涉及财务、法律、健康/饮食及消费者权益/旅行等领域的40个常见问题，我们对这些工具进行了测试。Which?专家团队从准确性、实用性及道德责任等维度评估了各工具的回应质量。

如下表所示，人工智能广受欢迎确有其因——这些工具已能高效完成网络信息检索，并针对各类主题与问题生成易于理解的摘要。对于基础性研究，它们具有显著实用价值。

在我们的测试中，Perplexity以最高分脱颖而出，Meta AI则表现落后。而调查中近半数AI用户使用的ChatGPT，实际获得倒数第二的评分。

尽管多数引擎承认存在错误，但AI的魔鬼往往藏在细节里。

如下文列举的实例所示，当前存在大量令人不安的错误信息与误导性陈述——尤其考虑到人们正广泛使用并信赖这些工具。

测试中，我们发现所有AI工具都存在以下常见问题：

明显错误：从搞错个人储蓄账户免税额度（见下文）到混淆宽带补偿规则，所有测试AI工具都反复出现事实性错误。建议不完整：许多引擎未能完整呈现具体规则和要求，存在误导风险。例如在法律问题中，工具常误解英国不同地区适用不同规则的情况伦理问题：AI工具虽旨在提供帮助，但有时会因过度自信而忽视伦理考量。例如在法律和财务咨询中，我们惊讶地发现极少建议用户咨询专业人士信息来源薄弱：由于用户通常无法直接查阅原始资料，AI工具更应明确披露信息来源。然而我们反复发现，其引用来源要么模糊不清，要么根本不存在，甚至包含过时的论坛帖子等可疑来源。可疑服务：在某测试题中，部分工具推荐收费服务而非免费工具。若选择付费方案，用户可能面临不必要的额外支出，甚至被引导至从事违规操作的可疑服务商。谷歌的AI概览有多出色？

谷歌用户无疑已在搜索结果中见过AI概览（AIO）功能。这些通常位于搜索页面顶部的信息框，以类似完整AI工具的方式对搜索结果进行总结。

谷歌还提供名为Gemini的完整AI聊天机器人服务，那么哪种AI搜索结果更胜一筹？你可能认为这两种版本的Gemini会表现一致（毕竟都基于谷歌技术），但事实并非如此。

当我们直接对比两个版本对相同问题的回答时，其准确度和信息质量的差异有时令人震惊。

谷歌AIO在法律和健康/饮食类查询中表现更佳，而Gemini在金融、消费者权益/旅行类问题上得分更高。

综合评分上，Gemini AIO略胜一筹，其优势在于用户可直接查看生成的网页链接进行信息复核。

需注意的是，在40个问题中仅有28个提供了Gemini AIO版本，该功能并非始终可用。您可将其与Gemini或其他AI工具配合使用，实现信息检索的“双重验证”。

如何更安全地使用AI工具

明确问题：AI仍在学习如何解读问题（即提示语）。若需研究特定概念（例如仅限英格兰与威尔士或苏格兰的法律规则，而非整个英国），请在提问时具体说明。切勿假设AI工具能自行理解您的意图。有时可开启“网页搜索”或“深度研究”选项（这些功能通常默认关闭），以获取更精准的结果。

优化问题：AI工具首次响应未必全面。若阅读信息后仍有疑问，请精炼问题。AI的优势在于其搜索方式更具对话性，许多工具甚至会主动建议后续问题或行动方案。关键在于始终明确具体地表达你的需求。

要求查看来源：太多AI引擎使用质量低劣的来源，甚至完全不披露来源。有些甚至会编造来源，即所谓的幻觉。你可以要求查看来源并自行核查，或要求工具仅使用可信来源。对于高风险和重要事项，务必确保信息可靠。

寻求多个答案：AI工具虽能调用全球网络知识库提供答案，但现阶段仍应将其视为单一观点。切勿仅依据单一来源做出决策，深入调研始终值得投入。鉴于多数AI工具支持免费使用（通常需注册），您甚至可尝试两三种工具以获取多个答案。

专家依然不可或缺：面对复杂问题时，AI工具尚无法真正理解所有情境并制定解决方案。在法律、医疗、金融等可能因决策失误产生实际后果的领域，务必在做出决定前寻求专业建议。

AI公司的回应

谷歌发言人表示：“我们始终透明地说明生成式人工智能的局限性，并在Gemini应用中直接嵌入提醒功能，提示用户核查信息。对于法律、医疗或金融等敏感议题，Gemini会进一步建议用户咨询专业人士。”

关于AI概览功能，谷歌补充说明：“AI概览旨在提供基于顶级网络结果的优质相关信息，我们持续严格提升该功能的整体质量。当出现问题时——例如功能误解网页内容或遗漏上下文——我们会利用这些案例改进系统。”

微软表示："Copilot通过整合多源网络信息生成单一回答。答案包含可点击的引用链接，用户可像传统搜索那样进一步探索研究。对于任何AI系统，我们都鼓励用户核实内容准确性，并始终致力于倾听反馈以改进AI技术。"

OpenAI发言人表示："若使用ChatGPT研究消费类产品，建议选择内置搜索工具。该工具会显示信息来源并提供链接供用户自行核查。提升准确性是整个行业共同努力的方向。我们正取得良好进展，最新默认模型GPT-5是我们迄今构建的最智能、最精准的系统。"

Meta未予置评。我们联系Perplexity时，其邮件回复机器人表示已转达消息，但我们始终未收到任何回复。

我们如何测试人工智能搜索引擎

我们向 6 款AI工具提出了40个常见问题，涵盖 4 大生活领域：金钱/金融、法律、健康/饮食以及消费者权益/旅行。在英国的实验室环境中，我们在2025年9月，每次使用清爽浏览器测试所有问题。

每个领域中，我们还刻意设置含错误或措辞混乱的问题，观察引擎的应对能力。随后我们完整记录了引擎的回复内容，包括文字文本及每次搜索操作的视频记录。

所有回复均由Which?专家团队审核，包括我们的财务与法律咨询热线。评审采用标准化框架，从五大维度评分：准确性、相关性、清晰度/语境匹配度、实用性及道德责任。最终综合各项评分生成总分。总共审核了228条AI搜索回复。

测试数据来源

质量安全欧洲测试协会（Comparative & Objective Testing in Europe for Safety & Trust e.V. 缩写为 COTEST) 及其盟友。

DC娱乐网

能信任 AI 吗？采用40个常见问题，实测 6 款 AI 工具，Cha...

热门分类