AI大模型王座易位?全面超越GPT4的Claude3究竟怎么样？

昨晚Claude3发布，感觉又重新经历DOS、Windows3、Win95的时代，AI界的浪潮一波一波涌动。Claude3这次发布了3个模型家族，以Opus作品，Sonnet十四行诗，Haiku俳句来命名。据发布的测试指标来看，Opus所有的测试都超过了GPT4，于是媒体各种“暴打GPT4”“AI王座易主”“AI新王驾到”的报道铺天盖地，然而真实情况是这样吗？我们来详细了解一下。

概述：

Claude 3模型是由Anthropic公司开发，是一群原OpenAI员工不满OpenAI对模型开发的安全问题，离职后另起炉灶创立的。这次发布的3个模型Opus是最强且最智能的，需要充值才能使用，普通用户20美元每月跟GPT4一样，Haiku速度最快而尚未发布，Sonnet是速度和智能的平衡并可以免费使用，官网已经将Claude2换成了Claude3 Sonnet。

https://claude.ai/chat

3个模型均具备视觉能力，能够处理和分析图像数据，但不能联网，知识库更新至2023年8月。从发布的测试数据看，Opus确实全面超过了GPT4。

如果只是看Claude3那42页的技术报告，那么Claude3确实该称为AI通用模型新王。然而Anthropic公司在这里埋了个坑，很多媒体没有详细查询技术文档，都掉进坑里了。这个坑就是这份技术报告只是Claude3跟GPT4-0314在对比测试，而没有跟GPT4-Turbo-1106对比。而目前最强的模型是GPT4-Turbo-1106，看一下真实的王者对比图。

在评估两者的每个基准上，GPT4-Turbo-1106都优于Opus。然而，考虑到性能大小的差距，Claude 3在最难的GPQA（钻石级研究生问答）上的表现应该优于GPT4-Turbo-1106，尽管GPT4-Turbo-1106尚未在 GPQA 上进行评估。

下面我们从Claude3发布的技术报告，详细分析一下它的优势。

Claude3技术优势分析：

推理能力：这一类别的基准需要数学、科学和常识性的重新分析，测试模型得出逻辑结论和将知识应用于现实世界场景的能力。

Claude 3模型在最难的钻石级GPQA（研究生问答）中，达到50.4%的准确率。据说即使是可以上网的博士也只能获得这项35%的准确率。

全球网友做了很多真实测试让Opus跟GPT4-Turbo和Gemini1.5对比，来看看其中一些例子。

Opus的简单数学计算

指令理解准确，计算结果也算正确，就是有个四舍五入的小问题，它把26.455%四舍五入为26.45%了，按常识应该是26.46%。这个GPT4-Turbo和Gemini1.5失败了。

再看一下图表统计（答案正确）

最后一个脑经急转弯问题，这个应该属于一般推理，这项Opus完败，GPT4-Turbo能很好的理解这个问题，绕开了思维陷阱。

我用免费的Sonnet也测了一次，它还是错的，甚至我随后引导了两次它仍然回答4个。

多语言能力：该类别包括多种语言的翻译、总结和推理任务，评估模型的语言通用性和跨语言理解能力。

在MGSM多语言数学任务中，Claude 3 Opus在0-shot条件下达到90.7%的准确率，显著高于GPT-4。

下面这个英语的字面意思和实际意义，Opus完全理解了，Gemini1.5理解错误。

原文为英文

另外用过Claude2的人对其对中文理解的印象应该比较深刻，所以在多语言理解能力上Opus应该是不输GPT4-Turbo的。

长上下文处理：这些评估侧重于问题回答和检索，评估模型在处理扩展文本和提取相关信息方面的性能。

Claude 3模型支持至少1M tokens的上下文长度，而GPT-4通常处理的上下文长度较短。虽然目前发布还是200K的上下文，1M上下文需要特别申请，但还是超越GPT4-Turbo-128k。

诚实/事实性：这类问题评估了模型提供准确和可靠的回答的能力，无论是根据事实的准确性还是对所提供的来源材料的保真度。当不确定时，模型应该诚实地了解它们的局限性，表达不确定性或承认它们没有足够的信息来提供明确的答案。

虽然其公司声称Claude3严格按宪法AI（Constitutional AI）训练，Opus也确实比Gemini1.5做的好的多，但网友一个测试还是试出了Opus的“政治正确”。

多模态能力：评估包括科学图上的问题、视觉问题回答和基于图像的定量推理。

从官方测试图表看，除了个别细分项，Claude3比起GPT4V大部分占优。

再看看实测图就知道Opus在图像识别上是多么强大了。

以上两个实测只有Opus完全正确。

总结：

通过测试指标对比以及全球网友的测试，Opus跟GPT4-Turbo打的有来有回，但GPT4-Turbo仍然是王者，只是其王座有点动摇罢了。在图像识别、图表理解、数学计算方面Opus有优势，就像Anthropic公司自己所说，Opus特别适合需要处理大量图形图表文档的商业公司。考虑到其API费用比GPT-4还高，普通用户费用跟GPT4-Turbo一样的情况下，我觉得我还是会选GPT4-Turbo，毕竟可以多一个绘图功能和那么多丰富的GPTs。

DC生肖网

AI大模型王座易位?全面超越GPT4的Claude3究竟怎么样？

开心盖土