AI大模型王座易位?全面超越GPT4的Claude3究竟怎么样?

开心盖土 2024-04-02 09:24:49

昨晚Claude3发布,感觉又重新经历DOS、Windows3、Win95的时代,AI界的浪潮一波一波涌动。Claude3这次发布了3个模型家族,以Opus作品,Sonnet十四行诗,Haiku俳句来命名。据发布的测试指标来看,Opus所有的测试都超过了GPT4,于是媒体各种“暴打GPT4”“AI王座易主”“AI新王驾到”的报道铺天盖地,然而真实情况是这样吗?我们来详细了解一下。

概述:

Claude 3模型是由Anthropic公司开发,是一群原OpenAI员工不满OpenAI对模型开发的安全问题,离职后另起炉灶创立的。这次发布的3个模型Opus是最强且最智能的,需要充值才能使用,普通用户20美元每月跟GPT4一样,Haiku速度最快而尚未发布,Sonnet是速度和智能的平衡并可以免费使用,官网已经将Claude2换成了Claude3 Sonnet。

https://claude.ai/chat

3个模型均具备视觉能力,能够处理和分析图像数据,但不能联网,知识库更新至2023年8月。从发布的测试数据看,Opus确实全面超过了GPT4。

如果只是看Claude3那42页的技术报告,那么Claude3确实该称为AI通用模型新王。然而Anthropic公司在这里埋了个坑,很多媒体没有详细查询技术文档,都掉进坑里了。这个坑就是这份技术报告只是Claude3跟GPT4-0314在对比测试,而没有跟GPT4-Turbo-1106对比。而目前最强的模型是GPT4-Turbo-1106,看一下真实的王者对比图。

在评估两者的每个基准上,GPT4-Turbo-1106都优于Opus。然而,考虑到性能大小的差距,Claude 3在最难的GPQA(钻石级研究生问答)上的表现应该优于GPT4-Turbo-1106,尽管GPT4-Turbo-1106尚未在 GPQA 上进行评估。

下面我们从Claude3发布的技术报告,详细分析一下它的优势。

Claude3技术优势分析:

推理能力:这一类别的基准需要数学、科学和常识性的重新分析,测试模型得出逻辑结论和将知识应用于现实世界场景的能力。

Claude 3模型在最难的钻石级GPQA(研究生问答)中,达到50.4%的准确率。据说即使是可以上网的博士也只能获得这项35%的准确率。

全球网友做了很多真实测试让Opus跟GPT4-Turbo和Gemini1.5对比,来看看其中一些例子。

Opus的简单数学计算

指令理解准确,计算结果也算正确,就是有个四舍五入的小问题,它把26.455%四舍五入为26.45%了,按常识应该是26.46%。这个GPT4-Turbo和Gemini1.5失败了。

再看一下图表统计(答案正确)

最后一个脑经急转弯问题,这个应该属于一般推理,这项Opus完败,GPT4-Turbo能很好的理解这个问题,绕开了思维陷阱。

我用免费的Sonnet也测了一次,它还是错的,甚至我随后引导了两次它仍然回答4个。

多语言能力:该类别包括多种语言的翻译、总结和推理任务,评估模型的语言通用性和跨语言理解能力。

在MGSM多语言数学任务中,Claude 3 Opus在0-shot条件下达到90.7%的准确率,显著高于GPT-4。

下面这个英语的字面意思和实际意义,Opus完全理解了,Gemini1.5理解错误。

原文为英文

原文为英文

另外用过Claude2的人对其对中文理解的印象应该比较深刻,所以在多语言理解能力上Opus应该是不输GPT4-Turbo的。

长上下文处理:这些评估侧重于问题回答和检索,评估模型在处理扩展文本和提取相关信息方面的性能。

Claude 3模型支持至少1M tokens的上下文长度,而GPT-4通常处理的上下文长度较短。虽然目前发布还是200K的上下文,1M上下文需要特别申请,但还是超越GPT4-Turbo-128k。

诚实/事实性:这类问题评估了模型提供准确和可靠的回答的能力,无论是根据事实的准确性还是对所提供的来源材料的保真度。当不确定时,模型应该诚实地了解它们的局限性,表达不确定性或承认它们没有足够的信息来提供明确的答案。

虽然其公司声称Claude3严格按宪法AI(Constitutional AI)训练,Opus也确实比Gemini1.5做的好的多,但网友一个测试还是试出了Opus的“政治正确”。

多模态能力:评估包括科学图上的问题、视觉问题回答和基于图像的定量推理。

从官方测试图表看,除了个别细分项,Claude3比起GPT4V大部分占优。

再看看实测图就知道Opus在图像识别上是多么强大了。

以上两个实测只有Opus完全正确。

总结:

通过测试指标对比以及全球网友的测试,Opus跟GPT4-Turbo打的有来有回,但GPT4-Turbo仍然是王者,只是其王座有点动摇罢了。在图像识别、图表理解、数学计算方面Opus有优势,就像Anthropic公司自己所说,Opus特别适合需要处理大量图形图表文档的商业公司。考虑到其API费用比GPT-4还高,普通用户费用跟GPT4-Turbo一样的情况下,我觉得我还是会选GPT4-Turbo,毕竟可以多一个绘图功能和那么多丰富的GPTs。

0 阅读:0

开心盖土

简介:感谢大家的关注