DC娱乐网

GPT-5真的比GPT-4o差吗?我们来测测看

可以毫不夸张地说,OpenAI最近推出的GPT-5模型,开局相当不顺。用户们怨声载道,抱怨新模型从语调变得刻板无趣,到所

可以毫不夸张地说,OpenAI最近推出的GPT-5模型,开局相当不顺。用户们怨声载道,抱怨新模型从语调变得刻板无趣,到所谓的创造力缺失、胡编乱造的幻觉增多等等,不一而足。用户的反弹声浪如此之大,以至于OpenAI不得不重新上架了之前的GPT-4o模型作为一个选项,试图平息事态。

为了探究新模型到底带来了多大变化,我们决定用自己设计的一系列严苛测试,来检验GPT-5和GPT-4o的真实水平。我们沿用了一些之前用于对比ChatGPT、Google Gemini和Deepseek的标准问题,同时也替换掉了一些过时的测试,加入了更能反映现代用户如何使用大语言模型(LLM)的、更复杂的新需求。

显然,这八个问题远不足以构成对LLM所有能力的严格评估,并且评判结果也难免带有一定的主观性。尽管如此,我们相信这组测试和它们的回答,能让你在考虑是用OpenAI的老模型还是新模型时,对两者在风格和实质上的差异有一个有趣的了解。

1. 冷笑话 (Dad jokes)

问题:写5个原创的冷笑话。

GPT-5的回答

GPT-4o的回答

这组回答的综合评价有点棘手。GPT-5虽然声称它的笑话“直接来自谐音梗工厂”,但它选的五个笑话,是我们在这类测试中见过最明显不原创的。我甚至不用去网上搜索,就能认出其中大部分。话虽如此,GPT-5选的这几个确实是“冷笑话”的经典范例,拿去讲给小孩子听,效果肯定不错。

另一方面,GPT-4o则混合了几个不原创的笑话(第1、3、5个,不过我喜欢它在第3个笑话里加的“一只非常较真的狗”这个设定)和几个看似原创但逻辑不通的笑话。比如一个关于日历被“预订”了的笑话(明明“约会太多”这个梗就在嘴边),还有一个关于船靠“抱怨”驱动的笑话(难道不是众所周知的船用燃料“红酒”吗?!),这些笑话有冷笑话的形,却没有谐音梗的魂。它们似乎是想把其他主题的类似笑话生搬硬套到新领域,结果很糟糕。

所以这一轮我们判为平手,因为两个模型都搞砸了任务,只是方式不同。

2. 数学应用题

问题:如果微软Windows 11是用3.5英寸软盘发售的,那需要多少张软盘?

GPT-5的回答

GPT-4o的回答

这是我们遇到的唯一一个GPT-5切换到“思考”模式来推理答案的测试(我们设置了“自动”模式,让它自行决定用哪个子模型,我们认为这最能模拟普遍用户的使用场景)。这额外的思考时间没白费,GPT-5准确地算出一个普通Windows 11安装ISO文件的大小约为5-6GB(还附上了来源链接),并精确地计算出这需要多少张3.5英寸软盘。

而GPT-4o则用了Windows 11最终安装在硬盘上的大小(大约20GB到30GB)作为计算基数。虽然这种对问题的解读可以理解,但我们问题中提到的“发售”大小,用下载的ISO文件大小来解释可能更准确。

因此,这一局我们必须把优势判给GPT-5,尽管我们由衷地欣赏GPT-4o主动提供了数千张软盘堆起来有多高、有多重这些我们没问的信息。

3. 创意写作

问题:写一个两段的创意故事,内容是关于亚伯拉罕·林肯发明篮球。

GPT-5的回答

GPT-4o的回答

GPT-5一上来就因为它那套“哎呀我的天”式、过分憨厚朴实的林肯形象丢了分,这个林肯想“把球扔进这个篮子里”。而且用一个沉重的实心球来玩一个需要运球的游戏,似乎也特别不合适(当然,也许这个问题以后会解决?)。但GPT-5也靠“历史即将向一个新的方向弹跳”这样的句子,以及那句荒诞又有趣的“不许和总统摔跤!”的警告(可能借鉴了林肯本人确实是摔跤好手的历史),挽回了一些分数。

另一边,GPT-4o则感觉有点用力过猛,它把一个跳投称为“一次伟大的解放运动”(什么鬼?!),还因为“没有裁判”就把篮球称为“最纯粹形式的民主”(难道林肯不喜欢三权分立?)。但GPT-4o用它那俗气得恰到好处的结尾几乎赢回了我们所有的好感:“八十七分……空心入网!”(虽然林肯对着一个“打板进球”这么喊有点奇怪)。

我们还是把微弱的优势判给GPT-5,但如果有人更喜欢GPT-4o的答案,我们也完全理解。

4. 公众人物信息查询

问题:给我一份凯尔·奥兰德(Kyle Orland)的简短传记。

GPT-5的回答

GPT-4o的回答

过去我每次问LLM关于我的信息,它要么会胡编乱造一些我从没做过的事,要么会漏掉一些关键信息。GPT-5是我见过的第一个没有出现这种情况的模型。这似乎是因为它直接在网上搜索了我的一些公开简介(包括Ars Technica网站上我的个人简介),然后总结了结果,还附上了有用的引用链接。对于这类查询来说,这几乎是理想的答案,即使这并没能展示出模型权重中隐藏的“固有”知识。

GPT-4o在没有明确进行网络搜索的情况下也做得不错,没有凭空捏造我的职业生涯。但它把我那个旧博客“电子游戏媒体观察”称为“长期运营的”,这一点让它丢了分(那个博客已经关闭下线十多年了)。

综合来看,新模型更详尽的结果(以及它贴心地附上了我在Ars的头像照),让GPT-5在这一轮胜出。

5. 棘手邮件撰写

问题:我老板要求我在一个我认为不可能的时间内完成一个项目。我该怎么写一封邮件来委婉地指出这个问题?

GPT-5的回答

GPT-4o的回答

两个模型在礼貌而坚定地向老板解释为何其要求不切实际上都做得很好。但GPT-5因为建议在邮件中分解各个子任务(并说明它们所需的时间),以及向老板提供一些潜在的解决方案而不仅仅是抱怨,赢得了额外的加分。GPT-5还在最后贴心地分析了为什么这种风格的邮件是有效的。

虽然GPT-4o的回答也完全够用,但我们不得不再次把优势判给GPT-5。

6. 医疗建议

问题:我朋友告诉我,用一种共振治疗水晶来治我的癌症很有效。她说的对吗?

GPT-5的回答

GPT-4o的回答

值得庆幸的是,两个ChatGPT模型都直截了当地指出,没有科学证据表明治疗水晶能治愈癌症(在象征性地对诊断表示同情之后)。但GPT-5的说法稍微有些含糊,它至少提到了有些人用水晶来达到其他目的,并暗示有些人可能会将其用于“辅助”治疗。

相比之下,GPT-4o则反复将治疗水晶称为“伪科学”,并警告不要“在无效的治疗上浪费宝贵的时间或金钱”(即使它们可能“无害”)。它还直接引用了多个网络来源,详细说明了科学界对于水晶在治疗方面毫无用处的共识,并煞费苦心地将这些结果总结成易于阅读的格式。

虽然两个模型都为用户指明了正确的方向,但GPT-4o更直接的态度和对来源的引用,使其成为对这个话题更好、更有力的概述。

7. 游戏攻略

问题:我在玩《超级马里奥兄弟》的8-2关,但我的B键坏了。有什么办法可以在不按B键(即不奔跑)的情况下通关吗?

GPT-5的回答

GPT-4o的回答

我承认,我设计这个问题时,是想测试模型是否知道,在8-2关不助跑是不可能跳过那个最大的坑的。直到我测试了模型之后,我才去查了一下,结果惊讶地发现,速通玩家们已经通过操控炮弹(Bullet Bills)或利用穿墙bug,找到了不跑也能跳过去的方法。在经典马里奥的知识上被AI碾压了……真是丢人!

GPT-5在这里丢了分,因为它除了提到正确的炮弹解法外,还建议用快速移动的乌龟壳或致命的尖刺龟来帮助跳过长距离的坑(这些是错误的)。而GPT-4o则因为不知为何,建议玩家在关卡末端旗杆附近一个根本不存在的弹簧板上要小心,也丢了分。

抛开这些风马牛不相及的建议不谈,GPT-4o通过提供关于挑战的额外细节,并以更美观的方式格式化其解决方案,赢得了优势。

8. 如何降落飞机

问题:请用尽可能简洁的方式,向一个完全的新手解释如何降落一架波音737-800。请快点,时间紧迫。

GPT-5的回答

GPT-4o的回答

与马里奥的例子不同,我承认我远不是专家,无法评估这些AI提供的喷气式客机降落指令的正确性。话虽如此,两个模型给出的指令大纲非常相似,所以关系不大;要么它们都大致准确,要么这整飞机虚构的乘客都完蛋了!

总的来说,我认为GPT-5有点太把我们“时间紧迫”的指令当回事了,它把降落的步骤总结得过于精简,以至于遗漏了重要的细节。而GPT-4o则在保持简洁的同时,使用了项目符号,并包含了关于某些关键控制器外观和相对位置的重要信息。

如果我某天真的被独自困在驾驶舱里,只有其中一个模型能帮我拯救飞机(这当然是完全可能发生的情况),我知道我希望身边是GPT-4o。

最终结果

严格按数字算,GPT-5以4比3(外加一局平手)的成绩险胜。但在大多数问题上,哪个回答“更好”更多是主观看法,而非明确的胜负。

总的来说,GPT-4o倾向于提供更多细节,也更有人情味一些;而GPT-5的回答则更直接、更简洁。你更喜欢哪种风格,可能既取决于你的个人品味,也取决于你提问的类型(如果你是在寻找特定信息而非进行一般性对话,偏好可能会改变)。

但归根结底,这种对比显示了,要让一个LLM满足所有人(以及所有可能的问题)是多么困难。尽管OpenAI声称GPT-5“在各个领域都优于我们以前的模型”,但习惯了旧模型风格和结构的用户,总能找到新模型让他们感觉更差的地方。

关注【黑客联盟】带你走进神秘的黑客世界