GPT-4o模型驱动的ChatGPT能与人类进行多轮对话，表现堪称惊艳

北京时间5月14日凌晨，OpenAI宣布了全新的GPT-4o（o：omni，全能）模型，具备GPT-4同等的智能，但运行速度更快，兼具文字、音频和视频能力。OpenAI表示，GPT-4o将同时向付费的Plus、Team用户，以及免费用户推出。

GPT-4o模型的多模态能力

GPT-4o模型向更自然的人机交互迈进了一步，因为它接受文本、音频和图像的任意组合作为输入内容，并生成文本、音频和图像的任意组合输出内容。

“GPT-4o在语音、文本和视觉之间进行推理，”OpenAI 的首席技术官 Mira Murati在直播演示中说。“这非常重要，因为我们正在考虑我们自己和机器之间互动的未来。我们认为 GPT-4o 确实正在将范式转变为协作的未来。”

GPT-4 Turbo——OpenAI 之前的“领先”且“最先进”模型，是在图像和文本的组合上训练的，能够分析图像和文本以完成任务，如从图像中提取文本或甚至描述这些图像的内容。但GPT-4o将语音加入进来了。

这一步大大改善了用户使用语音与ChatGPT 交互的体验。也就是，现在与基于GPT-4o 的ChatGPT进行多轮语音交流可以更加的流畅和自然。

根据现场的演示，基于GPT-4o模型的ChatGPT确实也在多轮语音交互上非常流畅，丝毫感觉不到是在跟一个应用程序在交互。

在发布会上，OpenAI的员工演示了ChatGPT通过摄像头帮助实时求解方程，像人类一样说话，而且几乎是即时响应。

此外，在代码识别、解读图片信息、实时翻译、识别人脸信息等功能的现场测试环节上，ChatGPT都表现出色，快速给出流畅的回答，并且用户还可以在 ChatGPT 回答时打断它，不用等到它回答完毕之后，才能进行新一轮的互动。

ChatGPT 对话变流畅背后

OpenAI表示，GPT-4o可以在最快232毫秒的时间内响应音频输入，平均响应时间为320毫秒，这与人类在对话中的响应时间相似。

此前基于GPT-3.5和GPT-4模型，使用语音与ChatGPT 对话，平均延迟时间为2.8 秒和5.4 秒，会感觉到交互比较“卡顿”，不够自然。

这是因为此前用户跟ChatGPT进行语音交互，后端的会有3个独立的模型配合对语音请求进行处理：一个模型将音频转录为文本，一个模型接收文本并输出文本，再有一个模型将该文本转换回音频。

这样的信息处理过程中，其实丢失了很多的信息。

“过去我们将转录、智能和文本转语音全部结合在一起并进行编排以提供语音交互模式。这给体验带来了很大的延迟，确实破坏了与ChatGPT 协作的沉浸感。但现在有了GPT-4o，这一切都会自然发生。GPT-4o跨越语音、文本和视觉进行推理。”Mira Murati 表示。

惠及更多免费用户

今天，有超过1亿人使用ChatGPT 来工作、学习，但是至少到目前为止，只有付费用户可以使用 OpenAI 最先进的模型。但是GPT-4o将同时向付费的Plus、Team用户，以及免费用户推出。

OpenAI 表示，从今天开始，GPT-4o 将在 ChatGPT 的免费层中可用，并提供给 OpenAI 的高级 ChatGPT Plus 和团队计划的订阅者，这些订阅者的“消息限制是免费用户的 5 倍”。

OpenAI 还向免费用户提供了上传文件和照片进行摘要和分析的能力，使用 ChatGPT 搜索网络，以及使用具有先前聊天记录记忆功能的 GPT-4，所有这些功能之前都是需要订阅才能使用。

OpenAI 指出，当用户达到速率限制时，ChatGPT将自动切换到 GPT-3.5，这是一个较旧且能力较低的模型。由 GPT-4o 支持的改进 ChatGPT 语音体验将在下个月左右为 Plus 用户以 alpha 版本到达，同时提供面向企业的选择。

OpenAI 宣布它正在发布一个全新的 ChatGPT 网页版交互界面，带有新的“更会话式”的主屏幕和消息布局，以及一个适用于 macOS 的 ChatGPT 桌面版本，允许用户通过键盘快捷键提问或拍摄和讨论屏幕截图。Windows 版本将今年晚些时候发布。

DC生肖网