北京时间5月14日凌晨,OpenAI宣布了全新的GPT-4o(o:omni,全能)模型,具备GPT-4同等的智能,但运行速度更快,兼具文字、音频和视频能力。OpenAI表示,GPT-4o将同时向付费的Plus、Team用户,以及免费用户推出。
GPT-4o模型的多模态能力
GPT-4o模型向更自然的人机交互迈进了一步,因为它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。
“GPT-4o在语音、文本和视觉之间进行推理,”OpenAI 的首席技术官 Mira Murati在直播演示中说。“这非常重要,因为我们正在考虑我们自己和机器之间互动的未来。我们认为 GPT-4o 确实正在将范式转变为协作的未来。”
GPT-4 Turbo——OpenAI 之前的“领先”且“最先进”模型,是在图像和文本的组合上训练的,能够分析图像和文本以完成任务,如从图像中提取文本或甚至描述这些图像的内容。但GPT-4o将语音加入进来了。
这一步大大改善了用户使用语音与ChatGPT 交互的体验。也就是,现在与基于GPT-4o 的ChatGPT进行多轮语音交流可以更加的流畅和自然。
根据现场的演示,基于GPT-4o模型的ChatGPT确实也在多轮语音交互上非常流畅,丝毫感觉不到是在跟一个应用程序在交互。
在发布会上,OpenAI的员工演示了ChatGPT通过摄像头帮助实时求解方程,像人类一样说话,而且几乎是即时响应。
此外,在代码识别、解读图片信息、实时翻译、识别人脸信息等功能的现场测试环节上,ChatGPT都表现出色,快速给出流畅的回答,并且用户还可以在 ChatGPT 回答时打断它,不用等到它回答完毕之后,才能进行新一轮的互动。
ChatGPT 对话变流畅背后
OpenAI表示,GPT-4o可以在最快232毫秒的时间内响应音频输入,平均响应时间为320毫秒,这与人类在对话中的响应时间相似。
此前基于GPT-3.5和GPT-4模型,使用语音与ChatGPT 对话,平均延迟时间为2.8 秒和5.4 秒,会感觉到交互比较“卡顿”,不够自然。
这是因为此前用户跟ChatGPT进行语音交互,后端的会有3个独立的模型配合对语音请求进行处理:一个模型将音频转录为文本,一个模型接收文本并输出文本,再有一个模型将该文本转换回音频。
这样的信息处理过程中,其实丢失了很多的信息。
“过去我们将转录、智能和文本转语音全部结合在一起并进行编排以提供语音交互模式。这给体验带来了很大的延迟,确实破坏了与ChatGPT 协作的沉浸感。但现在有了GPT-4o,这一切都会自然发生。GPT-4o跨越语音、文本和视觉进行推理。”Mira Murati 表示。
惠及更多免费用户
今天,有超过1亿人使用ChatGPT 来工作、学习,但是至少到目前为止,只有付费用户可以使用 OpenAI 最先进的模型。但是GPT-4o将同时向付费的Plus、Team用户,以及免费用户推出。
OpenAI 表示,从今天开始,GPT-4o 将在 ChatGPT 的免费层中可用,并提供给 OpenAI 的高级 ChatGPT Plus 和团队计划的订阅者,这些订阅者的“消息限制是免费用户的 5 倍”。
OpenAI 还向免费用户提供了上传文件和照片进行摘要和分析的能力,使用 ChatGPT 搜索网络,以及使用具有先前聊天记录记忆功能的 GPT-4,所有这些功能之前都是需要订阅才能使用。
OpenAI 指出,当用户达到速率限制时,ChatGPT将自动切换到 GPT-3.5,这是一个较旧且能力较低的模型。由 GPT-4o 支持的改进 ChatGPT 语音体验将在下个月左右为 Plus 用户以 alpha 版本到达,同时提供面向企业的选择。
OpenAI 宣布它正在发布一个全新的 ChatGPT 网页版交互界面,带有新的“更会话式”的主屏幕和消息布局,以及一个适用于 macOS 的 ChatGPT 桌面版本,允许用户通过键盘快捷键提问或拍摄和讨论屏幕截图。Windows 版本将今年晚些时候发布。