且慢欢呼,今晨亮相的GPT-4O的4个意想不到

迈步看大势 2024-05-15 02:02:10

北京时间5月14日凌晨,OpenAI公布了最新的GPT-4o,o代表Omnimodel(全能模型)。美国媒体倒没什么,中国的自媒体连夜做报道,一片惊呼。

如果你仔细看看OpenAI发布的内容,你会发现OpenAI发展慢了,产品化的东西少了,产品的焦虑更大了。

不过,OpenAI的发布,有5个意想不到,确实值得关注。

一是产品。从GPT-4,人们期望OpenAI发布GPT-4.5或者GPT-5,让大模型实现质的飞跃。

业内对OpenAI的期待太高,除非是GPT-5这样的颠覆式创新,否则很难满足观众的“胃口”。

虽然Sam Altman在OpenAI线上直播前,已经预告不会发布GPT-5(或GPT-4.5),但外界对OpenAI的期待早已是九牛拉不转了。

最终,公布了最新的GPT-4o,o代表Omnimodel(全能模型)。虽然GPT-4o的演示效果仍可称得上“炸裂”,但业内人士普遍认为很难配得上Altman预告中的“魔法”二字。很多人认为,这些功能性的产品,都是“偏离OpenAI使命”的。

二是ChatGPT搜索引擎没有推出。在关于搜索引擎即将进入 ChatGPT 的传言中,OpenAI 今天表示,它将在周一演示其 AI 聊天机器人和 GPT-4 的更新。但首席执行官山姆·奥特曼(Sam Altman)表示,该活动将不包括GPT-5或搜索引擎的推出。相反,他承诺“一些我们认为人们会喜欢的新东西,对我来说就像魔术一样。

如果我们真的得到了一个 OpenAI 搜索引擎,它与 ChatGPT 已经做的事情有什么不同?

ChatGPT 的免费版本没有连接到网络,因此它无法在其回复中链接到引用的来源。它也没有 2022 年 1 月之后的数据,因为它是从固定的数据主体中提取的。ChatGPT Plus 克服了这两个问题,但每月收费 20 美元。今年 3 月,OpenAI 为付费用户提供了更突出的链接。

也许搜索产品是免费的,可以像谷歌一样在网络上搜索,但更像人性化,对话式的聊天机器人会带来更多。

三是免费漫天飞,但是国内能否用不得而知。OpenAI 的首席技术官 Mira Murati说,以后 OpenAI 做产品就是要免费优先,为的就是让更多的人能使用。

最近,ChatGPT 不用注册也可以使用了,今天又增加了桌面程序,OpenAI 的目标就是让人们可以随时随地的无感使用它,让 ChatGPT 集成在你的工作流中。这 AI 现在就是生产力了。

OpenAI 在一个模型中集成了所有模态,大幅提升了大模型的实用性。

GPT-4o 提供了「GPT-4 水准」的智能,但在 GPT-4 的基础上改进了文本、视觉和音频方面的能力,将在未来几周内「迭代式」地在公司产品中推出。

而在 GPT-4o 上,OpenAI 跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。

GPT-4o不仅通过缩短延迟极大地提升了体验,还在GPT-4的基础上做了很多升级包括:

·极佳的多模态交互能力,包括语音、视频,以及屏幕共享。

·可以实时识别和理解人类的表情,文字,以及数学公式。

·交互语音感情丰富,可以变换语音语调、风格,还可以模仿,甚至“即兴”唱歌。

·超低延时,且可以在对话中实时打断AI,增加信息或开启新话题。

·所有ChatGPT用户均可免费使用(有使用上限)。

·速度是GPT-4 Turbo的2倍,API成本低50%,速率限制高5倍。

「从技术角度来看,OpenAI 已经找到了一种方法,可以将音频直接映射到音频作为一级模态,并将视频实时传输到 transformer。这些需要对 token 化和架构进行一些新的研究,但总体来说是一个数据和系统优化问题(大多数事情都是如此)。」英伟达科学家 Jim Fan 如此评论道。

0 阅读:0

迈步看大势

简介:感谢大家的关注