GPT-4o没那么“炸裂”,它最大的颠覆是“免费”

数码两个接三个 2024-05-17 03:26:07

文|朱晓培

编辑|大道格

“ChatGPT这么会聊天,还要朋友干什么?”

“ChatGPT要毁灭全人类了。”

“OpenAI一夜改写历史,ChatGPT-4o干翻所有语音助手。”

5月14日,OpenAI举行春季发布会后,国内的科技媒体瞬间变成了“UC震惊总部”,纷纷鼓吹起了ChatGPT-4o的“颠覆力”。

然而,它并没有媒体们鼓吹得那么邪乎。

01、“呆瓜”变终极版“猫精”

如果说,之前的通用大模型,是只能读文看图、说废话的“呆瓜”,新发布的GPT-4o已经更加的自然、智能。原天猫精灵创始高管杜海涛称ChatGPT-4o是终极形态的“天精(天猫精灵)”。“只是我们之前是YY(想象智能音箱的终极形态),但人家实现了,确实厉害。”

在发布会现场,当OpenAI 的工程师Mark Chen对GPT-4o说:“我第一次来直播的发布会,有点紧张。”GPT-4o回答说:“要不你深呼吸一下”

Mark Chen故意做出夸张的呼吸动作时,GPT-4o能够识别出来,并响应说:“你这不行,喘得也太大了。”

当另一位工程师用前置镜头自拍后,GPT-4o识别出了他的情绪,“看起来很开心,甚至可以说是兴奋的”,还从他背后的画面判断其身处的环境,“看起来你在一个摄影棚中,背后有一些灯光,你的胸前还别着麦克风,可能在录制视频之类的”。

在这个演示过程中,我们可以看到,不论是用语音还是视频图像,GPT-4o与人的“人机对话”变得更为自然、流畅。人们可以随时中断对话,进入到下一个话题,GPT-4o能够及时识别并做出反应。而且,它还可以识别出人的情绪。OpenAI的CEO山姆·奥特曼(Sam Altman)将之称为“人类级别的响应”。

此外,在解答数学方式,测试代码等功能上,GPT-4o除了可以准确、快速地获得答案的同时,还可以讲解其中的原理和目的。

总之,GPT-4o看起来更像“人”了。这看起来是一个极大的进步。发布会之后,奥特曼在X上也发布了一个推文——Her。

《Her》是2013年上映的一部科幻片,讲述作家西奥多失恋后,爱上了电脑操作系统里的女声——萨曼莎。萨曼莎性感幽默、善解人意,但其实是一个以某哲学家为原型建造的OS系统,“她”总共有8316位人类交互对象,并与其中的641位发生了爱情,西奥多只是其中的一位。

从现场的演示来看,OpenAI现在发布的ChatGPT-4o确实很接近“Her”了。但它本质上,仍然是一个“聊天机器人”。它所演示的一些功能,其实在现有的移动互联网上都可以找到相应的原型,比如讲解数学题,是作业帮这样的教育APP上都有的功能,只是GPT-4o表现形式更加自然。

但是,认为它“颠覆人类”,实在是国内媒体的大惊小怪。金沙江创业投资基金主管合伙人朱啸虎认为,GPT-4o的发布,恰恰是大模型的技术迭代曲线放缓的表现。而且,此次,OpenAI宣布推出桌面版并免费,说明GPT的用户和收入增长都已经碰到瓶颈。

02、GPT-4o真正的大招是免费

一个有趣的现象,不论是之前GPT的出现,还是“文生视频”大模型Sora的发布,朋友圈里的AI从业者和创业者们都纷纷感慨技术的进步,鼓吹AI的创新能力。然而,这一次,GPT-4o发布后,创业者们表态得很少。朱啸虎的朋友圈甚至带了些唱衰的意思。

前后反差为何这么大?《商业与生活》认为,有两个原因。

第一,GPT-4o的人机交互能力固然又向前迈进了一步,但并没有像许多科技媒体鼓吹的那么“颠覆”。

GPT-4o的底层算法还是GPT-4,本质上仍是一个对话大模型,是将文字对话变成语音,中间加上了一部分联想,相当于把Sora对于自然语言的处理算法结合进来了。但是,这部分算法的结合,在使用过程中,仍然会有很高的错误率。

第二,GPT-4o宣布免费了,这对于任何一个大模型创业者,任何一家大模型创业公司来说,都算不上一个好消息。

GPT-4o开放了不注册也可使用的限制,目前用户可以选择免费限次数使用,或者付费不限次数地使用。OPenAI选择卷入免费模式的竞争,说明GPT的用户和收入增长都已经碰到瓶颈,但也会让其他大模型创业公司的生存环境变得更加艰难。

就在几天前,李开复还针对国内大模型赛道的“大乱斗”,呼吁创业者关注TC-PMF(Technology-Cost Product-Market-Fit,技术成本X产品市场契合度),拒绝ofo式烧钱打法,让大模型能够用健康良性的ROI(投资回报率)蓄能长跑。

然而,尽管所有的从业者都知道“ofo式烧钱”的打法不可持续,但是却没有人敢主动退出“烧钱”的行列。现在有一堆人涌进来做大模型,但客户不愿意付费,因为客户是非常理性。在技术水平差不多的情况下,肯定是哪家便宜就用哪家,哪家免费就用哪家。你收费,就不选你。

而现在,GPT-4o,这个技术明显比国内大模型更先进的大模型都选择免费了,其他做通用大模型的公司,就更没法向用户收费了。

实际上,大模型赛道的“大乱斗”不仅局限在创业公司之间,也已经卷到了云服务商。就在5月15日,火山引擎原动力大会上,字节发布跳动豆包大模型,定价只有0.0008元/千Tokens,推动大模型价格步入了“厘时代”。

03、“AI颠覆论”可以休矣

就在OpenAI春季发布会第二日,谷歌在新一届I/O开发者大会上,连续发布、更新了十多款产品,包括AI助手Astra、文生图模型Imagen3、对标Sora的文生视频模型Veo,以及备受瞩目的旗舰大模型Gemini。

其中,Gemini的新语音对话功能Live,直接对标OpenAI的GPT-4o,同样可通过语音、视频实时询问周围的情况,可以中断对话再及时跟进。

一个月前,Meta推出了大语言模型Llama 3,在对话理解、推理、图像生成等方面并没有明显的短板,生成体验平滑。Meta CEO 扎克伯格称其为,“迄今能力最强的开源大模型”。

大模型的更新,确实会改变一些应用层的体验。杜海涛就认为,随着大模型技术的进化,酒店机器人,新能源汽车,滴滴,高德,美团,淘宝,支付宝等大量与现实生活链接服务和内容型服务的体验更加智能。

大模型也可能会改变一些行业的格局,比如搜索格局,以前,人们想知道一件事怎么做,不会打开搜索引擎,或者打开某个APP再去搜索,但有了大模型,人们可以直接在手机、电脑上打开桌面版的大模型,与大模型直接对话。

然而,大模型的应用依旧是一个漫长的进程,特别是ToB的大规模的使用,是一个谨慎的过程,容不得一点儿差错。此前,某位创业者,也是大模型的B端用户就对《商业与生活》表示,“大模型现在还达不到那个效果,还需要很长一段时间的训练,才可以达到可用的临界点。”

年初Sora发布时,国内媒体一些媒体也用了“颠覆视频行业”,“Sora干翻抖音”。来形容它,然而3个月过去,实际使用效果平平,当初OPenAI发布的短片《气球人(Air Head)》。近日其制作团队Shy Kids揭露,这部短片,是三人耗费近两周才完成,后期(人的)工作量只增不减。

可以说,这两天国内一些媒体对GPT-4o的吹捧,实在是一种“惊诧论”。他们似乎有一种习惯,过度夸大硅谷成果,特别是OPenAI的成果。但同时,又国内科技公司的进展“格外克制”。

不论是Llama 3,GPT-4o,还是Gemini,在功能上大同小异。而国内近期发布的大模型,比如阿里通义2.5,官方宣传已经全面赶超 GPT-4。不过,那些宣扬“GPT-4o颠覆论”的媒体们,面对通义2.5时,又变得十分冷静了。

AI确实会改变人类的工作方式,比如显著提高程序员的工作效率,推进科学、医疗保健和各种领域的进步,最终会影响产品和经济的方方面面。但AI的出现,本意是创造一个AI个人助手,帮助用户处理复杂的任务以及采取行动,而不是试图取代或者颠覆人类。

那些刻意制造“AI焦虑”的言论,可以休矣。

0 阅读:19

数码两个接三个

简介:感谢大家的关注