自从 ChatGPT 出现,我就感觉,同声传译这个行业在未来5~10年会消失。
不过昨天 OpenAI 发布的 gpt-4o,让我感觉,人力同声传译的消失大概也就这1~2年的事。
这篇文章分两部分,我先简单谈谈同声传译这个行业,然后再来谈谈 OpenAI 发布的 gpt-4o 模型。
我读本科的时候大概09年左右,当时有一个大学老师,曾经在课堂上讲,市场上最紧缺的人才,其中一项就是同声传译,每年都能赚到一百多万。
我当时就在想,这工作好啊,工作也不累,在同声传译的小箱子里听外语,动动嘴皮子,翻译成中文,每场会议就能赚上万块钱。一年也能百万元收入。在09年左右,北京的一套100平的房子也就100多万啊。这是一年赚一套房子的节奏。
我当时在读电子信息专业,甚至冒出一个想法,要不自己也去尝试一下同声传译。
不过,后来我也慢慢了解了同声传译这种工作,实际上非常反人性。
首先,同声传译讲究实时性,它和别的笔译、口译不一样。它需要在讲话者说话的同时,实时进行翻译。另外,同声传译一般都是在一些很专业的国际会议上,作为一个同声传译,你光懂外语没有用,必须得懂得专业知识,这样才能确保翻译顺利进行。面对“肌酸蛋白酶”你该知道怎么翻译,面对“中心极限定理”,你也得懂得是什么含义。总之,其实很多外语专业的人并没有这方面知识,也导致了无法胜任同传工作。最后,同传这个工作,极其耗费脑力。我认识一个同学曾经做过一场同传,做完之后在床上躺了3天才缓过来。说白了,人体是有机能上限的,人是会疲累的。还有,除了同传现场工作强度很大之外。培养一个同传人才,也需要数年如一日的外语翻译学习。同传一直都是翻译行业的最具挑战性的工作。
不过,好日子不长了,AI 即将替代这一工作。
其实,AI 替代 人类的工作,在翻译这个领域体现的淋漓尽致。
早在上个世纪90年代,我们国家迎来改革开发,与世界各个国家展开了贸易与合作,由此,懂得外语,尤其是诸如日语、俄语、德语、西班牙语等小语种,是非常吃香的职业,很多影视剧里,你都会看到,做跨国贸易生意的大老板身边往往都陪着一位妆容精致、仪态端庄,思维敏捷的女翻译。可以说,在那个年代,从事翻译是很体面,赚钱的白领工作。
然而,好日子不长,随着英语的普及,越来越多的人都能够和外国人流利地对话,物以稀为贵的效应减弱,翻译职业不再那么光鲜亮丽。此外,决定翻译职业不再光鲜的另一个很重要的点,就是 AI 机器翻译的崛起。
大约是2009年的时候,我那时读大学,曾经兼职为外贸公司翻译过合同,当时的人工费用是每千字(词)收费 60 元人民币。那时谷歌和百度在网站上已经提供了机器翻译服务,只是当时的 AI 机器翻译效果还比较差,每次翻译都需要人工去做修正和调整。
时间到了 2017年,谷歌开发的机器翻译软件已经能够覆盖 90%的 翻译场景。可以说,一个完全不懂外语的人,把中文或者外文丢在谷歌的网站上,就能够输出八九不离十的翻译结果。此时,相比接近 10年前,笔译价格反而成了每千字(词)收费 30 元人民币,还不如十年前。这就是 AI 替代人力的结果。
可以说,翻译行业 应该是最早遭受 AI 冲击的行业。很多从事翻译的人也都逐渐转向其它行业工作中。过去翻译还是个收入不错的可以养家糊口的工作,现在,你基本上看不到谁还能把翻译作为全职行业了。
当然,同声传译除外,确实有一批人靠着同声传译来谋生。不过,前段时间,我还认为,同声传译在未来5到10年也会被 AI 替代。
我大意了,没有闪。
OpenAI 发布了 gpt-4o 模型。首先 gpt4 大家都有目共睹,非常强悍,具备很多领域的专业知识。
而 gpt-4o 其实就是把这种文字交互的能力,转为语音方式说出来。而且这还不够,它还能理解视频画面,总之,它已经是具有文本、语音、图像三种模态的理解力。是一种全新的大模型。
最绝的是,gpt-4o 模型能够做到实时与人类交互。
如果你之前用过 Siri 之类的语音助手,这里就可以看出明显的不同了。首先,你可以随时打断 AI 的话,不用等它说完就可以继续下一轮对话。其次,你不用等待,模型反应极快,比人类的回应还快。第三,模型能够充分理解人类的情感,自己也能表现出各种感情。
这里有个最关键的点,gpt-4o模型能理解并表现出人类的情感。
说实话,此前我在抖音上见到一些翻译行业的up主,还会说,AI 无法替代人类翻译,因为 AI 的翻译没有感情,其实 gpt-4 来做各种笔译,gpt-4o来做各种口译、同声传译,都是完全可以的,而且,还可以带理解、带感情。
在现场,OpenAI 的工程师拿出一个 iPhone 演示了新模型的几种主要能力。其中,最重要是实时语音对话,Mark Chen 讲:「我第一次来直播的发布会,有点紧张。」ChatGPT 说,要不你深呼吸一下。
好的,我深呼吸。
ChatGPT 立即回答说,你这不行,喘得也太大了。
如果你之前用过 Siri 之类的语音助手,这里就可以看出明显的不同了。首先,你可以随时打断 AI 的话,不用等它说完就可以继续下一轮对话。另外你不用等待,模型反应极快,比人类的回应还快。第三,模型能够充分理解人类的情感,自己也能表现出各种感情。
说穿了,就是,gpt-4o 表现得非常自然,没有过去的 AI 的那种机器味儿。
随后是视觉能力。另一个工程师在纸上现写的方程,让 ChatGPT 不是直接给答案,而是让它解释要一步步怎么做。看起来,它在教人做题方面很有潜力。
接下来尝试 GPT-4o 的代码能力。这有一些代码,打开电脑里桌面版的 ChatGPT 用语音和它交互,让它解释一下代码是用来做什么的,某个函数是在做什么,ChatGPT 都对答如流。
输出代码的结果,是一个温度曲线图,让 ChatGPT 以一句话的方式回应所有有关此图的问题。
其实,gpt-4o 里的 o,对应英文单词是 omnimodel,这里的 omni 就是全知全能的意思。模型无处不在,无所不知。颇有一种观世音菩萨的感觉。
关于同声传译,你可以看到,gpt-4o 在专业知识方面应该是碾压人类译员的,而且 AI 模型是机器,通电就能工作,也不会有累的干不动的时候。
最关键的一点来了,gpt-4o 可以做到实时,它最快可以在 232 毫秒的时间内响应音频输入,平均响应时长 320 毫秒,与人类相似。在 GPT-4o 发布之前,体验过 ChatGPT 语音对话能力的用户能够感知到 ChatGPT 的平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。
至此,翻译行业几乎可以说全军覆没,完全被 AI 替代。未来可能再也不会有同声传译了。
不过,如果你要问我,那还用学英语吗?
学英语还是很有必要的,至少在十到二十年之内。(或许这是我的毒奶,具体时间又会被提前呢?)
好了。其实,如果仅仅把 gpt-4o 拿来做翻译工具,真的是大材小用了。它的强大是整体性的,全知全能的强大。
来一个横向测评结果康康:
总之,我知道scaling law 一定会在多模态上展现超强的能力。我只是特别纳闷,为什么来的这么快?
我一直觉得,gpt4 这种带图像理解的模型会在几年后出现,但没想到它2023年4月就发布了。
我也一直以为,全模态(文字、图像、音频)的AI 模型至少也得等个3~5年吧。结果 gpt-4o现在就出了。
如果说 ChatGPT 刚出来时,我还有点兴奋和欣喜。现在的我就是:
其实现在的问题就是:
AI 科技的推进速度太快了,完全不给人类适应的时间。
生产力发展太快,生产关系完全跟不上这种超速的前进,导致人们很惊讶、很震惊、很害怕、很焦虑。
当你对一个技术习以为常时,说明你还很年轻。当你对一个技术感到恐惧,说明你已经开始老了。
讲真,看到 gpt-4o,我突然感觉自己有点老了~~~~