机缘巧合之下相遇,被一个想法迷住,然后写下“Transformer”那篇论文,近期史上最重要的技术突破。
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。
编者按:前人种树,后人摘果。在科技圈,科技巨头做出创新技术但成果却被初创企业窃取的情况屡见不鲜。最近的例子之一便是谷歌与OpenAI。最近对科技圈产生最深远影响的论文《Attention Is All You Need》就是谷歌的人发表的,但最终引爆市场的却是OpenAI。那篇论文的所有8位作者后来均离开了谷歌,本文介绍了这篇论文的诞生故事,并介绍了他们的最新动向。也许里面最值得深思的,是如何打造创新的土壤。我们如何才能打造出那样的土壤呢?文章来自编译。
已成传奇2017 年春发表的科学论文《你所需要的只是注意力》(Attention Is All You Need)共有八位作者,他们都来自谷歌,不过当时其中一人已经离开了公司。当其中最资深的作者诺阿·萨泽尔(NOAM SHAZEER)看到初稿时,他意外地发现自己的名字位列所有作者之首,这似乎表明他所做的贡献最为显著。他说:“我可不是这么想的”。
作者名单如何排序从来都是件需要精心权衡的事情:谁应该独享第一作者的美誉?谁又该不幸的被排在倒数第一?当每位参与者在真正意义上的团队合作都做出了显著贡献时就更难权衡了。研究者们在完成论文的紧张过程中,最后采取了一种“颠覆性”的做法来打破常规的作者排名。他们给每个名字后面都标注了一个星号,并在脚注明确指出:“各人的贡献均等”,“作者排序按随机排列”。此举无疑给学界惯例带来挑战。在截止日期前夕,他们将论文提交给一个声誉卓著的人工智能会议——并进而在该领域掀起了一场革命。
在论文发表临近七周年之际,《注意力就是你的全部所需》已成为传奇。作者们的出发点是一项日趋成熟且不断进步的技术——一种被称为神经网络的人工智能。他们把它发展成了一种全新的系统:这个系统是如此的强大,以至于它的输出仿佛来源自非人类的智能。这种被称为 Transformer 的体系结构正是 ChatGPT、Dall-E 以及 Midjourney 等引人注目的 AI 产品背后的核心技术。Shazeer 如今调侃道,如果他当初知道这篇论文会那么出名的话,他 “可能会对作者排序更加介意”。但现在,所有的八名签署作者都已经小有名气。利昂·琼斯(Llion Jones)的名字(当然是随机的)恰好排在第五位,他说:“就因为我的名字出现在了一篇论文上,有人就找我合影了!”。
杰弗里·辛顿 (Geoffrey Hinton)虽不是论文的作者之一,但也许确实全球最卓越的人工智能科学家。他说:“要不是因为有了transformers,我觉得我们走不到今天这一步。”他指的是随着OpenAI等公司开发出能与人类产出相媲美,甚至在某些情况下超越人类产出的系统,我们已经进入到一个地动山移的时代。
现如今,所有这八位作者都已离开谷歌。跟成千上万人一样,他们目前正以各种方式参与到由他们在 2017 年所创造的系统推动的工作当中。我采访了这八位 Transformer 的发明者,希望能揭示一项颠覆性成果——一次凝聚人类智慧的努力,创造出一台有可能最终主导话语权的先进机器——的内在结构。
诞生故事Transformers的故事要从这八个名字的第四个开始:雅各布·乌斯克尔特(Jakob Uszkoreit)。
雅各布·乌斯克尔特是著名的计算语言学家汉斯·乌斯克尔特(Hans Uszkoreit)的儿子。 20 世纪 60 年代末,还是高中生的汉斯因抗议苏联入侵捷克斯洛伐克而在自己的祖国东德被监禁了 15 个月。获释后,他逃往西德,并开始在柏林学习计算机和语言学。雅各布出生那年,他去了美国,到加州门洛帕克的一家研究机构 SRI 的人工智能实验室工作。后来他们家又重新回到德国,雅各布也在那里上了大学。他起初并没计划要专研语言学,但当他开始研究生学业时,他拿到了到谷歌山景城总部的实习机会,并加入了公司的翻译小组,看来他最终还是投入到家族事业之中了。他后来放弃了读博的计划,2012年,他决定加入谷歌的一支团队。当时该团队正在打造一个不需要将用户重定向到其他网站,可以直接在搜索界面回答用户问题的系统。那时候苹果刚刚推出了 Siri,一个在日常交谈当中提供即时答案的虚拟助手,这让谷歌的管理层感受到巨大的竞争压力:因为Siri 有可能会冲击到他们的搜索流量。因此,他们开始更加关注雅各布·乌斯克尔特领头的这个新团队。
乌斯克尔特表示:“那其实是场不必要的恐慌,”事实上 Siri 从未对谷歌构成过实质性的威胁。但他对此还是很高兴,因为这是可以深入钻研人机对话系统的机会。在当时,在学术上曾被认为一潭死水的循环神经网络(recurrent neural networks),其表现突然超越了其他的人工智能工程方法,这种神经网络由多层组成,信息可以在在这些层之间传递和反复传递,从而能识别出最佳的回应。神经网络在图像识别等多个领域取得了巨大进展,人工智能因此迎来了全面复兴。谷歌开始疯狂发动自己的员工队伍,要求他们采用这些新技术。他们希望能开发出能生成类似人类响应的系统,比如可在邮件自动补全句子或做出相对简单的客服聊天机器人。
但这一领域后来遇到了难题。循环神经网络在处理长文本时表现不佳。比方说,要想理解 “Joe 是一名棒球运动员,在享用了一顿丰盛的早餐之后,他在棒球场上打出两记安打。”这句话里面的“两记安打”,语言模型就必须记住前面提到的棒球。换言之,模型必须维持注意力。对此业界公认的解决方案叫做“长短时记忆”(LSTM),这种革新技术让语言模型能够处理更长、更复杂的文本序列。但计算机还是严格按顺序来处理这些序列——一个一个单词地去处理,乏味至极——这种做法会错过后续可能出现的上下文线索。乌斯克尔特表示:“我们采取的做法基本上只是临时应急措施,并没有找到可以真正规模化的处理手段。”
大概在 2014 年左右,他开始酝酿一种新的做法,他称之为自注意力机制(self-attention)。这种网络可以引用段落文字的任何其他部分,借此来翻译一个词。这其他部分的内容可以明确某个词想要表达的意思,从而帮助系统生成准确的翻译。他说:“其实这种机制已经考虑到所有因素,提供了一种能同时高效地审视众多输入信息,并以相当有选择性的方式提取信息的方法”。虽然人工智能科学家们都很小心,避免将神经网络的隐喻与生物大脑的实际工作方式混为一谈,但乌斯克尔特依旧认为自注意力机制在一定程度上与人类处理语言的方式有相似之处。
乌斯克尔特相信,自注意力模型有望比循环神经网络快得多、也更有效。其处理信息的方式与强大的并行处理芯片完全匹配,后者已经被大规模生产出来,用来支撑机器学习热潮。与线性处理方法(按顺序查看每个词)不同,它采用了一种并行的处理方法(同时查看一批词)。乌斯克尔特在想,如果处理得当的话,或许只用自注意力模型就能收获更出色的结果。
并不是所有人都认同这个想法能震撼世界,其中也包括乌斯克尔特的父亲在内。雅各布在谷歌供职期间,汉斯·乌斯克尔特获得了两项谷歌学术研究奖。雅各布·乌斯克尔特表示:“大家都对此感到吃惊,因为它抛弃了所有现有的神经网络架构。”跟循环神经网络说再见?简直是异端!“从我跟父亲吃饭时的对话情况来看,我们的观点并不完全一致。”
乌斯克尔特说服了几位同事对自注意力模型进行实验。他们的工作成果展现了希望,2016 年还发表了一篇论文。乌斯克尔特想推动他们进一步研究——因为该团队只用了非常少量的文本段落进行试验——但没有一位合作者对此感兴趣。他们就像是只想小赌一把就的赌客,拿得到一点奖金就离场了。乌斯克尔特说“这东西确实管用。那篇文章的合作者对于将自己的研究成果运用到谷歌的不同地方,包括搜索引擎,最终还有广告系统等感到十分兴奋。从很多方面来看这都是一个了不起的成就,但我并不想就此打住。”
乌斯克尔特相信自注意力能胜任更大的任务。在谷歌园区北边查尔斯顿路 1945 号楼(用地址命名)里,他会向任何愿意(以及不愿意)倾听的人讲解他的设想,并在白板上勾勒出他的愿景。
2016年的某一天,在谷歌的一个咖啡店里,乌斯克尔特正在与一名来自乌克兰的科学家共进午餐,此人名叫伊利亚·波洛苏欣(Illia Polosukhin),已经在谷歌工作了近三年。波洛苏欣被分配到的团队负责解答在搜索框里直接提出来的问题。但他们的成果并不如预期。波洛苏欣说:“要想在 Google.com 上提供答案,你得有一个成本低效果好的方案。因为必须在几毫秒内做出响应。”当波洛苏欣对此表达不满时,乌斯克尔特毫不犹豫地给出了自己的解决方案。波洛苏欣回忆道:“他提议说,为什么不试试自注意力机制呢?”
波洛苏欣有时候会跟另一位同事合作。阿什什·瓦斯瓦尼(Ashish Vaswani)在印度出生,在中东长大,曾就读南加州大学(USC),并在该校顶级的机器翻译小组获得了博士学位。然后,他来到山景城,加入了谷歌——具体来说是去到谷歌新成立的Google Brain部门。在他眼里,Google Brain是一个十分激进的组织,坚信“神经网络将推动人类认知的加深”。但他一直想找个值得投入进去的大项目。他的团队在 1965 号楼工作,这栋建筑正好位于波洛苏欣的语言团队所在的1945号楼旁边,然后他听说了自注意力机制的构想。这会是他想要的那种项目吗?他同意参与进来。
三位研究人员共同起草了一份设计文档,名字叫做“Transformers:迭代自我注意力机制记各种任务的处理”。乌斯克尔特说,他们从“零日”(day zero)中选中了“transformers”这个名字。其想法是,这种机制可以变换所接收的信息,让系统能够析取出尽可能多的理解,或者至少给人以那种错觉。再加上乌斯克尔特对小时候玩孩之宝动作人偶的美好时光仍历历在目: “我很小的时候曾经有过两个变形金刚小玩具”。这份文档文件甚至还用六个变形金刚在群山之间互射激光的卡通图片作为结束。
论文开头的那句话也有点招摇:“我们太棒了。”
2017年初,波洛苏欣离开谷歌自主创业。此时,新的合作者也开始陆续加入该项目。印度工程师尼基·帕尔玛(Niki Parmar)曾在印度为一家美国软件公司工作,之后又移居到美国。2015年她在南加州大学(USC)获得硕士学位后,各大科技巨头均向她伸出了橄榄枝。她最后选择了谷歌。开始工作后,她开始与乌斯克尔特合作,通过研发模型变体来增强谷歌搜索功能。
另一位新成员是 利昂·琼斯(Llion Jones)。他在威尔士出生长大,热爱计算机,“因为这东西不一般。”在伯明翰大学,他修了一门人工智能课程,对用历史趣事呈现的神经网络产生了兴趣。2009年7月,他拿到了硕士学位,但由于经济不景气难以找到工作,曾靠失业救济维持了几个月。之后他到一家本地公司找到了一份工作,然后用“孤注一掷”的心态去投了谷歌。他最终得到了这份工作,进入到Google Research,而他的经理正是波洛苏欣。某一天,琼斯从同事Mat Kelcey那里听说了自注意力的概念,之后决定加入transformer团队。(后来,琼斯碰到Kelcey时提到了transformer项目,但 Kelcey 对此并不看好。现如今的Kelcey是这么说的:“我跟他说,‘我不确定这能不能行得通’,这基本上算是我这辈子错得最离谱的预测了”。)
Transformer项目吸引了同样致力于改进大语言模型的其它Google Brain团队研究人员。这第三波人包括波兰出生的理论计算机科学家乌卡什·凯撒(Łukasz Kaiser) 以及他的实习生 艾丹·戈麦斯(Aidan Gomez)。戈麦斯在加拿大安大略的一个小农庄长大,每年春天,他家都会采集枫木汁制作成糖浆。在多伦多大学上大三的时候,他就“深陷”在人工智能的魅力而无法自拔,并且加入了到一个机器学习小组——杰弗里·辛顿(Geoffrey Hinton)的实验室。他开始联系谷歌那些写过有趣论文的人,提出对他们的研究进行扩展的想法。凯撒上钩了,并向他发出来实习的邀约。直到数月之后,戈麦斯才发现这些实习机会本是给博士生准备的,而不是像他这样的本科生。
凯撒和戈麦斯很快就意识到,对于他们正在处理的问题来说,自注意力机制似乎是一个有前途且更为彻底的解决方案。戈麦斯说:“我们进行了认真商讨,确定要要不要合并这两个项目”。答案是肯定的。
Transformer团队开始着手构建一个自注意力模型,用于将文本从一种语言翻译成另一种。他们利用了BLEU 基准测试来衡量该模型的表现。BLEU会通过对比机器输出与人类翻译者的工作来测试模型。他们的新模型从一开始就表现良好。乌斯克尔特表示:“我们从没有概念证明走到至少有一个能与当时最好的 LSTM 方案匹敌的东西”。不过,跟长短期记忆(LSTM)相比,“它并没有更好表现。”
直至 2017 年的某一天,诺姆·萨泽尔(Noam Shazeer)偶然听说了他们的研究项目之后,他们的瓶颈才被打破。萨泽尔是一名经验丰富的工程师,早在 2000 年就加入了谷歌,同时也是谷歌的一位传奇人物,早年因在广告系统的工作而获得了广泛认同。萨泽尔研究深度学习已有五年时间,最近对大语言模型产生了浓厚兴趣。但现有的模型离流畅对话还差得很远,他认为那种对话是可以实现的。
根据萨泽尔的回忆,当时他正在 1965 号楼的走廊行走,经过凯撒的工作区时,他听到里面正讨论得热火朝天。他记得阿什谈到了用自注意力机制的想法,而妮基则对此非常兴奋。“我在想,哇,这似乎是个很棒的想法。看起来似乎是一群有趣的聪明人在做一件很有前途的事。”萨泽尔认为现有的循环神经网络“让人很不爽”,于是他想:“为何不换掉它们呢!”
萨泽尔的加盟至关重要。乌斯克尔特表示:“这些理论性或直观性的机制,比如自注意力机制,一直都要靠非常细致的实现,甚至有时候只有少数经验丰富的‘魔法师’才能让它呈现出一丝生机”。萨泽尔马上开始施展他的魔法。Transformer团队的代码他决定自己写一版。他说:“我接受了他们的基本想法,然后自己实现了”。偶尔他会找凯撒寻求解答,但大部分时候他 “都是自己折腾一番之后就‘搞定了。’”通过其他团队成员口中的 “魔法”、“炼金术”和“花里胡哨”的操作之后,他将这套系统提升到了一个新的水平。
戈麦斯说:“这拉开冲刺的序幕”。人人都斗志昂扬,希望在即将到来的截止日期之前搞定——5月19日是论文提交的最后期限,如获通过,这些论文将在人工智能界一年一度的最大盛会(也就是12月举办的神经信息处理系统大会,Neural Information Processing Systems)上发表。硅谷所谓的人工智能寒冬已渐渐逝去,川春天正慢慢走来,实验的步伐也随之加快。他们测试了两种transformers模型:一个是经过12小时训练得来的,另一个更加强大的版本被命名为 Big,经过了三天半的训练,并被开始用来执行英语译德语的任务。
这个基础模型超越了所有对手——而 Big 拿到的BLEU评测分数碾压了过去的记录,同时计算效率也更高。帕马说:“我们的用时比别人短。而这还仅仅是开始,因为数据还在不断提高。”当乌斯克尔特听到这个好消息时,他从自己山地探险车里拿出了一瓶陈年香槟来庆祝。
截止日期前的最后两周,大家都忙到发疯。尽管有些团队成员的官方工位仍摆放在 1945 号楼,但实际上他们大都在 1965 号楼办公,因为那里的意式咖啡机更好。戈麦斯说:“大家几乎都没怎么睡觉”。作为实习生,他几乎一直在紧张地进行着调试,同时还要为论文制作可视化内容和图表。在这样的项目里,做剔除实验是司空见惯的事情——也就是拿走一部分,看看剩下的是不是足以完成任务。
戈麦斯说:“技巧或模块的各种可能组合我们都会尝试,去找出哪些有用,哪些没用。撤掉这个,然后用那个来替换。为什么模型的机制是如此的有违直觉?原来是因为我们遮盖(masking)得不对。现在能用了吗?好的,那就继续下一个。现在我们所谓的‘Transformer’的所有要素,都是这种高速迭代、不断试错的结果。在萨泽尔所实现版本的支持下,这些剔除赋予了Transformer‘极简主义’的特色,就像琼斯所说那样,‘诺姆就像一位魔法师’。”
瓦斯瓦尼回忆道,他在团队写论文的那个晚上,躺在办公室的沙发上,凝视着隔开沙发与房间其他部分的窗帘,突然被窗帘布料上的图案所吸引,那些图案在他看来像极了突触和神经元。戈麦斯也在场, 瓦斯瓦尼告诉他,他们正在做的事情远不止机器翻译。他说:"最终,我们需要像人脑一样,将语音、音频、视觉等各种模式统一在一个架构之下。我有一种十分强烈的感觉,那就是我们正在接触到某种更为普遍的东西。"
不过,在谷歌的高层看来,他们的工作只不过是又一个有趣的人工智能项目罢了。我曾问过几位参与Transformer项目的人,他们的上司是不是经常让他们报告项目进展。实际上这种情况并不多。但是乌斯克尔特说:“我们都知道,这东西有可能会变成一件大事。这也促使我们非常关注论文末尾对未来工作的一段评论。”
那句话预示了接下来可能会发生的事情——transformer模型在基本上一切形式的人类表达上面的应用。他们写道: “我们对以注意力为基础的模型之未来感到兴奋。我们计划将transformer扩展到输入与输出模态不是文本的问题”,还要研究“图像、音频和视频”。
还有几天就到截止日期的一个晚上, 乌斯克尔特意识到自己的论文得取个标题。琼斯指出,该团队已经彻底摒弃公认的最佳实践,其中最突出的是 LSTM,而转向这一项技术:注意力机制。琼斯回忆道,披头士乐队有首歌叫做“你所需要的只是爱”( All You Need Is Love)。为什么不把这篇论文叫做“你所需要的只是注意力”( Attention Is All You Need)呢?
披头士?
琼斯说:“我是英国人。其实我想到这个只用了五秒钟。我没想到他们会采纳。”
在截止日期到达之前他们都在不断收集实验结果。帕尔玛说: “我们大概是在提交论文的五分钟前才弄到,英法互译数据的。那时候我正坐在1965号楼的一个迷你厨房里,把最后一批数字弄进去。”不到两分钟之后,他们就把论文发出去了。
跟几乎所有的科技公司一样,谷歌很快就为这项工作申请了临时专利。原因不是为了阻止其他人借鉴这些想法,而是出于防御目的建立其专利组合。 (该公司的理念是“如果科技有所进步,谷歌就会从中受益。”)
Transformer团队收到的同行评审反响不一。 帕尔玛说:“有一个评价是积极的,有一个非常积极,还有一个评价是,‘还行吧’”。该论文被采用了,但只是被放在了晚间海报展示环节。
到 12 月开会时,这篇论文引起了轰动。 12 月 6 日,他们四小时的海报展示现场已经挤满了想要了解更多信息的科学家。作者们聊到声音都嘶哑了。到了晚上10点30分会议结束时,现场仍然人头攒动。 乌斯克尔特说:“最后保安只能让我们离开”。不过对他来说也许最满意的时刻是计算机科学家塞普·霍赫赖特 (Sepp Hochreiter) 的现身,后者还赞扬了这项工作——鉴于霍赫赖特是长短时记忆(LSTM)的共同发明者,而transformer刚刚取代了LSTM在人工智能工具包的主流地位,这算是相当高的赞誉了。
墙外开花Transformer 刚开始并没有马上征服世界,甚至连谷歌都没有征服掉。凯撒回忆道,在论文发表的时候,萨泽尔曾建议公司高层彻底抛弃搜索索引,而是用 Transformer 训练一个庞大网络——也就是基本上彻底改变谷歌组织信息的方式。那时候,即便是凯撒也觉得这个想法很荒谬。而现在的共识是,这只是时间问题。
但有家初创公司的反应就要迅速许多。论文发布后不久,OpenAI 的首席研究员伊尔亚·苏茨克维(Ilya Sutskever,此前在谷歌任职时他就知道 Transformer 团队了)建议由自己的科学家亚历克·雷福德(Alec Radford) 研究这个想法。其结果便是最早期的 GPT 产品。就像 OpenAI 的 CEO 山姆·阿尔特曼(Sam Altman)去年所说那样:“Transformer 的论文发表时,我觉得谷歌没人意识到它会产生什么样的深远影响。”
但从内部看情况更为复杂。乌斯克尔特说:“我们很清楚 Transformer 能做出很神奇的事情。放在今天你可能会问,为什么谷歌 2018年不能退出像 ChatGPT 这样的产品?说实话, 2019 ,或许 2020 年我们就能有 GPT-3 或甚至 GPT-3.5这样的产品。问题不在于他们有没有意识到,而在于为什么我们看到之后没有采取行动。这个答案很复杂。”
许多技术评论人士指出,谷歌已经从原先的创新中心慢慢变成更注重利润和效率的官僚机构。戈麦斯在接受《金融时报》采访时指出,“他们没有跟上现代化的脚步,没有采纳这项新技术。”不过,对一个领导行业并攫取巨额利润数十年的企业巨头来说,冒险采用全新技术确实是一大挑战。谷歌的确在2018年开始往产品整合了 Transformer,首当其冲的是翻译工具。同样在那一年,它还推出了一个基于 Transformer 的新型语言模型BERT,并在第二年开始将其应用于搜索服务。
但是,跟 OpenAI 的巨大飞跃与微软将基于 Transformer 的系统大胆集成到其产品线相比,谷歌这些内部技术调整就显得比较保守了。去年当我询问首席执行官桑达尔·皮查伊(Sundar Pichai)为什么率先推出像 ChatGPT 这样的大语言模型的不是谷歌时,他认为在这种情况下,让别人先走一步对谷歌是有好处的。他回答说:“对于这样做会不会一样成功还不是完全明朗。事实上,在人们看到它的工作原理之后,我们有能力做得更多。”
一个不可否认的事实是,这篇论文八位作者全都已离开谷歌。波洛苏欣的公司 Near打造出一种市值约达 40 亿美元的区块链代币。帕尔马与瓦斯瓦尼在 2021 年开始搭档创业,成立了 Adept (估值约 10 亿美元),现在两人又合伙创办了第二家公司 Essential AI(已获得 800 万美元融资)。利昂·琼斯在东京设立的 Sakana AI 的目前估值约为 2 亿美元。萨泽尔 于 2021 年 10 月离职,与人联合创办了 Character AI (估值为 50 亿美元)。艾丹·戈麦斯 是团队里面的实习生,2019 年,他回到多伦多与人共同创立了 Cohere(估值约 22 亿美元)。雅各布·乌斯克尔特的生物科技公司 Inceptive估值为 3 亿美元。除了 Near 以外,这些公司的安身立命之基都是 Transformer 技术。
凯撒是唯一没有出来创业的人。他加入了 OpenAI,是一个叫做 Q* 的新技术的发明者之一,阿尔特曼去年曾表示,这项技术将“揭开无知的面纱,推动发现的前沿”。 (当我在采访中试图就此问题询问凯撒时,OpenAI 的公关几乎是蹦起来让他马上闭嘴。)
谷歌会想念这些逃亡者吗?当然会,也包括其他从谷歌出走创办人工智能初创公司的那些人。(当我问皮查伊有关 Transformer 技术人员离职的问题时,他提醒我,被业界人士热捧的 OpenAI也不是铁板一块,也有人出走。他表示:“人工智能这个领域瞬息万变”。)但谷歌可以很自豪地宣告,他们已经打造出一个支持非常规思想探索的环境。帕尔马表示:“从很多方面来看,谷歌一直都走在前列——他们投资到合适的脑袋,并创造出让我们可以随心所欲地探索和挑战极限的环境。他们需要时间去接纳新事物并不奇怪,毕竟谷歌所承担的风险要大得多。”。
如果没有那种环境的话,Transformer就不会出现。这些论文作者不仅都是谷歌的员工,而且还在同一间办公室工作。走廊的偶遇与午餐时的闲聊有时候也会擦出思想的火花。这个团队在文化上十分的多元化。其中有六位作者出生在美国以外的地方,而另外两位,一个是两个获得绿卡,曾在加州短暂停留的德国人的孩子,还有一个是为了逃避迫害才来到美国的第一代美国人的后代。
乌斯克尔特在柏林的办公室里说道,创新就是打造合适的土壤。他说:“有对某件事情充满激情,正好又处在人生合适时候的人。有了这些之后,如果在做的过程中能感受到乐趣,同时研究的又是合适的问题的话——再加上一点运气——那么奇迹就会出现。”
在乌斯克尔特跟他那位出名的老爸之间,也发生了一件不可思议的事。在无数次的餐桌辩论之后,儿子报告说,汉斯·乌斯克尔特现在也开始跟人共同创立了一家致力于开发大语言模型的公司了。当然了,用的也是 Transformer 技术。