郑胜辉学习与思考第2912天
本书作者是美国的一名人工智能专家大卫·特鲁特。上次在《黄仁勋:英伟达之芯》的解读中,我为你讲述了英伟达从1993年到2001年的早期发展历程,以及其中涉及的重要技术原理。今天我们将结合这两本书,以及我研读的其他书籍和专业资料,为你讲述英伟达在进入21世纪之后的故事,并探讨它带给我们的启发,尤其是黄仁勋的一些独特思维方式。这些方式不仅是英伟达成功的重要原因,也能给予我们普通人许多实际的启示与反思。
解读中,我依然会把本书的主题相关的技术原理融入进来,帮你从更大视角上看清AI算力背后的发展脉络。
上次我们说到,在世纪之交的时候,英伟达通过增加渲染管线和流水线并行的方式,大幅提升了显卡性能,满足了不断增长的游戏渲染需求。
其实,英伟达在提升显卡计算能力的同时,还赋予了显卡一个重要特点:允许程序员对其进行编程。

第一节:从固定到可编程。
可编程解决的是什么问题呢?主要是灵活性问题。早期的显卡架构以固定功能硬件为核心,将图形学中的渲染流程分解为多个固定阶段,并为每个阶段设计专门的硬件模块。这种设计虽然高效,却也限制了开发者的灵活性,因为程序员只能利用显卡厂商提供的预设功能,按部就班地完成渲染任务,无法实现更或个性化的效果。
随着3D游戏快速发展,开发者对更复杂的光照、阴影、纹理映射等效果产生了需求,之前的完全硬件固化的渲染管线就显得不够灵活了。于是,可编程渲染的想法应运而生,就是让开发者直接参与显卡渲染流程的控制,设计个性化的图形效果。
为了应对这种技术趋势,英伟达做出了一个意义重大的决定:让显卡从传统的固定管线升级为支持可编程着色器的架构。这个决定好比把传统自动咖啡机升级为一个开放式的咖啡机。传统的咖啡机只能做固定的预设饮品(如拿铁、美式),而开放式的咖啡机允许用户自定义制作咖啡的方式,比如选择咖啡豆量、控制研磨时间以及调整牛奶或水的比例。
可编程着色器也是类似的道理,游戏开发的程序员能更自由地利用显卡的强大计算能力实现自己想要的渲染效果。然而,引入可编程的着色器意味着必须牺牲利润以建设基础设施,而且,不一定有太多游戏开发者采用。但英伟达当时的技术专家戴维·柯克极力劝说黄仁勋必须支持可编程着色器:“要干这个,短期内会增加一些成本,但随后,人人都会渴望拥有它,人人都想追赶我们。”
黄仁勋起初对此持怀疑态度。然而,当他开始权衡不引入着色器的潜在成本时,他逐渐被说服。
从2001年起,英伟达开始逐步引入支持可编程着色器的显卡芯片。这些显卡允许程序员对顶点着色器、片段着色器(Fragment Shader)和几何着色器(Geometry Shader)等编写程序,以控制渲染流程的每个阶段。我把他们发布的产品年表放在文稿里,感兴趣的朋友可以查看。
-2001年,NVIDIA GeForce 3X是第一款支持可编程顶点着色器的芯片。
-2003年,NVIDIA发布GeForce FX,继续增加了可编程的像素着色器模块。此外,顶点着色器增加了分支控制能力,同时支持静态和动态流控制。
-2004年,伴随着NVIDIA GeForce 6X的发布,顶点着色器和像素着色器都实现了完全的可编程性。
-2006年,NVIDIA发布了GeForce 8系列,这是首个支持几何着色器(Geometry Shader)可编程模块的显卡。
从1999至2006年的7年间,英伟达终于把多个可编程模块集齐,使得他们的显卡成为首个支持多种3D渲染语言的架构平台。这进一步极大地提高了显卡的灵活性,能设计出更加复杂和个性化的3D图形效果。
然而,这种可编程的灵活性不是没有代价的。且不说额外的成本,单让开发者使用都不是一件容易的事情。
为了让更多人能用上可编程显卡,英伟达在2002年推出了专门的3D编程语言——Cg,全称“C for Graphics”。他们还开发了一本《Cg教程》,手把手教你怎么用Cg做出各种炫酷的图形效果。
但是,尽管工具和教程都有了,学习成本还是太高。图形开发本身就涉及复杂的数学原理,再加上要学新语言,推广起来很困难。英伟达在这一时期的股价一度低迷。
黄仁勋当时支持把固定管线变成可编程的主要原因,是为了满足未来游戏开发者的个性化需求。但是他还有一个想法,就是“可编程”这种灵活性,可以让那些游戏设计师之外的人也有机会使用英伟达的显卡做些计算,从而为自己的产品找到新的应用场景。注意,这是一个后续影响很重大的想法。
从2001年英伟达推出GeForce 3系列开始,一些科学家和工程师就开始琢磨:能不能用这些可编程显卡来解决我们领域的计算问题?这就是后来所说的GPU通用计算(General-Purpose computing on Graphics Processing Units),简称 GPGPU。
在2003年,两个研究团队发表了两篇重要论文,验证了可以用某些方法对显卡编程,解决矩阵相关的计算,并且速度可以比普通CPU要快得多。
矩阵计算是诸多科学领域中的核心计算。很多复杂的数学模型、物理系统,或者处理大量数据的算法的底层原理,都可以用矩阵运算统一表述。举个例子,像流体流动、热传导或电磁场这样的复杂现象,会被转化成涉及许多变量和方程的数学模型,而这些模型通常用矩阵来表示,再通过计算矩阵来找到问题的解。
为什么显卡对于矩阵计算很适合呢?因为矩阵中的每个元素计算通常是独立的,可以同时并行处理。而显卡本来就是为了处理像素设计的,每个像素的处理也是独立的,所以天然适合这种大量并行的任务。
但有个问题,当时的显卡完全是为图形渲染设计的,要用来做矩阵计算得“曲线救国”。你得把矩阵计算任务包装成渲染任务,最终,GPU输出的“渲染结果”实际上就是你想要知道的矩阵运算的结果。
这就像你想用洗碗机洗蔬菜。洗碗机本来是洗碗的,但你可以把蔬菜装在篮子里或小型筛网里再放进去,关掉洗涤剂,也能达到清洗的目的。
然而,这种曲线救国的方式不仅效率不高,而且对开发者的要求极高。开发者不仅需要完全掌握能够对GPU进行编程的应用程序接口(API,例如OpenGL、DirectX或者英伟达的那个Cg语言),而且需要对GPU的底层极为熟悉。
那么,如何降低编程的难度,让普通程序员更好地利用GPU来实现自己除了图像渲染以外的任务,就是一个很重要的问题。
2000年左右,斯坦福大学计算机图形学专业的博士生伊恩·巴克(Ian Buck)也在思考如何将英伟达的显卡用到其他领域的计算中。他拿到了美国国防部的资金支持,组了个团队,在2003年推出了“Brook”。
Brook提供了更简单的编程接口,把复杂的GPU图形编程操作包装成便捷的并行计算工具。有了Brook,科学家们可以用更简单的代码来做并行计算,开始尝试用显卡做天气模拟、金融建模、医学成像等各种计算密集型任务。
这种新型客户的涌现,黄仁勋也注意到了。2004年巴克博士毕业后,黄仁勋立刻邀请巴克加入英伟达,开始了一个秘密项目。在介绍这个秘密项目之前,我们还有一环要介绍,这就是统一着色器。

第二节,从专用到通用:统一着色器架构。
尽管英伟达的显卡芯片允许用户编程,但在早期的显卡架构中,渲染管线的不同任务仍是由独立的硬件模块完成的。比如,顶点着色器和像素着色器分别处理不同任务。这种流水线设计虽然合理,但效率却受到任务不均衡的影响。比如在某些场景下,像素着色器工作量远大于顶点着色器,那顶点着色器完成任务后只能空等,造成性能浪费。
这种不均衡问题类似于我们之前说过的奶茶店的工作流程:如果搅拌需要20秒而封口只需10秒,负责封口的店员就会有一半时间在等待。更复杂的是,显卡的任务不均衡是动态的,有时顶点处理是瓶颈,有时则是像素处理。
解决方案是什么?
对于奶茶店,解决思路很简单:如果某个店员闲下来了,他直接帮助那个当前忙不过来的同事就可以了。但是这样做隐含了一个前提,就是所有店员都需要熟悉所有阶段的工作。
同样的逻辑可以应用到显卡架构设计中。要想解决动态负载平衡的问题,我们需要顶点着色器能够承担像素着色器的任务,同时像素着色器同样能完成顶点着色工作。这样,如果某个模块闲下来了,它就可以帮助当前任务重的模块,从而在动态场景下实现平衡。
基于这一思路,英伟达索性就彻底放弃传统显卡中顶点着色器和像素着色器的专门划分,转而设计一种通用的着色单元,使其具备完成所有着色任务的能力。
于是,英伟达在2006年推出的GeForce 8系列中引入了统一着色器架构。这一设计打破了专用硬件的界限,所有渲染任务都由通用流处理器(SP)执行,它们能在不同计算任务间灵活切换。
这一变革不仅提高了图形处理效率,还意外地为GPU开辟了通用计算的道路。刚才我们说了,传统架构中,科学计算需要“伪装”成图形任务才能在GPU上运行,且效率低下。而统一着色器架构使GPU能直接处理各类计算任务,大幅提升了GPU的灵活性和扩展性,也为GPU在通用计算领域奠定了基础。
不过,尽管统一着色器解决了硬件架构上的瓶颈,英伟达仍需要一个软件层的突破口,让不熟悉硬件底层的开发者能方便地挖掘GPU的潜力。
还记得前面我们提到的,开发Brook编程模型的巴克吗?他在2004年博士毕业之后被黄仁勋邀请加入英伟达,并负责研发一个秘密项目。

第三节:CUDA。
CUDA全名叫Compute Unified Device Architecture,说白了就是一套让程序员更好用英伟达GPU的编程工具。
在讲CUDA之前,我得先说说什么是“编程模型”。其实很简单,就是给程序员定的一套规则,按着这套规则写程序,就能更高效地用硬件干活。
不同的场景、不同的硬件条件、不同的任务环境下,不同的编程模型的效果是不同的。
我们来举个餐馆的例子来形象化解释不同的编程模型。如何运营一个餐馆就可以分成不同的模式。在传统餐馆中,运营模式通常是:服务员接单→交给后厨→厨师按顺序做菜→上菜。这就像程序里的顺序执行,一步一步来,很清晰,但当任务量大时,例如饭点高峰期,就容易因为某一步骤的延迟而导致整体效率下降。
这种餐馆模式就像程序设计中的顺序编程模型。在顺序编程中,程序按照严格的步骤依次执行,上一任务完成后下一任务才能开始。这种方式逻辑直观、适合小规模的任务,但当面对大规模或高度复杂的任务时,效率会显得不足。
另外一种餐馆的模式叫做多厨房并行模式。在面对大型活动,例如音乐节、体育赛事、公司年会时,传统餐馆的模式显然不够用。这时,管理团队通常会采用多厨房并行模式。每个厨房负责处理订单中的某一部分,比如凉菜由厨房A负责,热菜由厨房B负责,甜点由厨房C负责。各个厨房彼此独立,可以同时处理订单的不同部分,最终将所有完成的菜品汇总到中央区域,再统一交给顾客。这种方法充分利用了多个厨房的并行性,在整体上显著缩短了服务时间。这种多厨房协同模式,就类似于程序设计中的并行编程模型。
英伟达的GPU硬件采用的就是这种并行编程模型。因为英伟达的GPU里有大量的流处理器(Streaming Processor, SP),每个都能独立工作,就像有很多个小厨房。而且GPU主要处理的是图像渲染、科学计算这些容易并行的任务。所以并行编程模型特别适合GPU,CUDA就是专门为这个设计的。
CUDA不仅是一套编程规则,它还把复杂的底层操作给包装起来了。以前用GPU,程序员得自己管显存、调度线程,特别麻烦。有了CUDA,这些复杂的事情系统自动帮你搞定,你只需要专心想“我要做什么”,而不用操心“怎么做”。
做个类比。就像一台高端相机,硬件很牛,但要用好它,你得懂光圈、快门、ISO这些专业知识,知道各种专业参数怎么调,门槛太高。所以厂商搞了“智能场景模式”——比如运动模式、夜景模式等等,普通人一键就能拍出好照片。
CUDA就是GPU的“智能场景模式”。它提供了丰富的工具,让开发者无需专门研究GPU架构,也能高效完成自己的编程任务。而且,CUDA支持流行的编程语言,例如C、C++、Python、MATLAB等,让科学家和工程师不用成为硬件专家,就能用上GPU的强大计算能力。
有个很形象的比方可以形容CUDA:理解CUDA的方式就是,你拥有一张视频游戏显卡,但它上面配备了一个开关,CUDA就是这个开关,你只需要轻拨一下,就可以实现你想要的功能。
然而,CUDA虽然强大,但代价也是巨大的。G80是英伟达第一款支持CUDA的GPU。为了开发这款芯片,英伟达花了整整4年时间,成本高达4.75亿美元,占了那4年总研发预算的三分之一。要知道,以前每代GeForce芯片开发周期才1年。
这还只是“一个”支持CUDA的GPU。当时英伟达内部争论激烈:是不是所有GPU都要支持CUDA?最初的计划是只在高端科学和技术工作站显卡上支持CUDA,但黄仁勋坚持要在全产品线推广,包括游戏用的GeForce系列。
黄仁勋告诉CUDA团队:“我们应该把这项技术推向所有领域,让它成为基础性技术。”因为他有一个想法:使用CUDA的人越多,这项技术成为标准的速度就越快,就越有可能找到新的应用。
这项决策虽然战略意义深远,但却在短期内带来了高昂的代价。为了让所有显卡支持CUDA,英伟达不得不承担巨大的成本压力。在2008至2010年间,英伟达的毛利率从45.6%降至35.4%。再加上2008年的全球金融危机,英伟达面临了巨大的商业冲击,其股价在短短一年多时间内暴跌了80%。
投资者们开始抱怨英伟达持续投资CUDA并无财务意义。有人批评说:“英伟达在这个新的芯片架构上投入了大量资金,耗费了数十亿美元,却瞄准了学术和科学计算这一偏门领域,而当时这并非一个大市场——远不及他们投入的数十亿美元。”
例如,当时英伟达费尽心思地寻找那些真正需要这种强大性能的用户。马萨诸塞州全科医院的研究人员曾致信英伟达,建议为他们的乳腺X光扫描仪进行升级。黄仁勋邀请这家医院参与CUDA的初步测试,在一个试点项目中投入了数百万美元,但最终仅售出两块显卡。
更糟糕的是,CUDA软件下载量持续下滑,至2012年降至最低点,新安装量仅10万次出头。2013年初,很多投资分析师认为,如果英伟达停止在CUDA上烧钱,股价才会涨,甚至有人开始质疑黄仁勋继续当CEO是否合适。
英伟达的显卡就像是一把锤子,原来是用来敲钉子。然而,英伟达并不满足自己的锤子只能敲钉子,他们希望这把锤子能够在更多领域发挥作用。为此,他们对这把锤子进行了全面改造,不仅让它的结构更加灵活,还为这个锤子开发了一套使用方法,帮助使用者更高效地操控这把锤子。
但是,他们拿着这把锤子到处向人推销,却发现没人对这把锤子感兴趣。直到有一天他们来到了一家门口,门牌上写着六个字:深度神经网络。

第四节:深度神经网络。
比尔·达利(Bill Dally)是英伟达的研发高级副总裁兼首席科学家。2009年,他从斯坦福大学计算机科学系主任的位置上离开,加入英伟达,专注于并行计算研究。
2012年,他的斯坦福同事吴恩达正在和谷歌大脑合作做一个识别猫的项目。吴恩达用1000万张YouTube图像训练神经网络,动用了谷歌数据中心约2000个CPU,最终生成了一幅模糊的猫脸图像。
一次早餐时,吴恩达向达利聊起这个项目的巨大资源消耗。达利说了句意义深远的话:“我打赌GPU在这个方面会做得更好。”
达利立刻派工程师布赖恩·卡坦扎罗帮助吴恩达团队。结果惊人:原本需要2000个CPU的任务,仅用12张英伟达GPU就完成了,而且速度更快。同年,还是在2012年,另一件对于人工智能领域更加重要的事件发生了。
多伦多大学的教授杰弗里·辛顿(Geoffrey Hinton)多年来一直在研究当时不太受待见的神经网络。早在2008年,他就让学生基于英伟达服务器开发语音识别模型,2009年性能已达到顶尖水平。
在国际神经信息处理系统会议上,辛顿向1000名专家宣布:在并行处理器上运行神经网络是AI的未来,大家都应该买英伟达GPU。他甚至给英伟达发邮件:“我刚告诉1000名专家都去买你们的显卡,能送我一张免费的吗?”结果被拒绝了。
辛顿决定用实力说话。他给两个学生苏茨克弗和克里泽夫斯基安排了艰巨任务:利用英伟达的GPU训练计算机学会图像识别。
当时,他们已经设计了一个用来识别图像的神经网络模型,这个网络后来被称为AlexNet。这个模型的规模大小在当时是空前的:要训练的参数数量为6000万个,所以也被辛顿称为深度神经网络。为了训练这个神经网络,他们使用了ImageNet作为训练数据集,这是一个由斯坦福大学的李飞飞开发的图像数据集。
但是还缺一环,就是训练模型的硬件。为了训练这6000万个参数的模型,他们决定用英伟达的GPU。因为项目组的资金有限,他们只能负担得起两张英伟达的 GeForce GTX 580,这是一款单价约为500美元的游戏GPU。
克里泽夫斯基是编程天才,用CUDA让模型在两块GPU上训练。他在卧室的台式机里插入两张GPU,连续跑了一周。GPU的速度令人震惊,比以往任何技术都快数百倍。辛顿说:“没有CUDA,机器学习难度会大幅提升。”
2012年9月30日,辛顿小组的AlexNet赢得了ImageNet挑战赛,错误率仅有15.3%,领先第二名9.8个百分点。在机器学习领域,这不能叫做简单的获胜,这叫“遥遥领先”。
深度学习引起轰动,大科技公司纷纷关注。辛顿成立了DNNResearch公司,唯一资产就是他和两个学生。2012年12月,一场围绕这家公司的秘密拍卖会在美国内华达州的一家赌场酒店里进行。起拍价1200万美元,来自百度、谷歌、微软和DeepMind的高管们频频举牌,最终,谷歌以4400万美元将其收购。
有趣的是,被谷歌收购后,辛顿团队拒绝使用谷歌庞大的CPU集群,而是买了几张英伟达显卡放在办公室里。很快,谷歌其他研究人员也开始用英伟达显卡。还记得之前,在谷歌帮助吴恩达用GPU训练识别猫的英伟达的卡坦扎罗吗?
2013年,在谷歌的他察觉到了这些变化,回到英伟达开发cuDNN——一个CUDA平台上为神经网络训练而设计的软件库。起初他构建的原型遭到团队否定,他决定直接找黄仁勋汇报。
当时黄仁勋对神经网络几乎一无所知,但听完汇报后产生浓厚兴趣,甚至推掉所有安排,整个周末研究人工智能。突然有一天,黄仁勋把卡坦扎罗叫到办公室,告诉他cuDNN是公司20年历程中最为重要的项目。白板上的图表已然不见,取而代之的是黄仁勋端端正正写下的神秘缩写“OIALO”这个单词。黄仁勋解释,这代表着“千载难逢的机会”(Once In A Lifetime Opportunity)。
黄仁勋断定,神经网络将彻底变革社会,而他可以通过CUDA占据必要的硬件市场。他宣告,自己将举公司之力投入这个项目的发展。2014年GTC大会上,黄仁勋首次公开推介cuDNN,这是英伟达21年来首次与深度神经网络公开联合。
随后AI发展进入快车道:2016年AlphaGo战胜李世石,2017年Transformer模型奠定GPT基础,2022年ChatGPT引爆互联网,2023年至今全球大模型井喷式发展。
英伟达成为这场AI革命背后的“军火供应商”。2023—2024年AI大爆发推动GPU需求井喷,英伟达股价不到两年飙升超过900%。2025年2月,市值突破3.4万亿美元,成为全球科技产业最耀眼的明星。从找不到客户的CUDA,到AI时代的核心基础设施,英伟达完成了华丽转身。

启发
最后,我想谈谈我从黄仁勋以及英伟达的故事中获得的启发。关于英伟达为什么能够成功,我有两点体会。
第一点启发:在小赛道上打造独特优势,耐心等待爆发点。
从我们上次对于《黄仁勋》那本书的解读中,你能看到,做显卡起家的英伟达,最初其实走了一条小赛道。显卡只是电脑硬件中的一个辅助组件,市场空间有限,与当时的巨头英特尔或AMD所涉及的CPU赛道不能相比。在CPU这个广阔的领域,英特尔已经建立了不可撼动的绝对优势,跟它竞争无异于自讨苦吃。因此,黄仁勋选择了显卡市场,一个相对小众且竞争压力较小的赛道。黄仁勋后来说:“直到今天,我们都不会与英特尔正面竞争。每当他们逼近我们时,我就会迅速撤退。”
尽管这条赛道相对狭窄,但英伟达却选择在这个小市场中深耕,将显卡做到极致。英伟达不断改进技术,提升显卡的主频,研发更先进的架构,增加处理器数量,让渲染管线更多、更深、更高效,一步步构建了他们在显卡领域的护城河。
这还不够,更关键的是,黄仁勋一直有个理念:时刻想要为自己的产品找到更大、更广阔的应用市场。
英伟达在设计上的一次次改进,甚至是不惜代价的改进,都是为了这一步做准备。例如,他们把固定功能的渲染管线改成了统一流处理器架构,这让他们的GPU具备了处理多种类型计算任务的能力。此外,英伟达不惜重金投入软件生态的开发,在没有找到明确应用对象的情况下,推出了CUDA平台,一个为潜在应用开发者提供便利的编程环境。
在英伟达支付了这一切“前置成本”后,它迎来了人工智能这个风口。当深度学习的科学家们发现,英伟达的GPU的并行计算能力完美契合深度神经网络训练需求,而CUDA的开发环境让他们很容易使用英伟达的GPU完成自己的工作。这一切让研究人员几乎别无选择,只能选择英伟达的工具。一旦行业普遍接受某种生态,便几乎无从替换。今天,要挑战英伟达的行业地位,对手不仅要有比英伟达算力更高的芯片,还需要打造出一个能够撼动CUDA生态的替代方案。这种生态优势让英伟达进一步巩固了自己的护城河。
这个策略对于个人发展也有所启发。我们经常说“卷”。所谓卷就是在某一个赛道上,按照既定标准,和无数人争夺同样的资源和机会。比如大学选专业选热门,学习中都追求高GPA保研,毕业后都盯着大厂或考公。
但传统“热门赛道”往往伴随最激烈的竞争,而且这些热门很可能在未来发生变化。如果选择这些赛道的原因只是追随潮流,而非出于个人兴趣与优势,那么竞争力往往不高。
英伟达也很卷,但是它没有在当时最热,也是当时最重要的CPU这个赛道上去卷,因为这个赛道上已经有了英特尔这样的庞然大物。英伟达是在显卡这个小的赛道上去卷,这个赛道上,英伟达有着天然的基因和独特的优势。
所以,我们是否可以学一下英伟达的思路呢?在选择赛道时,不一定追逐热门,而是找到一个自己感兴趣且具备独特天赋的小领域。在这一领域不断提升自己,建立属于自己的护城河。
此外,英伟达在显卡这条赛道上狂奔时,一直在实践让自己打造的产品能够延伸到更广的领域,正是这种战略眼光,帮助它抓住了深度学习的风口。
这给我们的启发是,当我们在自己喜欢和擅长的道路上埋头赶路时,不要忘了“抬头看天”,需要像英伟达那样,努力让自己的能力具备更强的“泛化性”,培养自己的底层、可迁移的能力,并且向外探索能力可以延展的新方向。一旦风口来临,就可以凭借长期积累的专注与洞察,把握住机会,实现快速突破。
第二个启发,叫做“第一性原理”。
第一性原理(The first principle)这个词,最近几年因马斯克而火。我理解它的含义,就是从数学或物理学的本质出发,用更基础、更本质的方式理解并解决问题。
例如,马斯克有一次针对电动车的电池价格进行的思考是这样的。市面电池都很贵,但回到本质,电池硬成本是什么?答案是金属材料——铁、镍、铝等。除了原材料价格无法削减,其余成本都来自工艺流程、供应链等。所以通过优化生产工艺,电池价格理论上可以逼近原材料价格。这种从本质出发的分析,正是“第一性原理”的典型应用。
要想真正理解第一性原理,我们还必须搞清楚与其对应的思维模式,马斯克将其称为“类比推理”,而我认为更准确地应该叫“数据驱动原理”。就是从历史数据中获取经验解决问题。比如,遇到问题时,考察类似问题历史上如何解决,找到最佳方案借鉴。这种思维方式与人工智能的基础理念非常相似,即通过训练数据总结出解决方案。
但卓越创新往往不能靠数据驱动来解决。因为真正的创新要么是别人没干过的,要么是别人干过但没干成的,都缺乏历史数据。这时就需要第一性原理,从问题本质出发推理。
在英伟达的很多关键节点上,黄仁勋都选择了第一性原理来做决策。第一个重要决策,发生在英伟达早期阶段的并行计算架构选择上。我们当时说过,为了应对图形渲染越来越高的需求,英伟达团队提出了并行架构方案,即通过增加渲染管线的方法来解决问题。
这种架构和当时主流不同。当时显卡行业领头羊3dfx的方案是增加芯片,通过配置多个芯片来提高显卡性能。这种架构能走得通吗?按照“数据驱动原理”,得出的结论就会是,英伟达方案有问题——因为硅谷遍布并行计算公司失败例子,而3dfx方案已被市场证明。
黄仁勋一开始就是这样思考的,但后来,他按照“第一性原理”来进行推断,就得到了不一样的结论。他的思考方式是这样的:游戏设计师不会满足于仅有两个独立的像素管线。随着射击游戏日益复杂,他总会想要更多。想象一下,一个场景中有很多光源:灯光璀璨的竞技场、多把枪支同时开火、远处一艘宇宙飞船坠毁,还有一个双太阳照耀的世界。如果3dfx为每个光源都专门设计一块芯片,最终电路板上将满满当当。要适应未来,唯一方法是在单块芯片上增加管线。
结果证明英伟达选择正确。第二次运用第一性原理,在于显卡是否会被CPU取代。我们在之前也提到过,在20世纪末,芯片性能提升主要靠提高CPU主频,英特尔是坚定支持者。按数据驱动原理思考的话,CPU性能每年大幅提升,显卡会被取代。
但英伟达的尼科尔斯从物理学角度分析:当晶体管缩小到仅100个原子宽度时,电流会泄漏,造成速度下降。CPU提升将面临极大瓶颈。这让英伟达确信并行计算是未来方向,也成为英伟达坚持GPU架构创新的最重要推动力。
第三次运用第一性原理,是黄仁勋决定梭哈深度学习的时候。当得知辛顿博士的深度神经网络解决了计算机视觉问题后,黄仁勋提出了一个关键问题:“还有哪些领域可以应用这种技术?”
辛顿博士取得的突破,主要体现在利用深度神经网络解决了图片分类的难题。从数学本质上来看,一个神经网络就是一个函数,函数有输入,就是图片,有输出,就是该图片的分类,比如是猫还是狗。
而黄仁勋用第一性原理意识到:许多领域本质都可归结为寻找函数。比如机器翻译是输入原文而输出译文的函数,语音识别是输入声音而输出文字的函数。
基于此,黄仁勋断定:既然深度神经网络本质是找函数,这种方法就能扩展到其他领域。从计算机视觉到语音识别、自然语言处理、医疗诊断等,深度神经网络都可能成为基础工具,而他可以通过自己的GPU占据必要的硬件市场。
他立刻宣告举全公司之力投入深度神经网络赛道。注意,如果黄仁勋按照“数据驱动原理”来思考深度神经网络还能做什么,就不能得到正确答案。因为深度神经网络在当时还没有在其他的领域取得完全成功,所以根本没有“历史数据”。
而后续也验证了黄仁勋的眼光。英伟达的技术专家戴维·柯克说,黄仁勋是首位发现人工智能潜力的人,真的是首位。

结语
最后,关于人工智能是否会替代人,机械进化是否会毁掉工作机会,是很多人都感兴趣的话题。《黄仁勋:英伟达之芯》那本书的作者斯蒂芬·威特在最后一次和黄仁勋采访的时候提到了这个问题,但是这个问题激怒了黄仁勋,因为他一直对这个问题持否定态度,因此立刻终止了采访。
威特最后被安排前往参观一台位于附近数据中心的万卡级芯片超级计算机。在这个数据中心中,数十个英伟达硬件机架被分隔成一个个封闭的小隔间,在荧光灯的闪耀下持续脉动。成千上万的计算机风扇同时运转,汇聚成沉闷而连绵的轰鸣声。在这台超级计算机的内部,周围的电路每秒执行着惊人的1000亿亿次计算。此刻,它正在训练一个内部的英伟达模型,风格类似于GPT-4。
威特谈到了置身于这一超级智能体的大脑中的体会:环顾四周,顿感人类的躯体陈旧衰老,而且如此不堪。而这台思考机器,每当风扇旋转一圈,每当电路脉冲一次,它都会变得更加智慧。
机器的进化从未停止,而人类在这样的时代当中,又该如何重新定义自己的价值,找到真正的优势?这不仅是威特沉思的问题,更是我们每一个生活在人工智能时代中的人都需要追问的问题。
撰稿:刘雪峰;脑图:摩西脑图工作室。资料来源:得到APP听书栏目。声明:除原创内容特别说明外,推送稿件文字及图片和音视频均来源于网络及各大主流媒体。版权归原作者所有,如认为内容侵权,请在文章下方留言联系我们删除。
密不可分母亲智慧文化馆的愿景:
愿每一位母亲幸福三代人。
价值观:爱家;敬业;说到做到。
密不可分母亲智慧文化馆的使命:
传播母亲智慧文化,
助力母亲内外兼修,
助力家庭健康成长,
助力家族美好传承。
地址:杭州南宋御街“密不可分母亲智慧文化馆”
联系人:叶子老师