遥想2023年3月,英伟达举行了GTC 2023主题演讲,英伟达CEO黄仁勋不仅阐述了该公司在人工智能时代的诸多成就和对未来发展愿景的期待,同时也带来Grace Hopper超级芯片、AI Foundations云服务、AI超级计算服务DGX Cloud、全球首个GPU加速量子计算系统等在内的多款重磅硬件新品。
而在北京时间2024年3月19日上午,英伟达再次举办了一年一度的 NVIDIA GTC主题演讲,英伟达CEO 黄仁勋通过这次演讲,分享了新一代的AI突破,也让各位观众见证了AI的又一次变革时刻。
穿着熟悉皮衣的黄仁勋自然是这场演讲里的主角,“世界上没有哪一个会议有如此多样化的研究人员,其中有大量的生命科学、医疗保健、零售、物流公司等等,”他说,“全球价值 100 万亿美元的公司都聚集在 GTC。”
黄仁勋表示:“我们已经到了一个临界点,我们需要一种新的计算方式......加速计算是一种巨大的提速。所有的合作伙伴都要求更高的功率和效率,那么英伟达能做些什么呢?”
下一代AI平台——Blackwell
随后登场的是Blackwell B200,一个更大的GPU,其命名来自于大卫·哈罗德·布莱克威尔他是一位专门研究博弈论和统计学的数学家,也是第一位入选美国国家科学院的黑人学者。
据英伟达介绍,B200的尺寸是“人工智能超级芯片”Hopper 的两倍,集成有 2080 亿个晶体管,其采用定制的两掩模版极限 N4P TSMC 工艺制造,GPU 芯片通过 10TBps 芯片到芯片链路连接成为单个GPU。这在上面有两个让人好奇的点:
首先,从技术上讲,虽然他们使用的是新节点 - TSMC 4NP - 但这只是用于 GH100 GPU 的 4N 节点的更高性能版本。这也让英伟达多年来第一次无法利用主要新节点的性能和密度优势。这意味着 Blackwell 的几乎所有效率增益都必须来自架构效率,而该效率和横向扩展的绝对规模的结合将带来 Blackwell 的整体性能增益。
其次,从字面上我们可以看到,这个全新旗舰将在单个封装上配备两个 GPU 芯片。换而言之,NVIDIA 终于在他们的旗舰加速器实现了Chiplet化。虽然他们没有透露单个芯片的尺寸,但我们被告知它们是“reticle-sized”的芯片,每个芯片的面积应该超过 800mm2。GH100 芯片本身已经接近台积电的 4 纳米掩模版极限,因此 NVIDIA 在此方面的增长空间很小 - 至少不能停留在单个芯片内。
黄仁勋指出:“人们认为我们制造GPU,但GPU的外观和以前不一样了。”
英伟达表示,新的 B200 GPU 通过其 2080 亿个晶体管提供高达 20 petaflops的 FP4 性能,配备 192GB HBM3e 内存,提供高达 8 TB/s 的带宽。
对于他们的首款多芯片芯片,NVIDIA 打算跳过尴尬的“一个芯片上有两个加速器”阶段,直接让整个加速器像单个芯片一样运行。据 NVIDIA 称,这两个芯片作为“一个统一的 CUDA GPU”运行,可提供完整的性能,毫不妥协。其关键在于芯片之间的高带宽 I/O 链路,NVIDIA 将其称为 NV 高带宽接口 (NV-HBI:NV-High Bandwidth Interface ),并提供 10TB/秒的带宽。据推测,这是总计,这意味着芯片可以在每个方向上同时发送 5TB/秒。
由于英伟达迄今尚未详细说明此链接的构建,所以我们不清楚NVIDIA 是否始终依赖晶圆上芯片 (如CoWoS)还是使用基础芯片策略 (如AMD MI300),或者是否依赖在一个单独的本地中介层上,仅用于连接两个芯片(例如 Apple 的 UltraFusion)。不管怎样,英伟达这个方案比我们迄今为止看到的任何其他双芯片桥接解决方案的带宽都要大得多,这意味着有大量的引脚在发挥作用。
在 B200 上,每个芯片与 4 个 HBM3E 内存堆栈配对,总共 8 个堆栈,形成 8192 位的有效内存总线宽度。所有人工智能加速器的限制因素之一是内存容量(也不要低估对带宽的需求),因此能够放置更多堆栈对于提高加速器的本地内存容量非常重要。
总的来说,B200 提供 192GB 的 HBM3E,即 24GB/堆栈,与 H200 的 24GB/堆栈容量相同(并且比原来的 16GB/堆栈 H100 多出 50% 的内存)。
据 NVIDIA 称,该芯片的 HBM 内存总带宽为 8TB/秒,每个堆栈的带宽为 1TB/秒,即每个引脚的数据速率为 8Gbps。正如我们之前所说,内存最终设计为每针 9.2Gbps 或更高,但我们经常看到 NVIDIA 在其服务器加速器的时钟速度上表现得有点保守。不管怎样,这几乎是 H100 内存带宽的 2.4 倍(或者比 H200 高出 66%),因此 NVIDIA 看到了带宽的显著增加。
最后,目前我们还没有关于单个 B200 加速器的 TDP 的任何信息。毫无疑问,它会很高——在后登纳德世界中,你不可能将晶体管增加一倍以上,而不付出某种功率损失。NVIDIA 将同时销售风冷 DGX 系统和液冷 NVL72 机架,因此 B200 并不超出风冷范围,但在 NVIDIA 确认之前,我预计数量不会少。
总体而言,与集群级别的H100 相比,NVIDIA 的目标是将训练性能提高 4 倍,将推理性能提高 30 倍,同时能源效率提高 25 倍。我们将在此过程中介绍其背后的一些技术,并且更多有关 NVIDIA 打算如何实现这一目标的信息无疑将在主题演讲中披露。
但这些目标最有趣的收获是干扰性能的提高。NVIDIA 目前在训练领域占据主导地位,但推理市场是一个更广泛、竞争更激烈的市场。然而,一旦这些大型模型经过训练,就需要更多的计算资源来执行它们,NVIDIA 不想被排除在外。但这意味着要找到一种方法,在竞争更加激烈的市场中取得(并保持)令人信服的领先地位,因此 NVIDIA 的工作任务艰巨。
与 Hopper 系列一样,Blackwell 也有“超级芯片”提供——两个 B200 GPU 和一个 Nvidia Grace CPU,芯片间链路速度为 900GBps。英伟达表示,与 Nvidia H100 GPU 相比,GB200 Superchip 在 LLM 推理工作负载方面的性能提高了 30 倍,并将成本和能耗降低了 25 倍。
最后,还将推出 HGX B100。它的基本理念与 HGX B200 相同,配备 x86 CPU 和 8 个 B100 GPU,只不过它设计为与现有 HGX H100 基础设施直接兼容,并允许最快速地部署 Blackwell GPU。每个 GPU 的 TDP 限制为 700W,与 H100 相同,吞吐量下降至 FP4 的 14 petaflops。
除了纸面性能的提升外,Blackwell还支持了第二代 Transformer 引擎,它通过为每个神经元使用 4 位而不是 8 位,使计算、带宽和模型大小加倍,而配备的第五代 NVLink能够为每个 GPU 提供 1.8TB/s 双向吞吐量,确保多达 576 个 GPU 之间的无缝高速通信。
英伟达还公布了由GB200驱动的GB200 NVL72,这是一个多节点、液冷、机架式系统,适用于计算最密集的工作负载。它结合了36个Grace Blackwell超级芯片,其中包括72个Blackwell GPU和36个Grace CPU,通过第五代NVLink互连。
新的 NVLink 芯片具有 1.8 TB/s 的全对全双向带宽,支持 576 个 GPU NVLink 域。它是在同一台积电 4NP 节点上制造的 500 亿个晶体管芯片。该芯片还支持 3.6 teraflops 的 Sharp v4 片上网络计算,这有助于高效处理更大的模型。
上一代支持高达 100 GB/s 的 HDR InfiniBand 带宽,因此这是带宽的巨大飞跃。与 H100 多节点互连相比,新的 NVSwitch 速度提高了 18 倍。这应该能够显着改善更大的万亿参数模型人工智能网络的扩展性。
与此相关的是,每个 Blackwell GPU 都配备了 18 个第五代 NVLink 连接。这是 H100 链接数量的十八倍。每个链路提供 50 GB/s 的双向带宽,或每个链路 100 GB/s
此外,GB200 NVL72还包括NVIDIA BlueField-3数据处理单元,可在超大规模人工智能云中实现云网络加速、可组合存储、零信任安全和GPU计算弹性。与相同数量的英伟达H100 Tensor Core GPU相比,GB200 NVL72在LLM推理工作负载方面的性能最多可提升30倍,成本和能耗最多可降低25倍。
在演讲中,亚马逊、谷歌、Meta、微软、甲骨文云和 OpenAI 等公司确认将在今年晚些时候部署 Blackwell GPU。
“Blackwell 提供了巨大的性能飞跃,并将加快我们交付领先模型的能力。我们很高兴继续与 Nvidia 合作增强 AI 计算能力。”OpenAI 首席执行官 Sam Altman 说道。
特斯拉和 xAI 首席执行官埃隆·马斯克 (Elon Musk) 补充道:“目前没有什么比 Nvidia 的人工智能硬件更好的了。”
下一代AI超算——DGX SuperPOD
在发布Blackwell GPU后,英伟达还推出了下一代AI超级计算机——由 NVIDIA GB200 Grace Blackwell 超级芯片提供支持的 NVIDIA DGX SuperPOD,用于处理万亿参数模型,并具有持续的正常运行时间,以实现超大规模生成式 AI 训练和推理工作负载。
据英伟达介绍,新型 DGX SuperPOD 采用新型高效液冷机架规模架构,采用 NVIDIA DGX™ GB200 系统构建,可在 FP4 精度下提供 11.5 exaflops 的 AI 超级计算能力和 240 TB 的快速内存,可通过额外的机架扩展到更多。
每个 DGX GB200 系统均配备 36 个 NVIDIA GB200 超级芯片,其中包括 36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU,通过第五代NVIDIA NVLink®连接为一台超级计算机。与 NVIDIA H100 Tensor Core GPU 相比,GB200 Superchips 对于大型语言模型推理工作负载的性能提升高达 30 倍。
NVIDIA 创始人兼首席执行官黄仁勋表示:“NVIDIA DGX AI 超级计算机是 AI 工业革命的工厂。” “新的 DGX SuperPOD 结合了 NVIDIA 加速计算、网络和软件的最新进展,使每个公司、行业和国家都能完善和生成自己的人工智能。”
下一代AI网络交换机——X800
英伟达还在演讲中发布了专为大规模人工智能而设计的新一代网络交换机 X800 系列。
英伟达表示,NVIDIA Quantum-X800 InfiniBand和 NVIDIA Spectrum-X800 Ethernet是全球首款能够实现端到端 800Gb/s 吞吐量的网络平台, 突破了计算和 AI 工作负载网络性能的界限。它们配备的软件可进一步加速各类数据中心中的人工智能、云、数据处理和 HPC 应用程序,包括那些采用新发布的基于 NVIDIA Blackwell 架构的产品系列的数据中心。
具体而言,Quantum-X800 平台包括英伟达Quantum Q3400交换机和英伟达ConnectX-8 SuperNIC,共同实现了业界领先的800Gb/s端到端吞吐量。与上一代产品相比,带宽容量提高了 5 倍,利用英伟达可扩展分级聚合和缩减协议(SHARPv4)进行的网内计算能力提高了 9 倍,达到 14.4Tflops。
Spectrum-X800平台为人工智能云和企业基础设施提供了优化的网络性能。利用SpectrumSN5600 800Gb/s交换机和英伟达BlueField-3超级网卡,Spectrum-X800平台可提供对多租户生成式人工智能云和大型企业至关重要的高级功能集。
英伟达网络高级副总裁 Gilad Shainer 表示:“NVIDIA 网络对于我们 AI 超级计算基础设施的可扩展性至关重要。” “NVIDIA X800 交换机是端到端网络平台,使我们能够实现对新 AI 基础设施至关重要的万亿参数规模的生成式 AI。”
据英伟达透露,这两款产品的目前客户包括微软Azure 和 Oracle Cloud Infrastructure。
AI助力光刻
在演讲一开始,英伟达就宣布,台积电和新思将使用英伟达的计算光刻平台即去年宣布的cuLitho 投入生产,以加速制造并突破下一代先进半导体芯片的物理极限。
计算光刻是半导体制造过程中计算最密集的工作负载,每年在 CPU 上消耗数百亿小时。芯片的典型掩模组(其生产的关键步骤)可能需要 3000 万小时或更多小时的 CPU 计算时间,因此需要在半导体代工厂内建立大型数据中心。
而英伟达称,通过加速计算,350 个 NVIDIA H100 系统现在可以取代 40,000 个 CPU 系统,加快生产时间,同时降低成本、空间和功耗。
自去年推出以来,cuLitho 为 TSMC 的创新图案化技术带来了新的机遇。在共享工作流上进行的 cuLitho 测试显示,两家公司共同将曲线流程速度和传统曼哈顿式流程速度分别提升了 45 倍和近 60 倍。这两种流程的不同点在于曲线流程的光掩模形状为曲线,而曼哈顿式流程的光掩模形状被限制为水平或垂直。
英伟达表示,自己开发了应用生成式人工智能的算法,以进一步提升cuLitho平台的价值。在通过 cuLitho 实现的加速流程的基础上,新的生成式人工智能工作流程可将速度提高 2 倍。通过应用生成式人工智能,可以创建近乎完美的反向掩膜或反向解决方案,以考虑光的衍射。然后通过传统的严格物理方法得出最终光罩,从而将整个光学近似校正(OPC)流程的速度提高了两倍。
目前,工厂工艺中的许多变化都需要对 OPC 进行修改,从而增加了所需的计算量,并在工厂开发周期中造成了瓶颈。cuLitho 提供的加速计算和生成式人工智能可减轻这些成本和瓶颈,使工厂能够分配可用的计算能力和工程带宽,在开发 2 纳米及更先进的新技术时设计出更多新颖的解决方案。
TSMC 首席执行官魏哲家博士表示:“通过与 NVIDIA 一同将 GPU 加速计算整合到 TSMC 的工作流中,我们大幅提升了性能、增加了吞吐量、缩短了周期时间并减少了功耗。TSMC 正在将NVIDIA cuLitho 投入到生产中,利用这项计算光刻技术推动关键的半导体微缩环节。
Synopsys 总裁兼首席执行官 Sassine Ghazi 表示:“二十多年来,Synopsys Proteus 光掩模合成软件产品一直是经过生产验证的首选加速计算光刻技术,而计算光刻是半导体制造中要求最严苛的工作负载。发展至先进的制造工艺后,计算光刻的复杂性和计算成本都急剧增加。通过与 TSMC 和 NVIDIA 合作,我们开创了能够运用加速计算的力量将周转时间缩短若干数量级的先进技术,因此这一合作对于实现埃米级微缩至关重要。”
随着EDA厂商新思将该技术集成到其软件工具中,以及代工龙头台积电的应用,计算光刻未来前景广阔,可能会被更多芯片厂商所采用。
依旧遥遥领先
B200的推出,延续了H100之后英伟达的GPU霸权,就目前来说,依旧没有公司能够撼动它的地位,这是它过去深耕十年应有的回报。
但你可以注意到一个小细节,英伟达终于放弃了单体芯片设计,而是转向多芯片设计,原因也很简单,B200采用的是台积电改进版的N4P工艺,在晶体管密度上没有大幅升级,而H100已经是一个全掩模版尺寸的芯片——它的芯片尺寸为 814 mm2,理论最大值为 858 mm2,在这样的情况下,转向双芯片似乎并不难理解。
此外,英伟达也不再满足于销售单个芯片,而是兜售一整个系统,也就是英伟达 B200 NVL72,包含 600000 个零件,重1361 公斤的它,可能会成为AI企业的新宠儿。
可以说,英伟达已经靠B200牢牢吸住了AI产业下一年的金,依旧是这一领域中毫无争议的王。