专用AI芯片还是GPU?初创还是Nvidia?

科技创新蓝精灵 2024-06-27 05:11:37

“谁控制了GPU ,谁就控制了宇宙。”这是当下常被引用的一句改编自科幻小说《沙丘》的名言。对于想要在AI领域有所建树的公司来说,GPU至关重要。Nvidia凭借其在GPU市场的霸主地位,曾一跃成为全球市值最高的公司。

专用AI芯片还是GPU?

GPU负责训练和运行AI大模型所需的繁重计算任务。但这并非它们的设计初衷。GPU最初是为处理视频游戏图像而设计的。幸运的是,Nvidia发现,这些芯片可以重新用于AI工作负载。

从头开始设计专用AI芯片是否更好?这正是许多企业当前正在尝试的方向,以试图推翻 Nvidia的霸主地位。专用AI芯片有望使AI模型的构建和运行速度更快、更便宜。普通处理芯片本质上是为完成一件又一件的任务而设计的。相比之下,GPU包含数千个处理引擎或“核心”,这使它们能够同时运行数千个相同简单任务的不同版本。运行AI模型同样涉及并行地执行大量相同任务的副本。

然而,GPU也有其局限性,特别是在数据传输速度方面。现代AI模型运行在大量互连的GPU和内存芯片上,在它们之间快速移动数据对于性能至关重要。在训练非常大的AI模型时,由于等待数据,某些GPU核心可能有高达一半的时间处于空闲状态。

Cerebras / CS-3

Cerebras Systems 的解决方法是将 900000 个内核和大量内存整合到一块巨大的芯片上,以减少连接多个芯片和在它们之间传输数据的复杂性。

Cerebras Systems 成立于 2016 年,在芯片初创公司中算是比较奇怪的一家。这家芯片制造商并不开发用于 PCI-Express 卡的芯片或 Nvidia 的 SXM 之类的模块,也不开发 AMD 和英特尔用于传统系统 GPU 的模块,而是选择将整块晶圆做成一颗芯片。

今年3月,Cerebras推出了第三代晶圆级芯片WSE-3和AI超级计算机CS-3。WSE-3采用台积电5nm制程,有90万个AI核心和4万亿颗晶体管。其不仅是生产中最大的芯片,也是速度最快的芯片,具有 125 petaflops 的 AI 性能。CS-3 连接到 12TB 到 1.2PB 的外部存储器,使万亿参数模型能够轻松高效地进行训练。CS-3 是一台 15U 服务器,功耗高达 23kW。它目前可在本地或云端使用。

Cerebras CS-3 和 B200 硬件概述

Nvidia B200“Blackwell”于 GTC 2024 上发布,是 H100 GPU 的继任者。B200由两个GPU芯片组成,通过NVlink连接在一起,总共有2080亿个晶体管。B200 提供 4.4 petaflops 的 FP16 AI 计算能力,并配备 192GB 内存。B200有两款服务器版本可供选择。

DGX B200 是一款 10U 服务器,配备 8 个 B200 GPU。它提供 36 petaflops 的 AI 计算能力、1.5TB 内存,功耗为 14.3 kW。DGX NVL72 是一个全机架解决方案,通过 NVLink 连接了 72 个 B200 GPU。它提供 360 petaflops 的 AI 计算能力,功耗为 120kW。B200 产品预计将于 2024 年第四季度发货。

Nvidia与Cerebras的竞争反映出了AI加速器发展的两条路径,前者封装更多并行计算的GPU,后者则推行集中式、海量单芯片方式。

Groq / LPU

另一家也成立于2016年的初创公司 Groq 则采用了不同的方法。其名为语言处理单元(LPU)的AI芯片经过优化,能够以极快的速度运行大语言模型。

LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。

不同于Nvidia GPU需要依赖高速数据传输,Groq的LPU在其系统中没有采用HBM。它使用的是SRAM,其速度比GPU所用的存储器快约20倍。鉴于AI的推理计算相较于模型训练需要的数据量远小,Groq的LPU因此更节能。在执行推理任务时,它从外部内存读取的数据更少,消耗的电量也低于Nvidia的GPU。

其他

位于加州的 MatX 则采用了另一种方法。该公司联合创始人之一 Reiner Pope 表示,GPU包含用于图形的功能和电路,但这对于LLM来说并不需要。MatX正在研发的类似GPU的芯片去除了这些不必要的冗余,通过更专注于少数任务来提升性能。

该领域的其他初创公司包括总部位于以色列的 Hailo、多伦多的 Taalas、使用开源RISC-V架构构建AI芯片的美国公司 Tenstorrent,以及据传即将出售给软银的英国公司 Graphcore。

大型科技公司也在开发AI芯片。谷歌已经开发了自己的张量处理单元(TPU),并将其作为云计算服务提供。亚马逊、Meta 和微软也为基于云的AI制作了定制芯片;OpenAI也有此计划。AMD和英特尔这两大老牌芯片制造商已经生产了类似GPU的芯片。

挑战与机遇

对于初创公司而言,过度专业化是一大风险。斯坦福大学计算机科学家 Christos Kozyrakis 表示,设计一款芯片通常需要两到三年的时间,这一周期在AI模型迭代速度极快的背景下显得尤为漫长。机遇在于,这些初创企业有望打造出比相对通用的GPU来说更贴合未来模型需求的专用芯片。但同时,它们也面临着可能在技术方向上过度聚焦,以至于错失真正的前沿趋势。

另一大挑战是,Nvidia 为其GPU设计的编程软件层——CUDA,尽管众所周知使用起来颇为繁琐,却已成为事实上的行业标准。斯坦福大学的 Kozyrakis 强调:“软件为王”,而 Nvidia 在这方面占据显著优势,多年来构建了庞大的软件生态系统。AI芯片初创企业要想取得成功,必须说服程序员重新调整代码,使其能在新型芯片上运行。他们为此提供了软件工具包,并确保与主流机器学习框架兼容。然而,在新架构上优化软件性能是一项复杂艰巨的任务,这也是Nvidia难以被取代的又一原因。

AI芯片及其系统的主要客户包括模型构建者(如OpenAI、Anthropic和Mistral)和科技巨头(如亚马逊、Meta、微软和谷歌)。对于这些公司而言,收购一家AI芯片初创企业,将技术独占,以期在竞争中胜出,或许是一种明智的选择。芯片初创公司与其与英伟达竞争,不如将自己定位为收购目标。

Pope表示,MatX 瞄准的是“顶级”客户,这意味着它希望将芯片销售给像OpenAI、Google或Anthropic这样的企业,这些企业的AI模型处于业界最前沿。据传,Cerebras已向证券监管机构秘密申请IPO。目前,该公司已累计融资7.2亿美元,估值约为42亿到50亿美元。OpenAI联合创始人兼首席执行官Sam Altman曾参与Cerebras的8000万美元D轮融资。

截至目前,尚未有任何一家初创企业可以撼动Nvidia 的主导地位。不过,大多数公司不愿意依赖单一供应商,希望看到市场上有更多样化的解决方案。这为初创企业们提供了巨大的机会和发展空间。

对于AI芯片领域的新进入者而言,前路尚不明朗。面对Nvidia强大的软件生态壁垒,以及科技巨头们可能的收购策略,这些初创企业必须找到自己的独特价值定位,或是成为行业巨头的一部分,或是独立发展,开辟一片新天地。无论如何,AI芯片领域的这场竞合博弈,无疑将深刻影响并塑造整个AI产业的未来面貌。

0 阅读:1

科技创新蓝精灵

简介:感谢大家的关注