专用AI芯片还是GPU?初创还是Nvidia?

“谁控制了GPU ，谁就控制了宇宙。”这是当下常被引用的一句改编自科幻小说《沙丘》的名言。对于想要在AI领域有所建树的公司来说，GPU至关重要。Nvidia凭借其在GPU市场的霸主地位，曾一跃成为全球市值最高的公司。

专用AI芯片还是GPU?

GPU负责训练和运行AI大模型所需的繁重计算任务。但这并非它们的设计初衷。GPU最初是为处理视频游戏图像而设计的。幸运的是，Nvidia发现，这些芯片可以重新用于AI工作负载。

从头开始设计专用AI芯片是否更好？这正是许多企业当前正在尝试的方向，以试图推翻 Nvidia的霸主地位。专用AI芯片有望使AI模型的构建和运行速度更快、更便宜。普通处理芯片本质上是为完成一件又一件的任务而设计的。相比之下，GPU包含数千个处理引擎或“核心”，这使它们能够同时运行数千个相同简单任务的不同版本。运行AI模型同样涉及并行地执行大量相同任务的副本。

然而，GPU也有其局限性，特别是在数据传输速度方面。现代AI模型运行在大量互连的GPU和内存芯片上，在它们之间快速移动数据对于性能至关重要。在训练非常大的AI模型时，由于等待数据，某些GPU核心可能有高达一半的时间处于空闲状态。

Cerebras / CS-3

Cerebras Systems 的解决方法是将 900000 个内核和大量内存整合到一块巨大的芯片上，以减少连接多个芯片和在它们之间传输数据的复杂性。

Cerebras Systems 成立于 2016 年，在芯片初创公司中算是比较奇怪的一家。这家芯片制造商并不开发用于 PCI-Express 卡的芯片或 Nvidia 的 SXM 之类的模块，也不开发 AMD 和英特尔用于传统系统 GPU 的模块，而是选择将整块晶圆做成一颗芯片。

今年3月，Cerebras推出了第三代晶圆级芯片WSE-3和AI超级计算机CS-3。WSE-3采用台积电5nm制程，有90万个AI核心和4万亿颗晶体管。其不仅是生产中最大的芯片，也是速度最快的芯片，具有 125 petaflops 的 AI 性能。CS-3 连接到 12TB 到 1.2PB 的外部存储器，使万亿参数模型能够轻松高效地进行训练。CS-3 是一台 15U 服务器，功耗高达 23kW。它目前可在本地或云端使用。

Cerebras CS-3 和 B200 硬件概述

Nvidia B200“Blackwell”于 GTC 2024 上发布，是 H100 GPU 的继任者。B200由两个GPU芯片组成，通过NVlink连接在一起，总共有2080亿个晶体管。B200 提供 4.4 petaflops 的 FP16 AI 计算能力，并配备 192GB 内存。B200有两款服务器版本可供选择。

DGX B200 是一款 10U 服务器，配备 8 个 B200 GPU。它提供 36 petaflops 的 AI 计算能力、1.5TB 内存，功耗为 14.3 kW。DGX NVL72 是一个全机架解决方案，通过 NVLink 连接了 72 个 B200 GPU。它提供 360 petaflops 的 AI 计算能力，功耗为 120kW。B200 产品预计将于 2024 年第四季度发货。

Nvidia与Cerebras的竞争反映出了AI加速器发展的两条路径，前者封装更多并行计算的GPU，后者则推行集中式、海量单芯片方式。

Groq / LPU

另一家也成立于2016年的初创公司 Groq 则采用了不同的方法。其名为语言处理单元（LPU）的AI芯片经过优化，能够以极快的速度运行大语言模型。

LPU的工作原理与GPU截然不同。它采用了时序指令集计算机（Temporal Instruction Set Computer）架构，这意味着它无需像使用高带宽存储器（HBM）的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题，还能有效降低成本。

不同于Nvidia GPU需要依赖高速数据传输，Groq的LPU在其系统中没有采用HBM。它使用的是SRAM，其速度比GPU所用的存储器快约20倍。鉴于AI的推理计算相较于模型训练需要的数据量远小，Groq的LPU因此更节能。在执行推理任务时，它从外部内存读取的数据更少，消耗的电量也低于Nvidia的GPU。

其他

位于加州的 MatX 则采用了另一种方法。该公司联合创始人之一 Reiner Pope 表示，GPU包含用于图形的功能和电路，但这对于LLM来说并不需要。MatX正在研发的类似GPU的芯片去除了这些不必要的冗余，通过更专注于少数任务来提升性能。

该领域的其他初创公司包括总部位于以色列的 Hailo、多伦多的 Taalas、使用开源RISC-V架构构建AI芯片的美国公司 Tenstorrent，以及据传即将出售给软银的英国公司 Graphcore。

大型科技公司也在开发AI芯片。谷歌已经开发了自己的张量处理单元（TPU），并将其作为云计算服务提供。亚马逊、Meta 和微软也为基于云的AI制作了定制芯片；OpenAI也有此计划。AMD和英特尔这两大老牌芯片制造商已经生产了类似GPU的芯片。

挑战与机遇

对于初创公司而言，过度专业化是一大风险。斯坦福大学计算机科学家 Christos Kozyrakis 表示，设计一款芯片通常需要两到三年的时间，这一周期在AI模型迭代速度极快的背景下显得尤为漫长。机遇在于，这些初创企业有望打造出比相对通用的GPU来说更贴合未来模型需求的专用芯片。但同时，它们也面临着可能在技术方向上过度聚焦，以至于错失真正的前沿趋势。

另一大挑战是，Nvidia 为其GPU设计的编程软件层——CUDA，尽管众所周知使用起来颇为繁琐，却已成为事实上的行业标准。斯坦福大学的 Kozyrakis 强调：“软件为王”，而 Nvidia 在这方面占据显著优势，多年来构建了庞大的软件生态系统。AI芯片初创企业要想取得成功，必须说服程序员重新调整代码，使其能在新型芯片上运行。他们为此提供了软件工具包，并确保与主流机器学习框架兼容。然而，在新架构上优化软件性能是一项复杂艰巨的任务，这也是Nvidia难以被取代的又一原因。

AI芯片及其系统的主要客户包括模型构建者（如OpenAI、Anthropic和Mistral）和科技巨头（如亚马逊、Meta、微软和谷歌）。对于这些公司而言，收购一家AI芯片初创企业，将技术独占，以期在竞争中胜出，或许是一种明智的选择。芯片初创公司与其与英伟达竞争，不如将自己定位为收购目标。

Pope表示，MatX 瞄准的是“顶级”客户，这意味着它希望将芯片销售给像OpenAI、Google或Anthropic这样的企业，这些企业的AI模型处于业界最前沿。据传，Cerebras已向证券监管机构秘密申请IPO。目前，该公司已累计融资7.2亿美元，估值约为42亿到50亿美元。OpenAI联合创始人兼首席执行官Sam Altman曾参与Cerebras的8000万美元D轮融资。

截至目前，尚未有任何一家初创企业可以撼动Nvidia 的主导地位。不过，大多数公司不愿意依赖单一供应商，希望看到市场上有更多样化的解决方案。这为初创企业们提供了巨大的机会和发展空间。

对于AI芯片领域的新进入者而言，前路尚不明朗。面对Nvidia强大的软件生态壁垒，以及科技巨头们可能的收购策略，这些初创企业必须找到自己的独特价值定位，或是成为行业巨头的一部分，或是独立发展，开辟一片新天地。无论如何，AI芯片领域的这场竞合博弈，无疑将深刻影响并塑造整个AI产业的未来面貌。

DC生肖网

专用AI芯片还是GPU?初创还是Nvidia?

科技创新蓝精灵