英伟达GTC发布新一代Blackwell架构GB200是否带来“光退铜进”?

一行人发现 2024-03-21 14:58:21

英伟达GTC 2024中宣发新一代GB200,其单机柜方案中使用了铜缆方式进行GPU之间的互联,引发了市场对于“光退铜进”的担忧。我们的思考如下:

①首先需要说明的是,铜缆互联仅适用于单机柜方案。如集群规模超过72颗GPU,则会涉及到多个机柜的互联,其中第一层网络保持用铜缆,第二层(甚至三层)网络预计会使用光模块承载。而单机柜方案更适用于中小参数规模模型的训练,与超大规模集群的适用场景存在“隔离”。

②第一层网络不使用光互联,并不是新方案。在2023年5月底英伟达在Computex 2023中发布的GH200集群,其第一层网络即未使用光模块,而是采用了背板互联的方案。而此次最新发布的GB200采用了铜缆方案,不存在所谓的铜缆取代了光互连。

③实际上GH、GB架构都将卡间带宽推升到了“极致”,二者集群中的所有GPU对外互联带宽(双向)分别达到了900GB/s、1800GB/s,而这种级别的带宽在传统的大规模集群中,仅存在于服务器内部以NVLink实现,用于大模型训练的张量并行。

H系列GPU销量中,GH200占比并不高;如果GB200在B系列中销量占比提升,我们可以对光模块需求更为乐观,以GB200的576颗Blackwell GPU的集群为例,单颗GPU所匹配的1.6T光模块达到1:9,预计较DGX B200集群的1:2.5配比有显著提升。

④市场所担忧的新一代B系列GPU单位算力对于光通信带宽的匹配有所下降,更多的原因是在于GPU算力提升幅度短期内超出了光通信带宽的提升速度。光模块向更高速率的迈进仍为大势所趋,通信带宽依旧是制约大规模集群中GPU利用率的“短板”。

在缩放定律的指引下,各厂商对于大模型训练侧的投入强度仍将保持提升,而不是市场所担忧的24/25年见顶;另一方面,随着GPU迭代周期的缩短,光模块升级步伐预计提速,在此背景下头部厂商地位预计稳固。站在当前时间点,仍看好光模块板块配置机会。

投资建议:【核心标的】:中际旭创、天孚通信、新易盛;

关注【MPO/MT插芯】标的:太辰光、致尚科技。

0 阅读:1

一行人发现

简介:感谢大家的关注