scaleFabric vs NV InfiniBand:差距在缩小,反超靠什么? 很多人关心一个问题:国产AI网络跟NV的InfiniBand比,到底差在哪?这次在曙光,我拿到了一份详细的对比数据,核心就是这次的主角——scaleFabric400自研RDMA Fabric。 先说硬指标:带宽都是400G,scaleFabric实测单口397Gbps,IB原生也是400G,打平。端到端延迟,scaleFabric实测0.93μs,IB不到1μs,基本在同一水平线。无损机制上,IB原生不需要PFC就无损,scaleFabric自研iLossless流控也不依赖PFC,算各有千秋。 拉开差距的是AllReduce加速。IB有SHARP v3硬件级加速,延迟能降50%,scaleFabric的SuperTunnel目前还是软件层优化,效果确实有差距。另外交换芯片速率,scaleFabric现在是400G,NV已经量产800G,下一代国产芯片还在研发中。 但scaleFabric也有反超的地方:单卡QP支持856K,是CX-7的6.7倍,这意味着并发通信能力更强。最大组网规模11万卡,超过IB的5万上限。成本只要IB方案的40%-60%,单台QM9700交换机约43万,scaleFabric便宜一大截。交付速度也快,郑州3套万卡集群,从部署到上线只用了36小时,靠的就是scaleFabric+SuperTunnel的自适应能力。 软件生态确实是短板,CUDA壁垒太高,DCU基于ROCM兼容,算子适配还有很长的路。但硬件参数追平、成本优势明显、交付效率碾压,scaleFabric这条赛道,已经跑起来了。
