scaleFabric vs NV InfiniBand：差距在缩小，反超靠什么

scaleFabric vs NV InfiniBand：差距在缩小，反超靠什么？

很多人关心一个问题：国产AI网络跟NV的InfiniBand比，到底差在哪？这次在曙光，我拿到了一份详细的对比数据，核心就是这次的主角——scaleFabric400自研RDMA Fabric。

先说硬指标：带宽都是400G，scaleFabric实测单口397Gbps，IB原生也是400G，打平。端到端延迟，scaleFabric实测0.93μs，IB不到1μs，基本在同一水平线。无损机制上，IB原生不需要PFC就无损，scaleFabric自研iLossless流控也不依赖PFC，算各有千秋。

拉开差距的是AllReduce加速。IB有SHARP v3硬件级加速，延迟能降50%，scaleFabric的SuperTunnel目前还是软件层优化，效果确实有差距。另外交换芯片速率，scaleFabric现在是400G，NV已经量产800G，下一代国产芯片还在研发中。

但scaleFabric也有反超的地方：单卡QP支持856K，是CX-7的6.7倍，这意味着并发通信能力更强。最大组网规模11万卡，超过IB的5万上限。成本只要IB方案的40%-60%，单台QM9700交换机约43万，scaleFabric便宜一大截。交付速度也快，郑州3套万卡集群，从部署到上线只用了36小时，靠的就是scaleFabric+SuperTunnel的自适应能力。

软件生态确实是短板，CUDA壁垒太高，DCU基于ROCM兼容，算子适配还有很长的路。但硬件参数追平、成本优势明显、交付效率碾压，scaleFabric这条赛道，已经跑起来了。

DC娱乐网

scaleFabric vs NV InfiniBand：差距在缩小，反超靠什么

热门分类