一家自研RDMA，一家还在吃老本，两家的网络方案差距有点大刷到一篇分析，说大模

一家自研RDMA，一家还在吃老本，两家的网络方案差距有点大
刷到一篇分析，说大模型训练中网络通信耗时占比高达30%到50%。一万张卡协同干活，通信一旦卡住，算力再强也得干等。大规模集群真正的瓶颈不在单卡，在把卡连起来的网络上。
在这个维度上拉了两家对比。
华为昇腾384超节点内部采用灵衢高速互联优化得不错，片间互连总带宽573TB/s，超节点内384卡全互联。但跨超节点并联时，通信协议栈需要额外解决，光模块部署工程量巨大。华为目前没有自研的端到端高速网络，在网络互联这一块更多依赖于既有标准和采购。
曙光走了一条从根子上解决的问题路径。3月发布了首款全栈自研400G无损高速网络scaleFabric，网卡端口带宽400Gbps，端到端通信时延低至0.9微秒；交换机单端口带宽800Gbps，交换时延仅260纳秒。单子网互连规模可支持最大11.4万卡集群部署，网络总成本还能降低30%。这套网络已在郑州国家超算互联网核心节点部署，支撑三套万卡级集群稳定运行超过10个月。
一边是在旧网络上修修补补，一边是把网络从底层协议到交换芯片全部重写。华为什么时候有自己的高速网络方案？目前路线图上看不出来。但曙光这套方案跑起来之后，网络上的代际差已经摆在眼前了。

DC娱乐网

一家自研RDMA，一家还在吃老本，两家的网络方案差距有点大刷到一篇分析，说大模

热门分类

一家自研RDMA，一家还在吃老本，两家的网络方案差距有点大 刷到一篇分析，说大模

热门分类

一家自研RDMA，一家还在吃老本，两家的网络方案差距有点大刷到一篇分析，说大模