最新数据显示，我国算力总规模与智能算力规模双双位居全球第二，通算、智算、超算多元

最新数据显示，我国算力总规模与智能算力规模双双位居全球第二，通算、智算、超算多元协同的算力格局已然成型。但说实话，投这么多钱建算力，网络能不能跟上，才是真正让人捏把汗的地方。

这几年国内网络方案基本是RoCE路线，所以很多舆论慢慢形成一种印象：RoCE好像已经和IB差不多了。但只要做过大规模训练的人其实都知道，两者不是一个级别的设计思路。

IB从一开始就是大集群计算设计的，原生RDMA、信用流控、极低延迟，整个网络就是为了算力集群服务。而RoCE是后来在以太网上做的改造方案，说白了就是在通用网络上尽量模拟IB的能力。

小规模的时候差距不明显，但当模型变成万亿参数、集群变成万卡规模时，问题就会逐渐放大——丢包、拥塞控制复杂、延迟更高，这些都会直接影响GPU利用率。之前业内有个数据挺扎心：0.1%的丢包率，就可能让GPU利用率下降一成以上。算力卡那么贵，结果因为网络没跟上，很多时间其实都在等数据。

问题是目前国内使用的主要还是RoCE。不过最近有外媒说国内某头部算力厂商在原生RDMA互联技术上已经取得重大突破，直接对标英伟达的IB路线。如果是真的，那其实意味着一个信号：国内算力基础设施开始全方位地从“能用”走向“顶配”了。

DC娱乐网

最新数据显示，我国算力总规模与智能算力规模双双位居全球第二，通算、智算、超算多元

热门分类