DC娱乐网

最新数据显示,我国算力总规模与智能算力规模双双位居全球第二,通算、智算、超算多元

最新数据显示,我国算力总规模与智能算力规模双双位居全球第二,通算、智算、超算多元协同的算力格局已然成型。但说实话,投这么多钱建算力,网络能不能跟上,才是真正让人捏把汗的地方。 这几年国内网络方案基本是RoCE路线,所以很多舆论慢慢形成一种印象:RoCE好像已经和IB差不多了。但只要做过大规模训练的人其实都知道,两者不是一个级别的设计思路。 IB从一开始就是大集群计算设计的,原生RDMA、信用流控、极低延迟,整个网络就是为了算力集群服务。而RoCE是后来在以太网上做的改造方案,说白了就是在通用网络上尽量模拟IB的能力。 小规模的时候差距不明显,但当模型变成万亿参数、集群变成万卡规模时,问题就会逐渐放大——丢包、拥塞控制复杂、延迟更高,这些都会直接影响GPU利用率。之前业内有个数据挺扎心:0.1%的丢包率,就可能让GPU利用率下降一成以上。算力卡那么贵,结果因为网络没跟上,很多时间其实都在等数据。 问题是目前国内使用的主要还是RoCE。不过最近有外媒说国内某头部算力厂商在原生RDMA互联技术上已经取得重大突破,直接对标英伟达的IB路线。如果是真的,那其实意味着一个信号:国内算力基础设施开始全方位地从“能用”走向“顶配”了。