DC娱乐网

国产原生IB架构,如何破解十万卡算力网络难题

AI大模型竞赛跑进万卡乃至十万卡时代,算力的瓶颈早已从单卡性能转向网络协同——几千张甚至几万张AI卡要同步运算,网络如果跟不上,好不容易堆起来的算力会直接打对折。 过去很多智算中心选RoCE作为平替,兼容以太网、初期硬件成本低,但当集群规模涨到万卡以上,RoCE的问题就像被放大镜照过一样明显。 它依赖PFC流控机制,接收端缓冲区紧张时才发暂停帧,这种反应式控制很容易引发“PFC风暴”,整个网络瘫痪;而且调优得靠专门团队,人力成本、算力闲置的隐性支出加起来,TCO一点不低,租个集群回来光调网络就折腾俩月,这种账以前没人算清楚。

这时候国产原生IB架构的ScaleFabric撞进了视野,给十万卡级算力集群带来了新解。作为国内首款全栈自主研发的400G原生RDMA高速网络,它从底层芯片到上层软件都实现了100%自研,性能直接对标国际主流NDR产品。 和RoCE的分布式管理不同,ScaleFabric用集中式管理把死锁风险彻底消除,再加上VCT交换技术,边收边转把交换时延控制在300ns以内,刚好匹配大模型训练里小消息通信的低延迟需求。 更关键的是它把“账算明白了”——400G带宽配合存算传耦合优化,直接把AI卡的利用率拉高55%,整体网络成本反而降了30%。 以前大家觉得IB贵,但万卡规模下,RoCE的运维调优、故障闲置这些隐性成本早超过了硬件差价,ScaleFabric刚好把这些“看不见的成本”砍了下来。

更让人安心的是,这套网络已经在万卡集群里规模化验证过,稳定运行超过10个月。对搞智算中心、大模型训练的人来说,这不是多一个选项,是终于有了能兼顾性能、成本和供应链安全的国产方案。 就像中国工程院院士邬贺铨说的,高端高速网络长期被国外垄断,是算力基础设施的关键短板,而ScaleFabric这样的原生RDMA网络,正好成了智算集群的“算力大动脉”,把这个短板补上了。

中科曙光的布局还不止于此。为了让产业链协同起来,他们搞了开放联合实验室,让芯片、软件、应用厂商聚焦各自优势,不用再全链条铺摊子——比如专注算法的小企业,不用搭算力平台就能把技术落地。 还有scaleX万卡超集群,用16个scaleX640超节点搭起来,算力超5Eflops,能训万亿参数大模型。 这个超节点有意思,算存网电冷一体化紧耦合,“一拖二”高密设计,PUE控制在1.04,比风冷省30%电,还能让MoE大模型性能提30%-40%——这背后,ScaleFabric的高速网络就是核心支撑,没有它,万卡规模的集群早成了“算力空壳”。 现在算力竞赛拼的是体系协同,从单卡到整个集群的每一环都得跟上。ScaleFabric的出现,刚好给十万卡级的超大规模算力,搭好了能跑起来、跑稳的“网络底座”。 接下来要看的,就是这个国产方案怎么把“算力红利”真正落到大模型训练、科学智能这些极致场景里了。