DC娱乐网

超节点不敢大规模部署?真正的痛点不在算力,在可靠性超节点概念在算力圈已经热了一年

超节点不敢大规模部署?真正的痛点不在算力,在可靠性超节点概念在算力圈已经热了一年多,但一个尴尬的现实是:真正敢大规模部署的用户,掰着指头都能数过来。问题出在哪? 不是算力不够强,而是可靠性达不到要求。 做过大规模集群运维的人都知道,光模块故障是TOP级硬件故障。一个384卡的超节点,光模块数量高达6912个,光纤总长316公里。这是什么概念?单组光模块故障就可能引发数十张卡通信中断,修怕是常态了。 不过昨天的中关村论坛上,曙光发布的scaleX40给出了另一种解法:无线缆正交背板设计。这不是小修小补,而是从根上砍掉线缆这个故障大户。计算节点和交换节点直接对插,不再依赖光纤和铜缆。带来的变化很直接:故障率降低30%-50%,系统可用性提升至99.99%,运维时间从小时级压缩到分钟级。 当算力从实验室玩具变成业务基础设施,可靠性就是那个“1”,性能是后面的“0”。没有可靠性,再高的算力也跑不起来。scaleX40解决的,恰恰是超节点落地的“最后一公里”问题。国产超节点 国产算力 算力普惠 scale X40