中科曙光高级副总裁李斌:这条路最难,但我们选对了 在技术路线上,我们选择走难但对的路。3月12日发布会后台,中科曙光高级副总裁李斌这句话,让我愣了几秒。 这话不是场面话,是真刀真枪的抉择。高速网络有两条路:一是被国外垄断多年的InfiniBand原生路线,性能炸裂但全是别人的;二是在以太网上嫁接RDMA的RoCE路线,门槛低、好上手,但大规模集群容易翻车。 李斌说,曙光直接选了第一条——走最难的路。 为什么?因为万卡级集群容不得半点侥幸。RoCE的PFC流控机制,本质是出了事再解决,规模一上去,分分钟引发PFC风暴,运维工程师得通宵调参。而IB采用信用流控,传输前就确认资源,从根源上杜绝丢包。 对于万卡集群来说,这些差异直接决定了系统能不能稳定跑下去”李斌语气很平,但每个字都砸在地上。 更难的是,这条路没有现成的国产方案,得从底层芯片开始一点一点啃。但曙光啃下来了——scaleFabric,国内首款全栈自研400G原生RDMA,时延压到300纳秒以内,稳定性跑了10个月,可用性99.99%。 最难的路,脚印最深。这话,我信了。 中科曙光 中科曙光高级副总裁李斌 技术路线 InfiniBand
