DC娱乐网

AI竞赛下半场:万卡“大算力”要给用户“喂细粮”?

智博会刚刚落幕,但热度不降反增。一方面在于AI应用层愈发火爆,今年的大模型、智能体展品确实更“聪明”了,赛道价值得到进一

智博会刚刚落幕,但热度不降反增。

一方面在于AI应用层愈发火爆,今年的大模型、智能体展品确实更“聪明”了,赛道价值得到进一步验证;另一方面则是国产算力底座越发给力,从昇腾384超节点到曙光scaleX万卡超集群,算力规模越来越大,系统可用性也越来越强。

两大国产算力重磅玩家明显都拿出了看家本领,某种程度上也为全力押注的AI用户打了一次保票。尤其从最新的万卡集群成果来看,这一大规模计算集成系统在各项指标上表现超出预期,并且切中很多实用场景核心需求,颇有一种用“大算力”给AI“喂细粮”的感觉。

算力密度:20倍提升,不只是“省地方”

先看一组数字:昇腾384是国产超节点开山之作,单机柜集成32张加速卡,总算力约300PFlops;曙光scaleX万卡超集群后来居上,单机柜集成640张卡,算力密度提升20倍。

对智算中心运营者而言,算力密度的提升不是“少占几个机柜”那么简单。一线城市的数据中心用地成本高昂,机房空间是刚性成本。同样部署万卡规模,之前需要20多组超节点部署,计算柜超过300个。曙光通过高密架构设计,16个机柜即可完成。

这不仅决定了项目的可行性和建设周期。更重要的是,算力密度提升带来的成本优势对用户极具吸引力。有工程师估算,同等算力规模下,曙光的部署总成本可压缩至传统方案的三分之一甚至更低。这意味着,过去只有头部企业才用得起的万卡级算力,是真的放下了身段。

网络互联:算力集群的“隐形命门”,拿下!

算力规模和密度的提升是结果。真正决定计算集群能否“跑得动”的,是网络互联。

今年,超节点与高速互联已被《2026全球AI算力发展研究报告》列为全球构建新型算力基础设施的重要路径。随着集群规模从几百卡膨胀到上万卡,通信开销正呈指数级增长——行业发展核心瓶颈也由单纯的算力供给不足,转向全域数据通信瓶颈。

上一阶段,昇腾384通过灵衢互联实现了百卡级超节点低延迟通信,为业内开了个好头。而接下来集群规模再往上走,跨组互联还需额外解决通信协议栈和光模块规模化工程难题。scaleX万卡超集群在这里下了很大功夫。

曙光采用了自研scaleFabric——国内首款400G类InfiniBand原生RDMA方案,将端侧通信延迟降至1微秒以下,并且单子网可支撑超10万卡扩展,不仅给后续集群扩展留下充足余量,也为用户拿下了一项“隐形命门”。

毕竟,对用户来说,网络性能直接决定“买回来的算力能用出多少”。此前很多集群规模虽然上去了,但通信内耗导致实际可用算力却大打折扣。万卡超集群进一步将AI加速卡资源利用率提升了55%,这背后正是网络优化的功劳。

开放架构:用户不想被“锁死”?安排!

如果说硬件指标是显性差异,那么生态策略则是隐性但影响更深远的路线布局。

在384超节点设计中,华为走的是垂直整合路线——从昇腾芯片到CANN软件栈,从灵衢互联到MindSpore框架,全部自研、全栈拉通。好处是软硬协同效率高,深度适配65+主流大模型,护城河极深。局限性也很明显,用户绑定效益太强,后续的扩展升级都要跟着华为走。

曙光选择的是开放架构——可适配多品牌国产加速卡,软件层全面兼容PyTorch、TensorFlow等主流框架,400多款大模型做到了Day0适配。这种生态“不锁死”的策略,在当前国产芯片路线多元化、生态碎片化背景下,对用户的友好度不言而喻。

一位来自某地方智算中心的技术负责人坦言:“机房里现在一共有三个品牌的国产卡,还混着一些存量卡。如果未来只能迁移到单一技术路线,不说难度有多高,限制有多大,就连成本都hold不住。”

显然,随着集群规模越做越大,用户关注的不仅是算力基建够不够用,更在于能不能用满、用好、用出价值。因为这直接决定着算力中心的长期运营是否划算。

目前来看,从超节点到超集群,国产算力玩家并未一味投入到规模竞赛,而是通过全方位的系统优化,深层次的技术细节打磨,为用户送上了一份更显熨帖的算力建设方案。

在AI竞赛下半场,万卡时代对算力应用层而言,可能意味着更自由、便捷、优渥的成长环境。