AI竞赛下半场：万卡“大算力”要给用户“喂细粮”？

智博会刚刚落幕，但热度不降反增。

一方面在于AI应用层愈发火爆，今年的大模型、智能体展品确实更“聪明”了，赛道价值得到进一步验证；另一方面则是国产算力底座越发给力，从昇腾384超节点到曙光scaleX万卡超集群，算力规模越来越大，系统可用性也越来越强。

两大国产算力重磅玩家明显都拿出了看家本领，某种程度上也为全力押注的AI用户打了一次保票。尤其从最新的万卡集群成果来看，这一大规模计算集成系统在各项指标上表现超出预期，并且切中很多实用场景核心需求，颇有一种用“大算力”给AI“喂细粮”的感觉。

算力密度：20倍提升，不只是“省地方”

先看一组数字：昇腾384是国产超节点开山之作，单机柜集成32张加速卡，总算力约300PFlops；曙光scaleX万卡超集群后来居上，单机柜集成640张卡，算力密度提升20倍。

对智算中心运营者而言，算力密度的提升不是“少占几个机柜”那么简单。一线城市的数据中心用地成本高昂，机房空间是刚性成本。同样部署万卡规模，之前需要20多组超节点部署，计算柜超过300个。曙光通过高密架构设计，16个机柜即可完成。

这不仅决定了项目的可行性和建设周期。更重要的是，算力密度提升带来的成本优势对用户极具吸引力。有工程师估算，同等算力规模下，曙光的部署总成本可压缩至传统方案的三分之一甚至更低。这意味着，过去只有头部企业才用得起的万卡级算力，是真的放下了身段。

网络互联：算力集群的“隐形命门”，拿下！

算力规模和密度的提升是结果。真正决定计算集群能否“跑得动”的，是网络互联。

今年，超节点与高速互联已被《2026全球AI算力发展研究报告》列为全球构建新型算力基础设施的重要路径。随着集群规模从几百卡膨胀到上万卡，通信开销正呈指数级增长——行业发展核心瓶颈也由单纯的算力供给不足，转向全域数据通信瓶颈。

上一阶段，昇腾384通过灵衢互联实现了百卡级超节点低延迟通信，为业内开了个好头。而接下来集群规模再往上走，跨组互联还需额外解决通信协议栈和光模块规模化工程难题。scaleX万卡超集群在这里下了很大功夫。

曙光采用了自研scaleFabric——国内首款400G类InfiniBand原生RDMA方案，将端侧通信延迟降至1微秒以下，并且单子网可支撑超10万卡扩展，不仅给后续集群扩展留下充足余量，也为用户拿下了一项“隐形命门”。

毕竟，对用户来说，网络性能直接决定“买回来的算力能用出多少”。此前很多集群规模虽然上去了，但通信内耗导致实际可用算力却大打折扣。万卡超集群进一步将AI加速卡资源利用率提升了55%，这背后正是网络优化的功劳。

开放架构：用户不想被“锁死”？安排！

如果说硬件指标是显性差异，那么生态策略则是隐性但影响更深远的路线布局。

在384超节点设计中，华为走的是垂直整合路线——从昇腾芯片到CANN软件栈，从灵衢互联到MindSpore框架，全部自研、全栈拉通。好处是软硬协同效率高，深度适配65+主流大模型，护城河极深。局限性也很明显，用户绑定效益太强，后续的扩展升级都要跟着华为走。

曙光选择的是开放架构——可适配多品牌国产加速卡，软件层全面兼容PyTorch、TensorFlow等主流框架，400多款大模型做到了Day0适配。这种生态“不锁死”的策略，在当前国产芯片路线多元化、生态碎片化背景下，对用户的友好度不言而喻。

一位来自某地方智算中心的技术负责人坦言：“机房里现在一共有三个品牌的国产卡，还混着一些存量卡。如果未来只能迁移到单一技术路线，不说难度有多高，限制有多大，就连成本都hold不住。”

显然，随着集群规模越做越大，用户关注的不仅是算力基建够不够用，更在于能不能用满、用好、用出价值。因为这直接决定着算力中心的长期运营是否划算。

目前来看，从超节点到超集群，国产算力玩家并未一味投入到规模竞赛，而是通过全方位的系统优化，深层次的技术细节打磨，为用户送上了一份更显熨帖的算力建设方案。

在AI竞赛下半场，万卡时代对算力应用层而言，可能意味着更自由、便捷、优渥的成长环境。

DC娱乐网