
作者 | 常棣
编辑 | 葛覃
还记得“百模大战”么?
2023年ChatGPT爆火之后,家家都要做基础大模型,名字一个比一个响,参数一个比一个大。后来大家才发现,模型可以“百花齐放”,但真正能留在牌桌的其实就那么几家。
今天,AI算力赛道的焦点——超节点,正在重演当年的剧情。
行业内外明显充斥着热闹与喧嚣,发布会更密了,概念更热了,PPT里的超节点越来越多,可问题也越来越尖锐,这些“超节点”到底是新一代AI基础设施,还是新一轮概念复刻?
就像当初行业低估了基础模型所需要的资源和技术门槛,真正的超节点同样需要工程能力、系统能力和长期投入的底气,新技术的发展总要经历去伪存真的汰换过程,方能看见更加确定的未来。
超节点之“变”,从大模型原点说起用旧时代算力基础设施的逻辑,去理解新时代AI算力的形态,超节点行业所遭遇的第一个问题,便是认知谬误。
早期行业有观点认为,超节点只是工程堆料,本质上是高配服务器,而不是一种新的算力基础设施形态。还有的观点认为,超节点不具备通用性,是为大模型训练定制的特殊产物,软件架构能解决的问题,没必要用硬件解决。
然而,回到大模型出现的原点,便能发现一个清晰的事实,超节点不是被“设计”出来的,而是被大模型“逼”出来的。

模型参数从千亿级冲到万亿级,从单模态走向全模态融合统一,训练数据规模从10TB级升级为100TB级,模型上下文长度也从K级迈入兆级,模型算法层面的创新也不断涌现。
传统基础设施无法支撑日新月异的大模型需求,半导体制造技术演进正在放慢,摩尔定律正在失效,大模型训推算力需求,快于摩尔定律的增长。单一芯片再提升,也无法满足AI的算力需求,必须依赖于多芯片互联,做大规模计算节点的方式来解决。
同时,传统集群通过“服务器堆叠和以太网联接”的模式提升算力规模,服务器之间带宽不足、时延大,集群规模越大,算力利用率反而越低,集群规模扩张还带来了可靠性问题。
这一切都指向全新的AI算力基础设施,当模型规模超过系统复杂度阈值,超节点成了最优解。
在近日举办的达沃斯论坛上,黄仁勋指出,“回顾计算堆栈基本原理正在发生的变化,这有助于我们理解,这是一次平台转移。新的应用程序被开发出来,在新的计算机类型上运行,一种新型的计算平台承载了各种新的应用。”
黄仁勋表示,每一次这样的变革,计算堆栈都被重新发明,新的应用被创造出来。
超节点之“辨”,真与假的三要素超节点就是那个被重新发明的计算堆栈,它不是现有算力体系的渐进式创新,而是一次彻头彻尾的重构,就像IT发展史上的大型机、个人计算机、互联网/移动互联网和云计算,超节点所代表的AI计算平台,是专属于这个时代的算力形态。
超节点产业进入到了繁荣周期,从英伟达的NVL72到华为的384超节点,各家国产GPU厂商也纷纷推出了自己的32卡或64卡超节点方案,各大云厂商推出了自己的AI计算集群,市场好不热闹。
繁荣的反面是混乱与无序,一些传统计算方案也打着超节点的名义凑热度,那么,什么才是真·超节点?
《超节点发展报告》指出,超节点是AI计算节点通过高速互联协议组成更大内存空间的AI系统,其以大带宽、低时延互联、内存统一编址为核心,具备超大规模、超高可靠、灵活切分的能力,融合技术创新与系统优化,成为支撑大模型训练与推理的关键基础设施。
拆解来看,“大带宽、低时延”是超节点突破服务器通信瓶颈的核心。传统架构中,卡间依赖PCIe或以太网互联,跨服务器带宽多为200~400Gb/s,时延达数十微秒。在千亿参数模型训练中,频繁的GB级数据传输使计算长期等待通信,成为主要性能瓶颈。

在这一架构下,并行切分范围更大、调度更灵活。在DeepSeek、Qwen等多模态和MoE模型训练中,性能可提升3倍以上;在强化学习场景中,训推权重传输时间可从小时级缩短到60秒。
而“内存统一编址”是实现One NPU/GPU的关键能力。超节点需要把所有CPU、NPU/GPU的内存纳入同一个全局地址空间,做到地址唯一、语义统一。任意设备都可以通过load/store指令直接读写远端内存资源,无需经过“序列化—网络传输—反序列化”的传统流程,用内存语义通信替代网络通信,大幅提升参数同步、小包通信和随机访存效率,并形成更大的共享内存池。
以灵衢协议为例,统一CPU与NPU的内存语义,实现DDR与片上内存池化,可构建128TB级别的全局统一编址内存空间。其核心在于交换芯片能力,交换芯片充当“内存枢纽”,在统一协议下把CPU、NPU/GPU连接成一个整体,不论数据实际存放在哪块内存里,对外都只暴露一个全局地址,使整个超节点看起来像一台拥有超大内存的超级计算机。
厘清了真·超节点,也就不难区分假·超节点。市面上有些“超节点”还是基于PCIe+RoCE的互联,本质仍是服务器堆叠,不是真正的超节点,不支持AI处理器间的统一内存语义和大带宽、低时延直连。
PCIe+RoCE架构在这两点上都存在根本性限制。RoCE走的是RDMA语义,不是内存语义。跨服务器访存必须经过RDMA编解码流程,而不是像本地内存一样通过load/store直接访问,导致算子通信时延高、小包通信效率低、随机访存性能差、难以支撑通算融合算子优化。
同时,跨服务器带宽远低于节点内带宽,只是“网络级互联”,不是“总线级互联”,因此不是真正的超节点。
PCIe不能支撑AI处理器间的统一内存语义和大规模直连,AI处理器互联需要经过CPU调度,无法实现大规模设备间的高效直连;带宽能力也不足,即便是PCIe 6.0,单lane仅64GB/s,远低于超节点对处理器间互联带宽的要求,协议本身不支持全局统一内存语义。因此,PCIe更适合作为“外设总线”,而不是“超节点内部总线”。
一句话总结,只要还在用PCIe+RoCE连接服务器,本质还是很多服务器拼在一起;只有支持统一内存编址和内存语义通信,才是真正意义上的把整个集群变成一台计算机。
超节点之“遍”,AI应用繁荣的序幕超节点之于AI行业的意义,不仅在于跑通了AI算力的新范式,更在于释放了AI应用创新的想象力,从历史角度看,每一次计算堆栈的重构,都伴随着新的应用繁荣,今天的超节点,则为AI应用繁荣拉开序幕。
而在中国算力产业受限的现实语境下,国内超节点的普及还有另一重意义,即突破海外的算力封锁,让中国AI产业不再受制于人。

英伟达点燃了AI计算时代的火种,但计算一直是生态型产业,不论是CPU还是GPU,它们的成功依赖于产业链的共同作用,超节点也是如此,并且比以往更需要生态。
典型以英伟达为例,业界分析师郭明錤曾指出,英伟达原计划的GB200 NVL72(基于Blackwell的机柜级超节点)的量产和出货节奏多次被推迟。最早拟在2024年第四季度推出,之后延到2024年12月,再到2025年第一季度,最终延到2025年第二季度才有显著出货。
推迟背后的主要原因,是整个高端AI超节点硬件的技术复杂性导致,高功耗、高散热设计使得系统难以快速量产;GPU载板、配套组件的良率、供应链协调难度大,对合作厂商和系统集成商的交付节奏也产生影响。
即便是英伟达也难以独自应对超节点的复杂,因为超节点本身就是超过芯片层级的系统。从海外来看,谷歌推出了第七代TPU Ironwood,可扩展到9216颗芯片集群,亚马逊推出了Trainium2超节点服务器,芯片之外,这些本就具备大规模集群和系统能力的厂商,在超节点一道上更具备优势。
国内方面,所有算力产业链都在紧锣密鼓投资,涉及超节点部件、超节点协议、超节点管理、超节点应用等,超节点生态日益繁荣。
硬件方面,在国内芯片制程落后的情况下,昇腾384超节点实现了对英伟达超节点的反超,更多硬件厂商也在逐步赶上;光互联技术,特别是NPO/CPO路径,正在突破千卡级以上集群的互联带宽瓶颈;协议与标准方面,灵衢、UAlink、SUE等开放协议与通用互联芯粒架构,推动解决生态碎片化问题。
全产业链的布局,标志着中国算力正从硬件堆砌迈向软硬协同、自主开放的体系化竞争新阶段。
当我们在看超节点这个热词时,不仅要辨别真伪,更要意识到它所承载的意义:超节点的落地,是AI算力标准化的起点,是推动生态繁荣的基石;厘清超节点的真与假,是让行业更理性地看待技术,认清超节点的本质,AI生态才能真正开花结果。