「真」「假」超节点：什么才是称量AI算力的金标准

作者 | 常棣

编辑 | 葛覃

还记得“百模大战”么？

2023年ChatGPT爆火之后，家家都要做基础大模型，名字一个比一个响，参数一个比一个大。后来大家才发现，模型可以“百花齐放”，但真正能留在牌桌的其实就那么几家。

今天，AI算力赛道的焦点——超节点，正在重演当年的剧情。

行业内外明显充斥着热闹与喧嚣，发布会更密了，概念更热了，PPT里的超节点越来越多，可问题也越来越尖锐，这些“超节点”到底是新一代AI基础设施，还是新一轮概念复刻？

就像当初行业低估了基础模型所需要的资源和技术门槛，真正的超节点同样需要工程能力、系统能力和长期投入的底气，新技术的发展总要经历去伪存真的汰换过程，方能看见更加确定的未来。

超节点之“变”，从大模型原点说起

用旧时代算力基础设施的逻辑，去理解新时代AI算力的形态，超节点行业所遭遇的第一个问题，便是认知谬误。

早期行业有观点认为，超节点只是工程堆料，本质上是高配服务器，而不是一种新的算力基础设施形态。还有的观点认为，超节点不具备通用性，是为大模型训练定制的特殊产物，软件架构能解决的问题，没必要用硬件解决。

然而，回到大模型出现的原点，便能发现一个清晰的事实，超节点不是被“设计”出来的，而是被大模型“逼”出来的。

模型参数从千亿级冲到万亿级，从单模态走向全模态融合统一，训练数据规模从10TB级升级为100TB级，模型上下文长度也从K级迈入兆级，模型算法层面的创新也不断涌现。

传统基础设施无法支撑日新月异的大模型需求，半导体制造技术演进正在放慢，摩尔定律正在失效，大模型训推算力需求，快于摩尔定律的增长。单一芯片再提升，也无法满足AI的算力需求，必须依赖于多芯片互联，做大规模计算节点的方式来解决。

同时，传统集群通过“服务器堆叠和以太网联接”的模式提升算力规模，服务器之间带宽不足、时延大，集群规模越大，算力利用率反而越低，集群规模扩张还带来了可靠性问题。

这一切都指向全新的AI算力基础设施，当模型规模超过系统复杂度阈值，超节点成了最优解。

在近日举办的达沃斯论坛上，黄仁勋指出，“回顾计算堆栈基本原理正在发生的变化，这有助于我们理解，这是一次平台转移。新的应用程序被开发出来，在新的计算机类型上运行，一种新型的计算平台承载了各种新的应用。”

黄仁勋表示，每一次这样的变革，计算堆栈都被重新发明，新的应用被创造出来。

超节点之“辨”，真与假的三要素

超节点就是那个被重新发明的计算堆栈，它不是现有算力体系的渐进式创新，而是一次彻头彻尾的重构，就像IT发展史上的大型机、个人计算机、互联网/移动互联网和云计算，超节点所代表的AI计算平台，是专属于这个时代的算力形态。

超节点产业进入到了繁荣周期，从英伟达的NVL72到华为的384超节点，各家国产GPU厂商也纷纷推出了自己的32卡或64卡超节点方案，各大云厂商推出了自己的AI计算集群，市场好不热闹。

繁荣的反面是混乱与无序，一些传统计算方案也打着超节点的名义凑热度，那么，什么才是真·超节点？

《超节点发展报告》指出，超节点是AI计算节点通过高速互联协议组成更大内存空间的AI系统，其以大带宽、低时延互联、内存统一编址为核心，具备超大规模、超高可靠、灵活切分的能力，融合技术创新与系统优化，成为支撑大模型训练与推理的关键基础设施。

拆解来看，“大带宽、低时延”是超节点突破服务器通信瓶颈的核心。传统架构中，卡间依赖PCIe或以太网互联，跨服务器带宽多为200～400Gb/s，时延达数十微秒。在千亿参数模型训练中，频繁的GB级数据传输使计算长期等待通信，成为主要性能瓶颈。

在这一架构下，并行切分范围更大、调度更灵活。在DeepSeek、Qwen等多模态和MoE模型训练中，性能可提升3倍以上；在强化学习场景中，训推权重传输时间可从小时级缩短到60秒。

而“内存统一编址”是实现One NPU/GPU的关键能力。超节点需要把所有CPU、NPU/GPU的内存纳入同一个全局地址空间，做到地址唯一、语义统一。任意设备都可以通过load/store指令直接读写远端内存资源，无需经过“序列化—网络传输—反序列化”的传统流程，用内存语义通信替代网络通信，大幅提升参数同步、小包通信和随机访存效率，并形成更大的共享内存池。

以灵衢协议为例，统一CPU与NPU的内存语义，实现DDR与片上内存池化，可构建128TB级别的全局统一编址内存空间。其核心在于交换芯片能力，交换芯片充当“内存枢纽”，在统一协议下把CPU、NPU/GPU连接成一个整体，不论数据实际存放在哪块内存里，对外都只暴露一个全局地址，使整个超节点看起来像一台拥有超大内存的超级计算机。

厘清了真·超节点，也就不难区分假·超节点。市面上有些“超节点”还是基于PCIe+RoCE的互联，本质仍是服务器堆叠，不是真正的超节点，不支持AI处理器间的统一内存语义和大带宽、低时延直连。

PCIe+RoCE架构在这两点上都存在根本性限制。RoCE走的是RDMA语义，不是内存语义。跨服务器访存必须经过RDMA编解码流程，而不是像本地内存一样通过load/store直接访问，导致算子通信时延高、小包通信效率低、随机访存性能差、难以支撑通算融合算子优化。

同时，跨服务器带宽远低于节点内带宽，只是“网络级互联”，不是“总线级互联”，因此不是真正的超节点。

PCIe不能支撑AI处理器间的统一内存语义和大规模直连，AI处理器互联需要经过CPU调度，无法实现大规模设备间的高效直连；带宽能力也不足，即便是PCIe 6.0，单lane仅64GB/s，远低于超节点对处理器间互联带宽的要求，协议本身不支持全局统一内存语义。因此，PCIe更适合作为“外设总线”，而不是“超节点内部总线”。

一句话总结，只要还在用PCIe+RoCE连接服务器，本质还是很多服务器拼在一起；只有支持统一内存编址和内存语义通信，才是真正意义上的把整个集群变成一台计算机。

超节点之“遍”，AI应用繁荣的序幕

超节点之于AI行业的意义，不仅在于跑通了AI算力的新范式，更在于释放了AI应用创新的想象力，从历史角度看，每一次计算堆栈的重构，都伴随着新的应用繁荣，今天的超节点，则为AI应用繁荣拉开序幕。

而在中国算力产业受限的现实语境下，国内超节点的普及还有另一重意义，即突破海外的算力封锁，让中国AI产业不再受制于人。

英伟达点燃了AI计算时代的火种，但计算一直是生态型产业，不论是CPU还是GPU，它们的成功依赖于产业链的共同作用，超节点也是如此，并且比以往更需要生态。

典型以英伟达为例，业界分析师郭明錤曾指出，英伟达原计划的GB200 NVL72（基于Blackwell的机柜级超节点）的量产和出货节奏多次被推迟。最早拟在2024年第四季度推出，之后延到2024年12月，再到2025年第一季度，最终延到2025年第二季度才有显著出货。

推迟背后的主要原因，是整个高端AI超节点硬件的技术复杂性导致，高功耗、高散热设计使得系统难以快速量产；GPU载板、配套组件的良率、供应链协调难度大，对合作厂商和系统集成商的交付节奏也产生影响。

即便是英伟达也难以独自应对超节点的复杂，因为超节点本身就是超过芯片层级的系统。从海外来看，谷歌推出了第七代TPU Ironwood，可扩展到9216颗芯片集群，亚马逊推出了Trainium2超节点服务器，芯片之外，这些本就具备大规模集群和系统能力的厂商，在超节点一道上更具备优势。

国内方面，所有算力产业链都在紧锣密鼓投资，涉及超节点部件、超节点协议、超节点管理、超节点应用等，超节点生态日益繁荣。

硬件方面，在国内芯片制程落后的情况下，昇腾384超节点实现了对英伟达超节点的反超，更多硬件厂商也在逐步赶上；光互联技术，特别是NPO/CPO路径，正在突破千卡级以上集群的互联带宽瓶颈；协议与标准方面，灵衢、UAlink、SUE等开放协议与通用互联芯粒架构，推动解决生态碎片化问题。

全产业链的布局，标志着中国算力正从硬件堆砌迈向软硬协同、自主开放的体系化竞争新阶段。

当我们在看超节点这个热词时，不仅要辨别真伪，更要意识到它所承载的意义：超节点的落地，是AI算力标准化的起点，是推动生态繁荣的基石；厘清超节点的真与假，是让行业更理性地看待技术，认清超节点的本质，AI生态才能真正开花结果。

DC娱乐网

「真」「假」超节点：什么才是称量AI算力的金标准

热门分类