美国对华AI的封锁,正从单一芯片禁运演变为覆盖硬件、模型、知识产权的全栈式“脱钩”。
当地时间4月1日,美国商务部国际贸易署正式启动“美国人工智能出口计划”。这份出口管制文件背后是一套严密的“排华”技术联盟架构。从硬件制造来源、AI模型知识产权到开源算法的国籍,该计划设置层层关卡,试图在全球范围内构建排除中国企业的AI技术栈。
然而,外部的极致施压,往往是内部替代加速的催化剂。4月2日,工信部办公厅发布通知,正式开展普惠算力赋能中小企业发展专项行动,着力解决企业算力获取难、成本高、落地慢等问题。与此同时,以中科曙光为代表的国产算力厂商接连推出40卡超节点新品、IB高速网络及全栈存储方案,进一步补全了国内对抗外部封锁、实现系统级赶超的技术拼图。
摩根士丹利预测,到2027年,中国AI芯片自给率将攀升至82%。在外部压力与内部利好下,算力、网络与存储作为智算基础设施的“铁三角”,其国产化进程或将从“单项选择题”升级为“全栈式必选”。中国AI产业链协同整军备战,有望加速迎来替代窗口期。
▌AI算力:从“买显卡”到“建系统”,国产超节点加速海外算力替代
在英伟达高端芯片获取难度日益加大、成本持续高涨的现实下,单纯依赖单卡算力堆砌的道路已经越走越窄。中国AI产业需要寻找一种新的算力获取范式,即通过系统架构创新来弥补单点性能的不足。
事件分析:根据美国人工智能出口计划向业界征集的“预设联合体”提案,其制度设计包含“全栈AI技术包”,如AI优化硬件及基础设施(包括芯片、服务器、加速器、数据中心存储、云服务及网络设备等),首当其冲成为本次计划的管制重点。
业内认为,随着美国禁令升级,英伟达高端芯片面临严格的许可要求,并且进口成本压力进一步加大。与此同时,国产算力卡的性能正在快速追赶,但在单卡绝对算力上与国际顶尖水平仍有差距。这种倒逼机制,促使中国算力市场将目光从“单卡峰值”转向“集群有效算力”。
市场趋势:行业内部已形成共识:超节点(SuperPod)与超集群是未来中国AI算力的主要形态。通过高速互联将数十甚至数百张国产算力卡紧密耦合,形成逻辑统一的“算力共同体”,不仅能够弥补单卡短板,更能在大模型训练与推理中展现出超越线性增长的效能。
对应方案:中科曙光近期发布的scaleX40超节点,正是这一趋势的典型代表。作为世界首个无线缆箱式超节点,scaleX40在16U空间内集成了40张GPU,实现了FP8 28PFLOPS的算力密度,单机部署密度是传统8卡机的2.5倍。
从采购成本与适配部署来看,这一定位精准切中了“刚需市场”痛点。在256卡以上的大规模集群与32卡的入门级方案之间,40卡的超节点提供了适配千亿参数模型微调与推理的“甜点区”算力,更好地兼顾了性能、成本与部署灵活性。
根据工信部最新发布的“普惠算力赋能中小企业发展专项行动”,国产普惠算力或成为突破美国高端算力封锁的主要路径,scaleX40超节点的易用性特征,有力呼应了这一政策趋势。面对NV卡替代压力,国内市场开辟出一条从“买不到”到“够用”、“好用”的现实路径。
▌高速网络:国产IB全栈自研破局,打通AI算力“大动脉”
在大规模AI集群训练中,通信时间占比可达30%以上,且规模越大占比越高。如果说算力芯片是大脑,那么高速网络就是连接大脑的神经系统。长期以来,InfiniBand(IB)市场被英伟达(Mellanox)垄断,这不仅带来了高昂的成本,更潜藏着供应链“断供”的致命风险。
事件分析:在此次美国人工智能出口计划中,网络设备被明确列为全栈技术包的“第一层”,与服务器、AI芯片等被一同列为战略级管控范围。未来,国内若没有自主可控的高性能网络,即便堆叠再多的国产算力卡,也会因通信延迟和拥塞导致大规模集群算力利用率下滑。
市场趋势:在英伟达高端技术缺席以及“超节点+大集群”发展需求下,“以网强算”成为国产算力系统化赶超的重要途径。目前,随着集群规模向万卡、十万卡跃升,RoCE的调优复杂度已接近临界点,曾被诟病「封闭昂贵」的IB架构成为必须自主突破的关键一环。
对应方案:今年3月,中科曙光发布首款国产原生支持RDMA网络的scaleFabric产品,从底层112G SerDes IP、交换芯片到上层管理软件100%自研。这意味着,国内终于拥有了自主可控的高端IB网络,国产化核心技术链条补齐了一块重要拼图。
在性能方面,scaleFabric端到端时延低至0.9微秒,单子网互联规模高达11.4万卡(是传统IB的2.33倍),全面对标英伟达NDR产品,且网络总成本可降低30%;生态方面,scaleFabric兼容CUDA及主流通信库,这意味着在外部生态“断链”的风险下,国产方案能够无缝承接现有大模型训练任务,无需大量代码重构。
公开资料显示,该网络产品已支撑郑州国家超算互联网核心节点3套万卡集群稳定运行超10个月,且36小时内即可完成3万卡集群的网络部署上线。在“美国AI出口计划”试图通过封闭生态锁死中国AI发展的背景下,国产IB网络正在实质性突破又一“卡脖子”环节。
▌存储:降低单一硬件依赖,三级协同下的先进存力范式升级
在AI大模型训练中,“算得快”往往受限于“数据喂得慢”。当算力与网络都在提速时,存储若成为瓶颈,将导致昂贵的算力资源处于闲置等待状态。当前,“算力狂奔、存力不足”的矛盾广泛存在,构建自主可控的高性能存储配套体系成为必选题。
事件分析:从美国的新一轮管制可以看出,“数据中心存储”同样位于全栈AI技术包的核心管控领域,AI技术竞争的焦点正在从高端芯片等单点环节,向包括存储在内的全栈能力扩散,“卡脖子”风险也已从GPU蔓延到了供应链的每一个角落。
市场趋势:存储作为智能基础设施的主要支撑系统,目前面临AI训推带来的新挑战:在训练环节,存力平台的挑战主要表现在超大规模集群下的并发读写带宽需求;在推理环节,为了进一步优化用户体验,推理的响应速度和结果的精准度均对“存算协同”提出更高要求。
叠加美国新一轮管制升级,国产AI基础设施正基于芯片级、系统级和AI应用级的协同设计,让存力深度介入AI流水线,满足其极致性能要求。打造高效协同的存算一体化系统,不仅是提升算力ROI的经济需要,更是当前降低单一硬件依赖、构建全栈国产化体系的安全需要。
对应方案:作为国内最早开始存储技术自研积累的厂商,曙光存储在新一轮存力范式革命中,成功完成了芯片级与固件级的全栈国产化布局,一方面确保数据链路无后门、不断供,另一方面实现“算存传”一体化协同,意在安全高效地释放集群算力潜能。
其中,曙光将自研的ParaStor存储与scaleFabric网络深度结合,通过“超级隧道”技术为计算节点开辟专属数据通道。该技术解决了RDMA网络拥塞和PCIe通道竞争问题,单节点可提供220GB/s带宽与千万级IOPS,单节点即可支撑数十块GPU的满血运行。
在大模型训练中,曙光算存传一体化方案可通过“以存代算”卸载部分开销,提升GPU有效利用率。实测数据显示,该方案在气象模拟等科学智能场景中性能提升了约2倍。并且,在scaleX40超节点应用中,其训推效率、带宽、算力利用率均得到显著提升。
▌结语:
美国商务部的AI出口计划,虽然在短期内筑起了技术高墙,但从国内厂商的积极应对来看,中国AI产业正在走出一条独特的系统化赶超路径。
回顾“算力-网络-存储”这套“铁三角”方案,国产AI产业进阶逻辑越发清晰:我们不再追求单一产品环节对海外巨头的追随式模仿,而是通过全栈一体化的系统工程,充分释放规模化算力的真实效能,在综合维度上实现对海外技术垄断的高位破局。
从“点状替代”到“系统赶超”,中科曙光展现的不仅仅是一家企业的技术储备,更是中国算力产业在“十五五”规划开局之年,应对极限施压的底气。当自主可控的全栈方案经过长期验证并实现规模化落地,中国AI的发展命脉将牢牢掌握在自己手里。
声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。