DC娱乐网

云计算第三次浪潮 中国电信要“抢跑”

作者/IT时报郝俊慧

编辑/孙妍

当手机拍照后,瞬间完成AI美颜;当无人驾驶汽车实时处理海量数据;当智能安防系统毫秒级识别异常情况……这一切背后,是一场正在发生的云计算范式革命。

2006年,美国亚马逊公司首次推出弹性计算云(ElasticComputeCloud)服务,同年,谷歌前首席执行官埃里克·施密特提出“云计算(CloudComputing)”概念,自此,全球进入“风起云涌”的时代。

19年后,AI浪潮袭来,云计算来到新时代的入口。

从中心到边缘,从集中到分布,AI推理模型的突破性发展推动计算模式迎来深刻变革,未来计算需要绘制一张新的“算力地图”。

这一次,中国的电信运营商要“抢跑”。

2025年初,中国电信云计算研究院(以下简称云研院)率先提出构建新一代云计算技术体系——智能泛在云的六层架构,其核心是基于“云网融合”叠加人工智能能力,实现“云边端一体”,将算力与智能更灵活地部署在各类业务场景中。

然而,智能泛在云的构建也面临着重重技术挑战。

10月23日,CNCC2025(中国计算机大会)期间,云研院举行了“基于智能泛在云的资源弹性调度与优化”技术论坛(以下简称论坛),来自云研院、天翼云科技、华中科技大学、南京大学、上海交通大学、天津大学等产业界和高校的研究者们,一起为这场云计算的范式革命寻找答案。

“旧地图”的边界

云计算出现19年后,一张以数据中心为核心的“算力地图”完成了全球普及,依靠建设超大规模数据中心、提供标准化虚拟机和存储服务等,AWS、谷歌云、阿里云们走在了前列,中国电信天翼云、中国移动云等电信运营商云则后来居上。

然而,当AI以摧枯拉朽之势席卷全球时,全球云服务商都站在了关键的转折点,传统的中心化云架构已无法满足用户实时响应的需求。

这张“地图”遇到了它的边界。

如果说集中式云的出现是云计算的第一次革命,分布式云出现是第二次云计算革命,那么,显然,云计算迎来了第三次革命浪潮,云基础设施正向真正的AI原生平台演进。

“应用的计算负载和动态性显著增强,推动云基础设施从‘资源提供’向‘高效运行’模式转型。”中国电信首席科学家、中国电信云计算研究院院长吴杰指出,AI时代,资源负载呈现出高动态性的特征:训练需要数万张GPU以极低延时协同通信,推理需要在毫秒级响应;一个热点新闻可能在五分钟内让某个网站流量暴增百倍;数据管道要处理PB级的非结构化数据,企业用户不再关心多少资源和带宽,而是直接需要一个结果……这种动态性已经远远超出人工和简单统计模型的应对能力。

另一方面,算力界的“巴别塔困境”越来越明显。

英特尔的CPU、英伟达的GPU、谷歌的TPU、亚马逊云科技(AWS)的Trainium、华为昇腾的NPU、沐曦的GPGPU……再加上FPGA、DPU等加速卡,如何让这些说着不同“语言”的硬件高效协同工作?

尤其在中国市场,英伟达芯片在国内市场份额逐渐下降,国产算力百花齐放,中国的云服务商面临比国外运营商更现实、更复杂的问题。

与此同时,计算资源类型也变得更加丰富,云计算、边缘计算、IoT设备等多源异构资源的智能管理与调度,同样是个全球性技术难题。

更棘手的是,通信正成为AI进一步发展的瓶颈。从卡间到数据中心内部再到跨数据中心,通信时延增加了多个数量级,如果说数据在单一数据中心内传输时延在微秒级,那么一旦走出数据中心,时延便变成毫秒级。另一方面,天翼云团队测试发现,如果通信丢包率增加4%,那么整个系统算效至少降低50%。

为了抢到AI时代的船票,头部玩家们都在进行一场“嬗变”,构建一套从中心云到区域云、边缘云、设备端的分布式云体系:AWS的LocalZones把数据中心建到离用户更近的城市,Wavelength直接把计算能力部署到5G基站机房,Outposts甚至把AWS的机柜搬进客户的数据中心;阿里云也在不久前的云栖大会上明确了新定位:全球领先的全栈人工智能服务商,并且认为“全球未来只有5~6台超级计算机”。

事实上,云计算走到今天,其终极方向已隐隐可见:构建一个覆盖全球、连接万物、自主进化的智能计算网络,这个全球超级系统将既有中心化系统的全局优化能力,又有去中心化系统的本地响应速度,它需要一张新的“算力地图”,一朵无处不在的云。

然而,当巨头们试图将能力下沉到边缘时,却会天然遇到一个难题:如何克服网络的物理限制?

在刚刚结束的GTC上,英伟达宣布投资10亿美元给诺基亚,便是试图以通信的方式解决算力边缘化的难题。其发布的AI原生6G无线协议栈——NVIDIA-ARC,最终希望用6G和AI升级数以百万计的基站,从而让算力下沉到基站。

中国电信的独特坐标

“这是中国电信运营商独有的优势。”吴杰接受《IT时报》记者采访时表示,在下一代云计算架构的构建中,中国电信运营商有着独特的坐标,它们天然掌控着从骨干网到城域网到接入网的全链路资源,拥有网络资源和计算资源的联合调度能力,而这恰恰是其他云厂商短期内难以复制的。

云计算正加速向泛在化、智能化发展。中国电信拥有覆盖全国、通达全球的光纤骨干网和“2+4+31+X”泛在云基础设施底座,数以百万计的5G基站、近千个IDC机房和近60万个机架,都是“算力地图”上的星星之火,将云计算能力下沉到城市、县城甚至社区的边缘节点,让算力真正触手可及,让每个终端都成为这张算力网络的节点。

今年年初,云研院创新性地提出新一代“智能泛在云”概念,以泛在云网基础设施为底座,以一体化调度为核心,以智能自驱为动力,以提供无处不在、高效智能、安全可靠的云计算服务为目的,这是以云网融合为基础的中国电信向智能时代演进的重要技术路线。

吴杰将其分为六层架构:运维层聚焦全局可观测与智能管理,保障系统运行的安全性与可靠性;基础设施层整合云、网、边、端多源异构资源,构建全面覆盖的供给能力;调度层承担多维资源的统一建模与一体化调配,实现真正意义上的云网一体;平台层支撑分布式计算、数据融合与AI服务化,提升数据向智能转换的效率;应用层则面向千行百业及新兴场景,提供多样化、敏捷化、可定制的智能服务;还有正在逐渐渗透所有场景的AIAgent。

泛在,意味着复杂。

当AI大模型成为新的生产力工具,当边缘设备需要实时决策,当千行百业都在寻求算力支撑,云计算必须从简单的资源供给者,进化为高效运行的智能调度者,边缘智能协同、异构资源管理和动态负载优化等技术难题的解决,都迫在眉睫。中国电信同样也要面对前所未有的技术挑战。

泛在,只是开始,智能化才是解题方向。

产学研共同解题

“如何应对资源负载的高动态性?如何解决异构资源利用率低的难题?跨地域资源调度时如何降低延迟?云边协同又如何优化?”论坛甫一开始,吴杰便抛出了智能泛在云构建过程中的四道待解难题。

挑战一:异构资源的高效协同

上海交通大学计算机科学与工程系教授陈全指出,异构化带来了三大核心挑战:如何自动适配不断变化的负载、如何实现加速器的精准隔离共享、如何快速加载和执行模型。

“池化”是关键词。“这就像乐高积木,可以根据需要随时拼装出不同的形态。”陈全提出的方案是将所有计算资源——无论是加速器、内存还是存储——都打散成一个资源池,通过软件灵活组合。但新的问题是,资源通过网络连接,数据在节点间传输,如何避免性能损耗?从此前的测试来看,通信开销高达24%以上。

陈全团队的答案是统一内存空间和零拷贝技术。传统方法中,数据在不同模块间传递需要多次冗余拷贝,就像接力赛跑时需要交接棒,而他们的方法是让各模块共享同一内存空间,省去了交接环节,就像大家围着同一张桌子工作,省去了交接的麻烦,从而使通信开销大大降低。

挑战二:边缘智能的协同优化

端侧的泛在化,使手机、无人机、无人驾驶汽车都成为算力节点,但云边协同优化的挑战最为复杂,它不只是技术点,而是整个架构范式的转变。

一方面,受限于成本,算力有限,运行模型都相当困难,更不用说训练;另一方面,终端AI化会带来新的不公平,如果AI成为普遍的生产工具,那么无疑更高价值的终端设备将拥有更强的算力,生成更好的结果。

常见的做法是建设更多的节点,由边缘节点承接用户的需求,更激进的做法是将计算本身下沉到边缘,比如Azure的EdgeZones直接把数据中心建在5G基站附近,延迟可以压缩到10毫秒以内。

但这又带来新的问题:如何在资源有限的边缘节点上运行复杂的业务?或者出于数据安全的考量,用户并不愿意在边缘节点完成数据闭环。一个典型的场景是,视频监控进行AI分析时,原始视频在边缘做运动检测和人脸识别(延迟敏感),但身份对比却需要访问全国数据库。

华中科技大学计算机科学与技术学院教授何强团队的解决之道是“切蛋糕”:将模型切分成两部分,较小的部分放在终端设备上,较大的部分放在边缘算力节点上,通过协同的方式完成训练。然而,此时又会叠加通信延迟的挑战。何强发现,虽然5G网络延迟可以降到10毫秒以下,但在AI大模型训练的前向和后向传播过程中,多次往返通信仍然会极大影响训练效率。于是,何强团队又设计了动态调整模型切割点,当网络状况好时,多让边缘服务器分担;当信号弱时,由终端多承担一些。

更智能的是,系统会监控训练管道的性能,如果通信性能持续恶化,终端设备会主动寻找并切换到更好的边缘算力节点。比如当一个无人机逐渐飞离它的边缘节点时,通讯联系越来越弱,便可以自动切换新的算力节点。

“这有点像在高铁上时,手机需要在不同基站间切换信号。”何强解释,“但这里切换的是整个任务”。

挑战三:毫秒级响应的冷启动

南京大学计算机科学与技术系特聘研究员顾荣和天津大学软件学院教授赵来平关注的,都是“当红炸子鸡”——Serverless。

赵来平透露,2024年,已有31%的应用是通过Serverless工作流构建。Serverless的核心是将计算资源以服务形式提供,其承诺很美好:用户无需关心服务器,只需提交代码,系统就会自动分配资源、处理扩缩容。但现实却是,冷启动的延迟可能长达数秒。

边缘场景下,应用场景的需求让这个矛盾变得更加尖锐。比如,一个智能安防应用需要在摄像头捕捉到异常时,便立即启动识别函数,而在工业质检场景下,产品在经过检测点的瞬间便需完成AI推理。

顾荣团队提出了预热机制——提前启动一定数量的函数实例,但这种方式对预测结果的精度要求很高。于是他将函数的请求转化为排队问题,在满足冷启动率要求(如不超过5%)的前提下,通过数学模型实现请求的动态平衡。

赵来平则设计了一套库操作系统,将策略决定和高级抽象的实现完全委托给用户态的库,从而减少用户态和内核态的切换开销,在满足多租户隔离性需求的基础上,实现了工作流毫秒级冷启动和函数间的高性能中间数据传递。

从资源池化到模型切分,从预热机制到库操作系统,这些看似复杂而分散的技术探索,实则都指向同一个目标:让计算发生在数据产生的地方,让AI运行在每个人的设备上,让边缘计算真正“智能”起来。

从理论到田间弥补三大鸿沟

“智能泛在云面临着诸多技术挑战,只有合作才能共赢。”吴杰指出,此次论坛恰恰是一次产学研深度合作的最佳实践,学术界提供前沿理论和算法,产业界提供真实场景和工程实践,双方碰撞才能产生真正改变世界的力量。

泛在意味着普惠。2024上海云网宽带发展大会上,中国电信董事长柯瑞文首次提出AI时代“三大鸿沟”理论,他认为,全球的数字鸿沟已经发展为连接鸿沟、云计算鸿沟以及AI智能鸿沟,且后两者面临持续扩大的风险。

弥合鸿沟,电信运营商责无旁贷。2025年,中国电信正式启动“云改数转智惠”战略升级,充分发挥云网融合优势,致力于将曾经“高不可攀”的新型数字信息基础设施,转化为千行百业触手可及的“数字水电”。

一系列产业实践的案例正让技术有了温度。

在中国的最北端,黑龙江电信面临着独特的挑战:冬季气温常常低至零下30℃,有着漫长的冬天和绵延的边境线、广袤的农垦区域、分散的城镇布局,这些地理特征决定了传统的云计算难以满足需求,必须构建泛在化的算力网络。

在北大荒集团建三江分公司的多个农场,中国电信将5G、云计算、物联网和人工智能等新一代信息技术融入农业生产,将边缘智能系统部署到田间地头,通过在农田布设传感器、摄像头和无人机,借助5G专网与天翼云平台汇聚分析农业数据,实现水肥智能调控、病虫害预警、农机远程调度等功能,构建起覆盖全流程的“农业数据大脑”。

以前农场发现病虫害,只能等上报等专家,现在“农业物联网应用基地”的系统自动识别异常,立即推送预警,马上采取相应措施,从而将减产的诱因扼杀在幼虫阶段。

“从‘经验种田’到‘数据种田’,这个案例为农业数字化转型提供了可复制推广的‘中国电信样板’。”吴杰表示。

北大荒只是智能泛在云“算力地图”上的一个坐标。更多的场景正在被点亮。

“前两个月,几乎每天都有各种问题和挑战,每天。”时至今日,中国电信云操作系统专业首席专家,天翼云科技有限公司公有云事业部总经理杨鑫仍难忘当初任务攻坚时的焦虑,“大规模国产智算集群当时的技术成熟度有限,涉及百万级器件的部署与调试,而给我们的时间只有三个月。”

彼时,中国电信自研的万亿参数大模型星辰要在国产智算万卡池中训练,各种问题变成“每日例行”。在中国电信和华为的共同努力下,天翼云和天翼AI团队硬是将系统稳定性提升到全新高度。在国产智算集群上的大模型训练性能达到业界主流算力的93%以上,训练任务有效训练时长达到98%以上,成功实现万卡集群万亿参数大模型训练的全国产化。

在厦门,天翼云为一家科技公司修建了一条封闭式的“数据磁悬浮列车”轨道,庞大的AI训练数据被高效地送到天翼云的计算中心,而且计算资源可以按需弹性伸缩。这有点像当AI训练需要一万个处理器同时工作时,教室里就立刻出现一万个座位;当任务量减少,只需要一百个处理器时,多余的九千九百个座位就马上消失,避免了任何资源浪费……

智能泛在云不是一个高高在上的技术概念,而是改变生活、推动产业的现实力量。随着这朵“无所不在云”逐步构建完成,算力将渗透到经济社会的毛细血管中。

当智能可以在任何地方被唤醒,当千行百业、千家万户都能公平地获得算力,三大鸿沟将被逐步弥合,人们才能真正享受科技带来的福祉,数字时代的普惠承诺,才得以真正实现。

排版/季嘉颖

图片/中国电信英伟达豆包AI