算力革命:解锁人工智能的无限潜能

寻琴观看商业 2024-10-24 02:03:20

1.算力困境:大模型时代的挑战

大模型技术的成熟意味着无论你或是企业或是世界,都能获得在数字世界拥有超高智能的分身。这背后是对海量算力的无尽渴望。企业对算力这一战,新能源开启了一场硬件的军备竞赛。今天形态各异的算力基础设施依旧被如火如荼的建造者他们所交织出的巨大的网络中积蓄了难以估量的潜能,蓄势待发。

星罗棋布的混合算力单元,渴望着像其他通用资源一样被探索挖掘,输送到地球每个角落。即便算力基础设施的建设不断追赶AI爆发增长的计算需求,但是距离我们真正应用如此庞大的算力,依然有着难以跨越的鸿沟。

如果用MIBU模型算力利用率来衡量我们对算力的驾驭能力,企业在训练大模型时,往往只能开发出现有算力潜能的30%左右,继续积累硬件也难以追赶混合式人工智能的步伐。企业必须意识到,寻求出类拔萃的调度软件,释放全部混合算力资源迫在眉睫。

算力在哪?这是一张GPU,数百数千个计算核心赋予了它超高速的并行计算能力。于是将它们封装进服务器,再将服务器成群的列入机柜加入存储,通过网络通讯形成了计算集群。这便是人工智能大模型训练推理的基本力量。

今天数据中心已经几乎完成了基建的原始积累阶段,但即使已经拥有大量GPU,为什么依然无法释放所有算力?当我们看到一家企业数据中心的常见形态,会发现其中不仅有服务于AI的集群,还有以CPU为主的通用计算集群和需要极高的技精度的高性能计算HPC集群。不同需求孕育出的集群间网络拓扑结构不同,无法同时调度。

即便AI需求汹涌袭来,HPC集群当中大量的GPU也难以参与。

2.HIVE:联想的算力整合之道

为了动员这些混合算力资源,联想集团推出了pink。它不仅是打通整个算力网络的大脑与控制平台,背后更是联想集团为人工智能打造的全局解决方案。但第一步便构建了新的拓扑感知机制,它能够跨越集群间不同的网络结构,定位到所有节点中拥有最优训练速度的GPU。

但在调度层面,HPC和AI集群采用的是两种不同的调度器。Hpc集群倾向于最大化计算资源,而AI集群则倾向于任务快速部署,最大的区别是算力资源优先级不同,一旦同时使用会导致资源争抢,调度冲突。

在hm的集成看板中,你可以看到联想集团率先采用的超级调度器,它有着AI调度器的特性,在计算资源充足时高速部署运转,而在资源不足时,能优先将任务转移到其他节点上计算一个入口便能盘活全局,将所有计算资源为AI所用。即便如此,仍有一半响应时间在网络中被消耗。这是为什么?

AI训练意味着整个任务的模型、数据、流程会切割成无数块,再分发给每个GPU进行运算。当每个GPU计算完毕,可以通过广播、散射、聚集等形式将数据向其他GPU同步,并经过一次统一的操作汇总,这叫做规约。

只有完成全部规约,各个服务器才获得了完全一致的包含原本所有服务器上计算参数的数据。这是GPU间数据交互的全部,也是GPU能够协力完成同一目标的基石。但它也带来了严重的木桶效应,由于每张都需要进行规约,那么某条速度较慢的网络便会拖累整个集群。

一种发生在蚁群中的现象带来了奇迹般的解决方案,蚂蚁在寻找食物时发现的最短路径会释放出信息素供其他蚂蚁感知。联想集团将庞大蚁群的生物特性变为参数,以数学逻辑化身为him当中的集群调度算法白卡千卡,甚至更为错综复杂的节点间驾轻就熟地找出最佳路径。

大模型训练过程中会夹杂推理任务来验证训练效果,但推理任务占用资源极少,排队完成的过程中不免造成GPU资源的浪费。为了极致压榨整张算力网络,hive甚至深入GPU的内部,它可以在OS层面创建GPU驱动,将GPU切分成若干个虚拟GPU任务间,相互隔离互不干扰,进行小规模运算的颗粒度甚至能达到1%。

这意味着GPU成为了一个算力风潮,几十张卡也能实现千卡集群。

3.未来展望:算力解放与人工智能新纪元

至此我们完全整合了混合算力的感知、调度与加速。这曾是智算领域复杂而待解的哥德巴赫猜想,而在完成了对当下高技术壁垒的突破后,hm又拼上了最后一块版图。

应用这个庞大集群训练AI最关键的是成功率,任意节点故障会导致整个集群停摆,即便采用自动化恢复叙训也要2小时起,这AI领域最令人头痛的状况每月普遍发生次数高达15次。联想集团则以模型之力拯救模型。

Hib当中有一个基于大量训练故障数据所训练出的故障预测模型,面对数以千计的节点,它能精准预估故障节点,实现对故障节点的提前备份。有了它,断点续训时间可以被压缩到短短一分钟,这一分钟的突破宣告了全流程AI训练框架最终落成,MFU将被大幅度提升,算力即将被完全开发。

人工智能所带来的新工业革命本身就是人类对算力这一资源的挖掘和应用。人类终于实现了资源的创造。那些遍布世界代表着人类最高技术结晶的计算单元,将前所未有的融为一体,孕育出混合式人工智能。这一次人类将未来的主宰权更加牢固的紧握在了手中。

0 阅读:136

寻琴观看商业

简介:感谢大家的关注