算力、云计算、AI,发展云计算需要“三位一体”

玩数据还有点懒 2024-03-25 09:40:00

2023年,在阿里云栖大会上,阿里云创始人、中国工程院院士王坚说,人工智能和云计算的发展现在走到了一起。云计算和GPT的关系,将像是电和电动机,模型将会像智能时代的电动机一样,消耗掉云计算提供的大多数算力。当那一天来临,意味着诸多由模型驱动的新业态出现。

更大规模的模型:让数万亿参数大模型在云端可用

英伟达Blackwell GPU在亚马逊云科技上的应用,将加速生成式 AI 前沿技术发展,并提升万亿参数大语言模型在云端的推理加速。

在大模型研发领域,万亿级参数规模代表了业界最前沿的水平。业界有消息称,GPT4的模型参数是1.8万亿。英伟达此次发布的Blackwell 架构GPU,目标就直指万亿参数大模型。

Blackwell B200是目前最强大的AI芯片,FP4性能高达20 petaflops,是上一代卡皇H100的5倍。

Blackwell GB200超级芯片是将2个Blackwell GPU和1个Grace CPU结合在一起,性能更加强大。与H100相比,Blackwell GB200对于大模型推理工作负载可实现30倍的性能提升,同时将成本和能耗降低25倍。

GB200 NVL72是将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中,通过第五代 NVIDIA NVLink™ 互连。其可实现720 petaflops的AI训练性能,或是1,440 petaflops(1.4 exaflops)的推理性能。一个GB200 NVL72机柜可以训练27万亿参数的AI模型。

很快,上述这些AI算力“核弹”就能在亚马逊云科技上使用了。

客户将能在亚马逊云科技上使用基于NVIDIA GB200 Grace Blackwell超级芯片和B100 Tensor Core GPUs的基础设施,从而在云上构建和运行数万亿参数的大语言模型。

云计算要“三位一体”地发展

人工智能给中国云计算的发展带来了“第三次浪潮”:第一次浪潮,出现在十年前,出现了以Netflix、米哈游为代表的云原生企业,中国的云计算业务在这个阶段起步,但由于国内市场成熟得太慢,便落后于海外;第二次浪潮,出现在传统企业采用云计算之时,但并没有将中国的云计算拉上正确的发展轨道;第三次浪潮,正发生在当下,由生成式人工智能带来机遇。

“算力、云计算、人工智能”,要把握好这次机遇,王坚提到了三个关键词,“不能把这三者拆开来看,这三件事情一定要三位一体地来搞” 。

算力是基础,GPU等板卡就像是“砖头”,搭建起算力所需的基础设施;云计算提供的是组织服务能力,把“砖头”提供的算力调动起来;大模型(人工智能)提供最终落地的可能性。找到真正消耗算力的场景,这是发展云计算最重要的环节。

在王坚看来,当前社会上对“大模型”的定义有些宽泛而含混,大模型事实上需要分五个层面来理解。首先是基础模型训练,即如何用万卡集群把一款模型训练出来,这是最消耗算力也是最考验技术能力的环节。第二是模型调整,在通用模型的基础上,调出适用于个别行业或垂直领域的模型。第三是应用模型,可不基于通用模型,而是由其他类型数据训练得来。第四是模型应用,也就是将大模型用到千行百业,很多时候人们常把模型的应用当作是在开发大模型,这是非常不严谨的看法。第五是将模型变成一类服务,并应用到用户那里。

在理解大模型的五个层面中,前两个环节对算力的需求是最高的。但随着用户数量的增长,模型应用过程中所需的算力可能将超过模型训练所需。“如果一个国家应用模型的算力成为主流,那么我们的产业就成形了。”王坚说道。

免责声明:

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。

2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。

0 阅读:152

玩数据还有点懒

简介:感谢大家的关注