华为发布AI数据湖存储,支持业界最高400GB/s带宽IOPS最高1200万

Argon科技 2023-07-15 08:34:48

华为面向大型模型行业推出全新AI存储产品。这些新产品为各类模型训练提供了最优的存储解决方案。包括基础模型训练、行业模型训练、分段场景模型训练、推理。

华为还分享了大规模模型应用开发和实施过程中的四大挑战。我们来看看这些。

首先,数据准备时间长、数据来源分散、采集速度慢。预处理100TB数据大约需要10天。

其次,多模态大模型使用海量文本和图片作为训练集,目前海量小文件的加载速度不足100MB/s,训练集加载效率较低。

第三,大模型参数调整频繁,训练平台不稳定,平均两天训练中断一次,需要检查点机制恢复训练,故障恢复需要一天以上。

四、大型模型实现门槛高,系统构建复杂,资源调度困难,GPU资源利用率通常低于40%。

针对这些问题,华为推出了面向AI的深度学习数据湖存储OceanStor A310。FusionCube A3000训练/超融合一体机,适合不同行业、场景的大规模模型应用。

OceanStor A310

OceanStor A310深度学习数据湖存储,面向基础/行业大模型数据湖场景,实现人工智能从数据采集、预处理到模型训练、推理应用全过程的海量数据管理。

OceanStor A310单框5U支持业界最高400GB/s带宽和最高1200万IOPS性能,可线性扩展至4096个节点,实现多协议无损互通。

全局文件系统(GFS)实现跨区域智能数据编织,简化数据采集流程;通过近内存计算实现近数据预处理,减少数据迁移,预处理效率提升30%。

FusionCube A3000

FusionCube A3000训练/推送超一体化一体机,面向大规模行业模型训练/推理场景,面向百亿级模型应用,集成了OceanStor A300高性能存储节点、训练/推送节点、交换设备、AI平台软件、管理运营软件,为大型车型合作伙伴提供签到部署体验,实现一站式交付。

开箱即用,可在 2 小时内完成部署。训练/推送节点和存储节点都可以独立水平扩展,以匹配不同规模的模型需求。

同时,FusionCube A3000利用高性能容器共享GPU进行多个模型训练和推理任务,资源利用率从40%提升到70%以上。FusionCube A3000支持两种灵活的商业模式,包括华为Ascend的一站式解决方案,以及第三方合作伙伴的开放计算、网络和AI平台软件的一站式解决方案。

华为数据存储产品线总裁周跃峰表示:“大规模模型时代,数据决定AI智能的高度。数据存储作为数据的载体,已经成为AI大规模模型的关键基础设施。华为数据存储未来将持续创新,面向AI大规模模型时代,提供多种解决方案和产品,与合作伙伴共同推动AI赋能各行业。”

1 阅读:145

Argon科技

简介:专注数码科技信息分享者