性能提升1000倍!英伟达推出“全球最强”AI芯片

玩数据还有点懒 2024-04-06 10:05:19

昨晚GTC 2024大会上,NVIDIA宣布推出最新AI芯片--Blackwell B200。除了介绍该芯片的功能特性与强悍性能,还展示了多个基于生成式AI的使用场景与机器人的商业用途。

英伟达推出全球最强大的芯片

自OpenAI的ChatGPT于2022年末掀起人工智能热潮以来,英伟达的总销售额增长了两倍多。英伟达的高端服务器GPU对于训练和部署大型AI模型至关重要。微软和Meta等公司已经花费了数十亿美元购买这些芯片。

新一代AI图形处理器命名为Blackwell。首款Blackwell芯片名为GB200,将于今年晚些时候发货。Blackwell平台能够在万亿参数级的大型语言模型(LLM)上构建和运行实时生成式AI,而成本和能耗比前身低25倍。

“Hopper很棒,但我们需要更大的GPU,”黄仁勋周一在开发者大会上表示。“Blackwell不仅仅是一款芯片,而是一个平台的名称。”

另据媒体报道,黄仁勋在GTC宣布,将在其企业软件订阅中增加一款名为NIM的新产品。英伟达副总裁Manuvir Das在接受采访时表示:“可销售的商业产品是GPU,而软件则是为了帮助人们以不同的方式使用GPU。”Das表示,英伟达的新软件将更容易在任何英伟达GPU上运行程序,甚至是那些可能更适合部署而不是构建AI的老旧GPU。

英伟达每两年更新一次其GPU架构,实现性能的飞跃。过去一年发布的许多AI模型都是在该公司的Hopper架构上训练的,该架构被用于H100等芯片,于2022年宣布推出。

GB200 的性能也将大幅提升,在具有 1750 亿个参数的 GPT-3 LLM 基准测试中,GB200 的性能是 H100 的 7 倍,而它的训练速度是 H100 的 4 倍。

更重要的是,与 H100 相比,它可将成本和能耗降低到原来的 25 分之一。

推理性能提升30倍

在此基础上,一个GB200加速卡结合了两个B200 GPU和一个独立的Grace CPU,将能够使大模型推理工作负载的性能提升30倍,同时提高效率。相比于H100,它可以“将成本和能源消耗降至1/25”。

这就意味着,以前训练一个拥有1.8万亿参数的模型需要8000个Hopper GPU 和15兆瓦的功耗。而今天,黄仁勋表示,同样的工作只需要2000个Blackwell GPU就能完成,功耗仅为4兆瓦。同时,取决于各种Blackwell设备的内存容量和带宽配置,工作负载的实际性能可能会更高。

而在参数为1750亿的GPT-3 LLM基准测试中,GB200的性能达到了H100的7倍,而训练速度则达到了H100的4倍。

对此,黄仁勋也自豪地晒出了AI芯片技术的发展图,并表示:“在过去,计算能力平均每十年性能提升100倍。而在过去的八年中,我们已经将性能提升了1000倍,距离十年还有两年。”

英伟达还将面向有大型需求的企业提供成品服务,例如体积庞大的GB200 NVL72服务器,共包含36个CPU和72个Blackwell GPU,并提供完整的一体水冷散热方案,可实现总计720 petaflops的AI训练性能,或高达1440 petaflops的推理性能。其内部使用的电缆长度累计接近2英里,共有5000条独立电缆。

不过,英伟达并没有公布关于B200和其相关产品的价格,只表示亚马逊、谷歌、微软和甲骨文等公司都已计划在其云服务产品中装配NVL72机架,但没有公布这些公司的购买数量,只透露了亚马逊AWS已计划采购由2万片GB200芯片组建的服务器集群,可以部署27万亿个参数的模型。

黄仁勋表示,Blackwell带来了“令人难以置信的兴奋”:“我们将会把Blackwell推广给全球的AI公司,现在有很多这样的公司都在不同领域做着令人惊奇的工作……全球各地都在签约启动Blackwell,这款Blackwell将成为我们历史上最成功的产品发布。”

免责声明:

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。

2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。

0 阅读:0

玩数据还有点懒

简介:感谢大家的关注