随着努力训练具有越来越多参数的大型语言模型(LLM),英伟达的Blackwell处理器成为目前最受欢迎的数据中心硬件之一。有传言称微软是第一个获得Blackwell服务器的公司,如今,微软表示,不仅获得了Nvidia Blackwell,而且它们已经运行。
“微软Azure是第一个运行Nvidia Blackwell系统和GB200驱动的AI服务器的云服务提供商,”微软Azure在X上的一篇文章中写道,“我们正在优化每一层,利用InfiniBand网络和创新的闭环液体冷却技术,以支持世界上最先进的AI模型。”
因此,微软Azure至少有一个基于GB200的服务器机架,配备了数量不明的B200处理器,可能是32个。它使用了一个高度复杂的液体冷却系统。这台机器不是Nvidia的NVL72 GB200,据报道微软更喜欢这种密度更高的变体,而不是密度较低的版本。这个特定的机架很可能会被用于测试目的(包括Nvidia Blackwell GPU和液体冷却系统),在接下来的几个月里,微软将部署基于Blackwell的服务器来处理商业工作负载。
预计一台配备72个B200图形处理器的NVL72 GB200机器将消耗和散发大约120千瓦的电力,这使得液体冷却对于这类机器来说是强制性的。因此,微软在部署基于Blackwell的机柜之前测试自己的液体冷却解决方案是一个好主意。
英伟达的B200 GPU在FP8/INT8性能方面比H100处理器高1.5倍(4500 TFLOPS/TOPS对1980 TOPS)。在FP4数据格式下,英伟达的B200提供了高达9 PetaFLOPS的性能,为训练极其复杂的LLM打开了大门,这可以为AI在一般使用模式上带来新的模式。
预计微软将在其年度Ignite会议上分享更多关于其基于Blackwell的机器和AI项目的细节。MS Ignite会议将于2024年11月18日至11月22日在芝加哥举行。预计Blackwell服务器安装的大规模部署将在年底或2025年初加速。