英伟达A100、H100、L40S和H200简要对比

2024年，数据中心市场，英伟达显卡依然一卡难求，已发布的A100、H100，L40S，还有即将发布的H200都是市场上的香饽饽。

2020年，英伟达发布了基于Ampere架构的A100。2022年，英伟达发布了基于Hopper架构的H100，2023年，英伟达又发布了L40S。

2024年，英伟达即将发布H200，虽然还没正式发布，但部分规格已经公开。于是，就有了这样一张表格。

项目

A100

H100

L40S

H200

架构

Ampere

Hopper

Ada Lovelace

Hopper

发布时间

2020

2022

2023

2024

FP64

9.7 TFLOPS

34 TFLOPS

暂无

34 TFLOPS

FP64 向量核心

19.5 TFLOPS

67 TFLOPS

暂无

67 TFLOPS

FP32

19.5 TFLOPS

67 TFLOPS

91.6 TFLOPS

67 TFLOPS

TF32 向量核心

312 TFLOPS

989 TFLOPS

183 | 366* TFLOPS

989 TFLOPS*

BFLOAT16 向量核心

624 TFLOPS

1,979 TFLOPS

362.05 | 733* TFLOPS

1,979 TFLOPS*

FP16 向量核心

624 TFLOPS

1,979 TFLOPS

362.05 | 733* TFLOPS

1,979 TFLOPS*

FP8 向量核心

不适用

3,958 TFLOPS

733 | 1,466* TFLOPS

3,958 TFLOPS*

INT8 向量核心

1248 TOPS

3,958 TOPS

733 | 1,466* TFLOPS

3,958 TFLOPS*

INT4 向量核心

暂无

733 | 1,466* TFLOPS

Data not available

GPU 内存

80 GB HBM2e

80 GB

48GB GDDR6 ，带有ECC

141GB HBM3e

GPU 内存带宽

2,039 Gbps

3.35 Tbps

864 Gbps

4.8 Tbps

解码器

Not applicable

7 NVDEC 7 JPEG

Not applicable

7 NVDEC 7 JPEG

最高TDP

400W

700W

350W

700W

多实例GPU

最高 7 MIGs @ 10 GB

最高7 MIGs @ 10 GB each

无

最高 7 MIGs @16.5 GB each

外形尺寸

SXM

4.4“ (H) x 10.5” (L), dual slot

SXM**

互联技术

NVLink: 600 GB/s PCIe Gen4: 64 GB/s

NVLink: 900GB/s PCIe Gen5: 128GB/s

PCIe Gen4 x16: 64GB/s bidirectional

NVIDIA NVLink®: 900GB/s PCIe Gen5: 128GB/s

服务器平台选项

NVIDIA HGX™ A100-Partner and NVIDIA-Certified Systems with 4,8, or 16 GPUs NVIDIA DGX™ A100 with 8 GPUs

NVIDIA HGX H100 Partner and NVIDIA-Certified Systems™ with 4 or 8 GPUs NVIDIA DGX H100 with 8 GPUs

暂无

NVIDIA HGX™ H200 partner and NVIDIA-Certified Systems™ with 4 or 8 GPUs

NVIDIA AI Enterprise

Included

Add-on

暂无

Add-on

CUDA 核心数

6,912

16,896

18,176

暂无

A100

A100是2020年首次采用Ampere架构的GPU，这种架构带来显著的性能提升。

在H100发布之前，A100一览众山小。它的性能提升得益于改进的Tensor核心、更多的CUDA核心数量、更强的内存和最快的2 Tbps内存带宽。

A100支持多实例GPU功能，允许单个A100 GPU分割成多个独立的小GPU，这大大提升了云和数据中心的资源分配效率。

尽管现在已经被超越，但A100在训练复杂的神经网络、深度学习和AI学习任务方面仍然是一个优秀的选择，它的Tensor核心和高吞吐量在这些领域表现出色。

A100在AI推理任务方面表现突出，在语音识别、图像分类、推荐系统、数据分析和大数据处理、科学计算场景都有优势，在基因测序和药物发现等高性能计算场景也都属于优势领域。

H100

H100能处理最具挑战性的AI工作负载和大规模数据处理任务。

H100升级了Tensor核心，显著提高了AI训练和推理的速度。支持双精度（FP64）、单精度（FP32）、半精度（FP16）和整数（INT8）计算负载。

相比A100，FP8计算速度提升六倍，达到4petaflops。内存增加50%，使用HBM3高带宽内存，带宽可达3 Tbps，外部连接速度几乎达到5 Tbps。此外，新的Transformer引擎使模型转换器训练速度提升高达六倍。

尽管H100和A100在使用场景和性能特点上有相似之处，但H100在处理大型AI模型和更复杂的科学模拟方面表现更佳。H100是高级对话式AI和实时翻译等实时响应型AI应用的更优选择。

总之，H100在AI训练和推理速度、内存容量和带宽、以及处理大型和复杂AI模型方面相比A100有显著的性能提升，适用于对性能有更高要求的AI和科学模拟任务。

L40S

L40S旨在处理下一代数据中心工作负载，包括生成式AI、大型语言模型（LLM）的推理和训练，3D图形渲染、科学模拟等场景。

与前一代GPU（如A100和H100）相比，L40S在推理性能上提高了高达5倍，在实时光线追踪（RT）性能上提高了2倍。

内存方面，它配备48GB的GDDR6内存，还加入了对ECC的支持，在高性能计算环境中维护数据完整性还是很重要的。

L40S配备超过18,000个CUDA核心，这些并行处理器是处理复杂计算任务的关键。

L40S更注重可视化方面的编解码能力，而H100则更专注于解码。尽管H100的速度更快，但价格也更高。从市场情况来看，L40S相对更容易获得。

综上所述，L40S在处理复杂和高性能的计算任务方面具有显著优势，特别是在生成式AI和大型语言模型训练等领域。其高效的推理性能和实时光线追踪能力使其成为数据中心不可忽视的存在。

H200

H200将是NVIDIA GPU系列中的最新产品，预计在2024年第二季度开始发货。

H200是首款提供141 GB HBM3e内存和4.8 Tbps带宽的GPU，其内存容量和带宽分别几乎是H100的2倍和1.4倍。

在高性能计算方面，与CPU相比，H200能实现高达110倍的加速，从而更快地得到结果。

在处理Llama2 70B推理任务时，H200的推理速度是H100 GPU的两倍。

H200将在边缘计算和物联网（IoT）应用中的人工智能物联网（AIoT）方面发挥关键作用。

在包括最大型模型（超过1750亿参数）的LLP训练和推理、生成式AI和高性能计算应用中，可以期待H200提供最高的GPU性能。

总之，H200将在AI和高性能计算领域提供前所未有的性能，特别是在处理大型模型和复杂任务时。它的高内存容量和带宽，以及优异的推理速度，使其成为处理最先进AI任务的理想选择。

DC生肖网

英伟达A100、H100、L40S和H200简要对比

数码好在云体验