HBM革新浪潮下,AMD加速卡定义内存与计算融合新方向

硬件是与非 2024-06-17 11:18:28

对于运行中需要大量内存访问和数据处理的计算任务,比如HPC、数据分析、金融科技应用、网络安全、AI计算等。由于涉及大规模数据的读取、写入和处理操作,往往对系统内存带宽和存储性能有很高要求。 事实上,对于这些大规模数据处理任务来说,最佳性能不仅取决于原始计算能力,还取决于高存储器带宽。日前,AMD发布了全新的Alveo V80加速卡,通过FPGA灵活应变的能力来实现工作负载优化。

应对大数据集负载存储和网络瓶颈AMD 自适应和嵌入式计算事业部( AECG )高级产品线经理Shyam Chander指出,传统处理架构在运行大数据集工作负载时,CPU+FPGA和PCIe的带宽远高于DDR内存和网络接口可以提供的带宽,因此无论是存储器还是网络访问等方面,都非常容易形成瓶颈。

AMD全新加速卡Alveo V80采用全高、3/4 长( FH¾L )尺寸规格,由 AMD Versal HBM 自适应 SoC 提供支持,具备 2,600,000 个 LUT 逻辑单元的 FPGA 架构、10,848 个 DSP 计算逻辑片以及820 GB/s的存储器带宽,从而助力克服性能瓶颈。

Alveo V80还包括一个32GB的DDR4 DIMM扩展插槽,并支持PCle Gen5接口,64G传输速率是第四代的2倍。整卡功率300W,采用被动散热,总热设计功耗TDP则取决于器件和服务器。 通过这样的硬件灵活性,可以实现跨不同的自定义工作负载进行广泛应用。作为一款4x200G网络附接加速卡,该卡可以实时处理大量传入数据,避开GPU遇到的PCIe连接限制。 与前代产品AMD Alveo U55C计算加速卡相比,Alveo V80 的逻辑密度至高翻倍、存储器带宽至高翻倍且网络带宽可高至4倍,可以实现强大的计算集群,同时还能优化卡、服务器数量以及机架空间。

Shyam Chander介绍,在传统的处理架构中,存储器和网络访问容易成为性能瓶颈,尤其在高性能计算场景中更为常见。这是因为传统上通常采用芯片对芯片的PCIe连接方式,同时,DDR4存储器所提供的带宽可能不足以满足高性能计算的需求,在存储器访问上也存在瓶颈。 这种架构的局限性在于,尽管FPGA等加速器组件具备高带宽处理能力,但受限于DDR4存储器的带宽,无法充分发挥其性能潜力。为了突破这些瓶颈,可能需要采用更高带宽的存储技术,或者改进系统架构以更有效地利用FPGA等加速器的高带宽优势。 通过Versal HBM技术支持的AMD Alveo V80计算加速卡,可以融合FPGA的灵活应变来处理大数据集的工作负载。与前代产品相比,它的性能提升至高2倍,包括逻辑密度翻倍、存储器带宽翻倍。

这其实就是CPU/GPU传统架构和自适应计算拥有的灵活应变架构之间的不同。“传统架构是固定的缓存层次结构,用于数据的读写和输入,在这个过程中不规则的访问模式会引起潜在的低效率”,Shyam Chander指出,“灵活应变的存储器层次架构是在计算附近分配内存,实现降低延迟和低功耗,而且可以灵活适应自定义的数据设计和数据建议。”

灵活应变,适用于内存密集型工作负载Alveo V80 加速卡可通过以太网扩展到数百个节点实现计算集群,非常适合一系列高性能计算应用,包括基因组测序、分子动力学和传感器处理。在网络安全方面,内置400G 加密引擎和 600G 以太网硬块,加之FPGA的硬件灵活性,使其适用于线速数据包检测和 AI 支持的异常检测。 该加速卡还非常适合计算存储和数据分析,能够在同一张卡上集成压缩和查询加速,从而增加有效存储容量,同时更快获得洞察。因此它适合于各种金融科技应用,包括策略回测、期权定价以及金融建模与仿真。用例1:天体物理学实现计算飞跃联邦科学与工业研究组织( CSIRO )是澳大利亚的国立研究组织,其参与建造了世界上最大的射电天文学天线阵列,该天线阵列目前包含 420 张 Alveo U55C 加速器卡用于处理无线电波,以研究早期宇宙并探索星系演化。 CSIRO计划借助 Alveo V80 加速卡缩减占板面积与成本,并将所需加速卡的数量精简多达 66%,同时应对来自望远镜 131,000 个天线的新信号处理任务。考虑到卡、服务器、机架空间和功耗的潜在减少,每卡算力的跃升预计可带来最高20%的TCO下降。 CSIRO 空间与天文学部研究工程师 Grant Hampson 表示:“我们起初采用 Alveo 产品线是因为它能够实时处理大量传感器数据。对于我们的下一代波束成形器和相关器来说,降低总拥有成本势在必行。Alveo V80 加速卡是对上一代 Alveo U55C 卡的技术阶跃提升,以经济高效的占板面积提供了紧凑、节能的解决方案。”

用例2:压缩和数据分析服务器存储节点在具备压缩和数据分析功能的服务器存储节点的用例中,通过Alveo V80实现了三大特点:第一,服务器存储节点采用了FPGA架构和AMD的压缩IP,使得存储节点在处理数据压缩任务时具有可扩展性;第二,通过MCIO直接将FPGA架构连接至NVMe, 实现了高速数据传输;第三,服务器节点整合了额外的功能,如查询加速,有助于提升执行速度并降低时延。 此外,在该服务器存储节点中,通过Versal HBM与FPGA的结合,使得服务器存储节点的算力得到显著提升。HBM技术的高带宽特性允许在内存中直接进行计算操作,避免了数据在系统总线上的迁移,进一步加速了查询处理速度。这种设计不仅提高了数据处理效率,还减少了因数据传输引起的时延,使得服务器存储节点在执行数据压缩和分析任务时更为高效。 从总拥有成本的角度来分析,比如10Pb数据存储,没有压缩时需要55台服务器,1303个SSD驱动器,每年约427千瓦时的功耗。如果进行压缩,同样是10Pb数据只需要21台服务器,504个SSD驱动器,每年能耗约233千瓦时,使用42张AMD Alveo V80卡进行压缩,总拥有成本三年以上至高可以达到56%的降低,而且服务器的数量、服务器成本以及功耗也都有非常显著的降低。用例3:金融建模和算法交易在金融科技领域,用户在建模、仿真与回测的用例场景中,用户可以用FPGA架构和DSP进行密集计算,HBM用于大数据集、历史定价数据。而在低时延算法交易中,752Mb的RAM用于定价数据、交易记录,HBM则用于订单信息。

在简化开发方面,Alveo V80 加速卡经由 Alveo Versal 示例设计( AVED )完全可为传统硬件开发人员使用,现已在 GitHub 上提供。AVED 利用传统 FPGA 和 RTL 流程简化了硬件启动,并且基于常见的 Vivado 工具流程。示例设计采用在 AMD Versal 自适应 SoC 上实现并专门针对 Alveo V80 加速器卡的预构建子系统,提供了高效的起点。 在系统层面,Alveo V80 计算加速卡简化了系统集成并提供了快速的量产路径。通过使用预先验证的部署卡,设计团队可以避开 PCB 集成、库存管理和产品生命周期管理任务。

Versal HBM SoC提供支持,应对广泛负载需求在Alveo V80加速卡中,Versal HBM 自适应 SoC 的支持无疑是一大亮点。不过,HBM的价格几乎是DDR的三倍,这是否会影响客户的采用? Shyam Chander强调了Alveo V80的设计考虑,该加速卡是由UltraScale+ U55C过渡而来。首先,在性能提升基础上,目前的成本增加最有限;其次,HBM可以应对非常广泛的工作负载,包括内存带宽计算,通过这样的方式可以实现最高的性价比;第三,从工作负载和计算资源的角度来看,Versal架构中HBM的封装尺寸和PCB占板面积较小,这在成本、性能和占板面积方面带来了优势,通过合理配置FPGA资源,可以实现高性价比。 至于市面上多样化的算力加速卡类型,包括FPGA加速卡、GPU加速卡、AI芯片加速卡等等,Shyam Chander认为FPGA自适应SoC更适合硬件开发者的需求,特别是在需要降低时延、实时数据处理和减少功耗的应用场景中。并且,Alveo V80加速卡有直接的I/O连接和相关示例,对开发者非常有帮助。 对于未来趋势,Shyam Chander认为不同类型的加速卡将根据工作负载的需求继续共存。Alveo V80卡的低时延和灵活性使其适合于硬件开发者,而软件工程师可能更倾向于使用CPU等其他类型的加速器。他强调,Alveo V80作为一个网络附接的加速器卡,可以和存储驱动器连接,应对非常广泛的工作负载和需求。
0 阅读:24

硬件是与非

简介:感谢大家的关注