假如英伟达、Intel和AMD愿意支持CXL进行内存扩展……

科技创新蓝精灵 2024-07-08 16:08:35

GPU,如今大量用于AI与HPC应用,虽内置了高带宽内存(HBM),但其有限容量却成为制约其在复杂AI工作负载中性能提升的关键因素。为突破这一瓶颈,一项新的技术应运而生,允许企业通过PCIe总线外接设备来扩展GPU的内存容量,不仅不再局限于GPU内置资源,甚至能利用SSD来进一步增强内存能力。

Panmnesia是一家韩国科研机构KAIST支持的初创公司,其成功研发出一种低延迟CXL IP解决方案,该方案利用CXL内存扩展器扩展GPU内存。这一进步对于应对AI训练中日益增长的超大数据集内存需求至关重要,它使AI企业不必再局限于高昂的新GPU采购、数据集复杂度的妥协,或是牺牲性能转而依赖CPU内存。

值得注意的是,CXL 作为一种在 PCIe 链路上运作的协议,其有效实施需依赖于ASIC及其配套子系统的明确识别与支持。换句话说,不能简单地将CXL控制器添加到技术堆栈中,因为缺乏针对GPU内置DRAM及SSD等端点进行优化的CXL逻辑架构与子系统支持。此外,GPU的缓存与内存子系统无法识别除统一虚拟内存 (UVM) 之外的任何扩展,这在一定程度上限制了扩展内存的速度与效率。

为了解决这个问题,Panmnesia 开发了一款符合 CXL 3.1 规范的根复合体(Root Complex, RC),该设计亮点在于集成了多个根端口(Root Ports, RP),这些端口不仅支持通过 PCIe 高速接口无缝接入外部内存资源,还内置了一个高效的主机桥,其带有一个主机管理设备内存(Host Device Memory, HDM)解码器,可连接到 GPU 的系统总线,它可以让 GPU 的内存子系统“认为”它正在处理系统内存,但实际上则是利用 PCIe 连接的 DRAM 或 NAND 存储来扩展其容量,从而实现了 DDR5 或 SSD 等存储设备的无缝整合,极大地增强了 GPU 内存池的扩展能力。

据 Panmnesia 称,该解决方案(基于定制 GPU ,图中标记为 CXL-Opt)已经历了严苛的测试,展现出了卓越的性能表现,特别是其往返延迟降低至两位数纳秒级别,相较于三星与 Meta 开发的原型(标记为 CXL-Proto,延迟约为250纳秒)有显著优势,这还包括了 CXL flit 传输过程中必要的协议转换时间。CXL-Opt 已成功集成到硬件RTL的内存扩展器及 GPU/CPU 原型中,验证了其跨多种计算硬件平台的广泛兼容性。

根据 Panmnesia 的测试,UVM 在所有测试的 GPU 内核中表现最差,这是因为页面错误期间主机运行时干预的开销以及页面级数据传输开销通常超出了 GPU 的需求。相比之下,CXL 允许通过加载/存储指令直接访问扩展存储,从而消除了这些问题。

具体来说,CXL-Proto 的执行时间比 UVM 短 1.94 倍。Pamnesia 的 CXL-Opt 进一步将执行时间缩短了 1.66 倍,优化的控制器实现了两位数纳秒的延迟,并最大限度地减少了读/写延迟。Pamnesia 的 CXL-Opt 的性能速度分别比 UVM 和 CXL-Proto 快 3.22 倍和 1.65 倍。

总体而言,CXL 支持可以为 AI/HPC GPU 带来很大帮助,尽管当前仍面临性能优化等挑战。至于 AMD、Nvidia 等行业巨头是否会为其 GPU 添加 CXL 支持,或是独立研发相关技术,尚需时间验证。

*本文系 SDNLAB 整理自tom’shardware、techspot

0 阅读:1

科技创新蓝精灵

简介:感谢大家的关注