星环科技:GPU-Native技术路径得英伟达官方认可,GTC大会已有相关展示本次关注到公司GPU-native技术路径得到英伟达官方认可、并且在GTC大会上有所展示。 下一步公司或与NV共同探讨GPU直连方案,公司的ArgoDB本身就是分布式闪存数据库,技术前瞻性和市场空间有目共睹。GPU-native数据库可显著提高推理性能: 此前,公司官网已有GPU-native数据库发布,该系统针对GPU原生架构进行了优化,从而提供了一种高性能且成本效益高的基础设施,是全球首个在ARM CPU和GPU上运行的完整功能数据库,效果相比CPU模式提升显著,核心性能提升体现在:在150GB数据上,TPC-DS性能相比基于CPU的数据库最高提升20倍;GPU上的前沿向量搜索性能,支持不同的上下文内存检索模式,相比CPU系统最高可提升200倍。1、大模型推理潮起、计算架构亟需转向“以GPU为核心”。1)控制vs计算:传统计算架构以CPU为核心,本身是为了运行操作系统、Web服务器这种逻辑复杂的程序设计的。而GPU强项在于SIMT单指令多线程,AI推理就是一层层的矩阵运算,天然适合GPU并行吞吐。2)内存墙:大模型推理最大的瓶颈不是算得不够快,而是数据供不上来。CPU使用DDR内存,带宽通常在50-200GB/s;而GPU使用HBM,带宽可达到2-5TB/s。2、GPU直连是目标、NV&存储厂已开始探索。1)打破PCIe瓶颈:传统架构中,数据必须先经过CPU,再通过PCIe总线传给GPU。改变后,NVLink/NVSwitch让GPU之间直接互联,不走CPU;CXL允许GPU直接访问系统内存,甚至共享地址空间;也可以像NV的Grace-Hopper或苹果M芯片,CPU和GPU封装在一起。2)存储直连:现在的路径,从硬磐读取数据 -> 进系统内存 -> CPU处理 -> 拷贝到GPU显存;通过存储直连GPU技术,让NVMe SSD直接把数据传输到GPU显存,CPU只负责发号施令,不碰数据。3、数据库向GPU-Native变革、计算效率呈量级提升。1)算子重构:传统DB的算子都是用C++/Java为CPU写的,后续须用CUDA或OpenCL重写这些算子。数据库查询引擎在生成执行计划时,直接调用GPU内核函数,在显存中完成数据的过滤、聚合和连接。2)以后数据库需要直接管理GPU显存,需要智能的算法来决定哪些热数据常驻显存,哪些数据通过GDS快速换入换出。3)数据布局:从对CPU友好的行式存储到对GPU友好的列式存储,同时对齐磁磐上的、内存里的、传给GPU的数据格式。4)全面向量化:数据库查询引擎必须是一次处理一个向量块;同时,AI推理通常伴随着RAG, 数据库内核需内置GPU加速的向量索引