主页 企业 性能和弹性:适用于 AI 和 HPC 工作负载的 Graid SupremeRAID

性能和弹性:适用于 AI 和 HPC 工作负载的 Graid SupremeRAID

by 凯文·奥布莱恩

Graid Technology 通过 SupremeRAID 设立了新的数据保护和性能标准,尤其是针对 AI 和 HPC 工作负载。

Graid Technology 的 SupremeRAID 继续重新定义存储格局,通过设定新的数据保护和性能标准,特别是针对 AI 和高性能计算 (HPC) 等现代工作负载。传统的 RAID 配置通常难以满足这些数据密集型环境的需求,尤其是当依赖于受 PCIe 总线限制的硬件 RAID 卡时。利用 GPU 加速,Graid 突破了这些障碍,在确保强大的 RAID 保护的同时,以最小的 CPU 资源影响提供卓越的性能。

适用于 AI 和 HPC 的 Grad SupremeRAID

技嘉 S183-SH0-AAV1 服务器

在 AI 和 HPC 等高级工作负载中,JBOD(磁盘组)和软件 RAID(mdadm)等替代配置也经常使用。虽然 JBOD 与检查点结合使用可以防止数据丢失,但会引入更多故障点,并给 IT 管理员带来具有挑战性的恢复过程负担。软件 RAID 提供数据弹性,但会消耗宝贵的 CPU 资源来管理 RAID 奇偶校验数据,并且在许多方面表现不佳。相比之下,Graid 的 SupremeRAID 提供了一种精简的高性能解决方案,可在不影响速度或可靠性的情况下简化数据管理。

Graid SupremeRAID 卡

本文将探讨 Graid 的 SupremeRAID、JBOD 和软件 RAID 之间的性能比较,说明为何 Graid 成为性能和数据保护至关重要的 IT 环境的最佳选择。

性能测试平台

我们所使用的 技嘉 S183-SH0-AAV1 双英特尔第五代可扩展 5U 服务器用于此测试平台。我们希望找到一款具有足够计算能力的紧凑型服务器,而这款服务器恰好支持 1 个 E32.S SSD,这是单个 Graid SupremeRAID SR-1 支持的最大值。技嘉服务器有 1010 个 DIMM 插槽,支持 32GB RDIMM 和 96GB 256DS RDIMM。该平台在后部提供三个 FHHL PCIe Gen3 插槽,为高速网络连接提供了大量选择。此外,主板还提供双 5GbE 板载网络和一个 1GbE 管理端口。

格瑞德 HPC DRAM

金士顿 96GB DDR5-5600 ECC RDIMM

该服务器支持 32 个 DIMM 插槽,但在本例中,我们安装了 16 个金士顿 DIMM,每通道 1 个 DIMM(1DPC),以实现最大 DRAM 速度。如果工作负载需要更大的空间,可以迁移到更高密度的 DIMM 或 2DPC 配置,但后者会将 DRAM 速度降至 4400MT/s。 特 金士顿 96GB DDR5-5600 ECC RDIMM 这款服务器提供了出色的性价比,使其成为需要高速 DRAM 和合理 DRAM 占用空间的工作负载的理想选择,而无需 128GB DIMM 的成本溢价。这些模块为密集型 HPC 和 AI 工作负载提供了两全其美的解决方案。 

KIOXIA 7.68TB XD7P SSD

32 个 E1.S SSD 托架由 KIOXIA 7.68TB XD7P SSD 填充。这些驱动器使用 PCIe Gen4 x2 接口,最大带宽为 7.2GB/s 读取和 4.8GB/s 写入。KIOXIA 专门为密集的超大规模和 HPC 工作负载设计了这些驱动器,E1.S SSD 的密度优势在这些工作负载中大有裨益。重要的是,KIOXIA 确保 XD7P 的热设计能够跟上这种密集的服务器设计,即使在重负载下也是如此。

技嘉 S183-SH0-AAV1 服务器后置 I/O

测试系统规格

  • 技嘉 S183-SH0-AAV1 服务器
  • 2 个 Intel Xeon Platinum 8592+ CPU(64 核,1.9GHz)
  • 16 个 96GB 金士顿 DDR5-5600
  • 32 个 KIOXIA XD7P 7.68TB E1.S SSD
  • Graid SupremeRAID SR-1010
  • Ubuntu 22.04.4服务器

性能测试结果

HPC 工作负载可以连续运行数天、数周或数月,如果没有弹性后端存储,单个驱动器故障就可能迫使这些作业回到原点。为了评估 Graid 对 HPC 和 AI 工作负载的弹性和性能的影响,我们查看了 y-cruncher 的内部存储基准的性能。目标是比较各种存储配置、JBOD、软件 RAID 和 Graid SupremeRAID,以了解它们对 CPU 密集型工作负载的影响。

RAID配置

我们知道 mdadm 软件 RAID 的奇偶校验数据写入命中率很高。虽然 RAID10 可以获得更高的性能,但也会显著降低可用容量。为了最大程度地优化软件 RAID5 性能,我们配置了两个 RAID5 池,分别分布在 SSD 0-15 和 16-31 上。这可以在两个 CPU 上实现平衡。

Graid 比较也经过调整,使用两个 RAID5 池,一半 SSD 均匀分布在 CPU0 上,另一半分布在 CPU1 上,以实现 NUMA 平衡。我们在每个 RAID5 池上测试了一个卷,每个 RAID5 池测试了两个卷。

每个驱动器在 JBOD 配置中单独映射,确保均匀的 NUMA 平衡。

我们无法将硬件 RAID 纳入本报告,因为此服务器中的驱动器连接方式不支持传统的硬件 RIAD 卡。但值得注意的是,即使我们可以,最好的情况也是达到 PCIe Gen4 x16 插槽对单张卡的带宽限制,约为 28GB/s。

软件配置

对于这些不同的存储场景,我们使用 y 粉碎机的内部性能测试工具。测试结果分为顺序读写性能、计算 I/O 速度、磁盘 I/O 速度以及磁盘 I/O 速度与计算速度的比率。我们之所以选择此工具,是因为它同时对 CPU、内存和驱动器 I/O 进行压力测试。虽然它不代表任何单一特定的工作负载,但我们发现它生成的数据与 I/O 密集型应用程序下的整体系统性能密切相关。值得注意的是,I/O 测试包括实际数据处理,而不仅仅是尽可能快地通过接口推送位,从而更准确地反映实际负载下的系统性能。

顺序读写性能表示磁盘阵列的原始速度。计算速度是 CPU 处理数据的速率,而磁盘 I/O 速度是计算工作发生时数据流向 CPU 的速度。进入磁盘的工作负载需要磁盘 I/O 速度高于计算速度才能不减慢速度。如果此比率小于 1.0,则磁盘是瓶颈,而超过 1.0,则 CPU 是瓶颈。当比率为 2.0 或更高时,y-cruncher 在处理大型工作负载时表现最佳。

存储配置 连续读取 GB/秒 顺序写入 GB/秒 计算 GB/s 磁盘 I/O GB/秒 长宽比
直接 JBOD 102 102 18.4 81.5 4.42
格力 RAID5 x 2 2VD 64.3 43.8 23.1 70.4 3.05
格力 RAID5 x 2 4VD 85.2 73.7 22.1 69.4 3.14
软件 RAID5 x 2 122 3.6 25.7 10.9 0.42

通过将 JBOD 直接连接到 32 个独立的 E1.S SSD,y-cruncher 在其内部条带化过程中实现了 102GB/s 的读取性能和 102GB/s 的写入性能。这通常是 y-cruncher 在该平台上看到的最高性能,尽管其代价是没有数据奇偶校验。当使用 mdadm 将配置切换到软件 RAID5 卷(分布在两个 CPU 上)时,连续性能骤降至仅 3.6GB/s 的写入和 122GB/s 的读取性能。具有两个 RAID5 池和两个卷的 Graid 测量的读取性能为 64.3Gb/s,写入性能为 43.8GB/s。将其分成两个 RAID5 池但有四个卷时,Graid 的带宽增加到 85.2GB/s 的读取和 73.7GB/s 的写入。

在了解了带宽数字和存储配置选项的范围后,我们深入研究了这一决定对应用程序的影响。计算与磁盘 I/O 带宽的比率在 JBOD 配置中最高,为 4.43。软件 RAID5 仅为 0.42,而 Graid RAID5 在 3.05VD 时为 2,在 3.14VD 时为 4。

在这个 y-cruncher 示例中,它包括了服务器的所有性能功能,需要 2.0 或更高的比率才能实现最佳性能。虽然 JBOD 配置可以获得最佳整体结果,但它是以奇偶校验数据为代价的,这意味着任何驱动器发生故障,即使是片刻,也意味着数据丢失。另一方面,软件 RAID 可以提供数据可用性和比 JBOD 更高的读取速度,但写入受到严重影响,以至于磁盘 I/O 无法跟上 CPU 的速度,导致可怕的 42 结果。

这两个数据点对于理解 Graid SupremeRAID 为这些工作负载带来的好处至关重要。对于此用例,总体性能数字介于 JBOD 和软件 RAID 之间,但原始 I/O 并不是全部。此示例表明,Graid 可以提供超出所需应用程序性能的性能,同时还提供数据可用性。这种组合意味着使用 Graid 的组织可以期望 RAID 保护、存储和应用程序性能,其非阻塞架构远远超过传统 RAID 卡所能提供的性能。

结论

Graid Technology 的 SupremeRAID 不断突破数据保护和性能的界限,为行业树立了新标准。通过利用 GPU 加速功能,Graid 在 RAID 配置中提供无与伦比的速度和效率,显著降低 CPU 压力,同时最大限度地提高吞吐量。

我们为本报告收集的数据表明,Graid 能够确保强大的数据保护,同时满足现代 AI 和 HPC 工作负载的苛刻要求——传统 RAID 和软件 RAID 解决方案往往无法满足这些要求。这种效率使 CPU、DRAM 和存储等关键系统资源能够充分提高其旨在支持的应用程序的性能,从而提高整体系统价值和效率。

网格技术

本报告由 Graid Technology 赞助。本报告中表达的所有观点和意见均基于我们对所考虑产品的客观看法。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅