主页 Enterprise Western Digital OpenFlex Data24 – GPUDirect 性能分析

Western Digital OpenFlex Data24 – GPUDirect 性能分析

by 布赖恩·比勒

在这篇详细的文章中,我们为 Western Digital OpenFlex™ Data100 提供了真实的 NVIDIA® H24 GPU 性能分析。通过在 GPU 内存和存储之间启用直接数据路径,OpenFlex Data24 可显著降低延迟并最大化带宽。

本报告由西部数据赞助。本报告中表达的所有观点和意见均基于我们对所考虑产品的公正看法。

如今,人工智能 (AI) 已成为热门话题,尽管一些超大规模企业正在为他们的人工智能数据问题制定定制解决方案,但西部数据 (WD) 为我们其他人提供了答案。 西部数据 OpenFlex™ Data24™ 提供强大且可扩展的存储解决方案,以满足 AI 和其他 GPU 加速工作负载的高吞吐量需求。通过在 GPU 内存和存储之间启用直接数据路径,OpenFlex Data24 可显著降低延迟。它还可最大化带宽,确保高效的数据处理和最佳的 GPU 利用率,从而更快、更有效地处理大规模数据集。

通过利用 NVMe-oF™,西部数据可以在多台服务器之间共享分解式高速存储,确保快速的数据访问和传输。OpenFlex Data24 与高性能 GPU 无缝集成,使其能够提供 AI 训练和推理所需的巨大吞吐量,使其成为下一代数据中心运营的关键推动因素。这些功能使 OpenFlex Data24 成为任何希望充分利用 AI 和其他高级计算工作负载潜力的组织的强大工具。

西部数据OpenFlex Data24 4000

Western Digital 的 OpenFlex Data24 4000 系列 NVMe-oF 存储平台为共享存储环境带来了无与伦比的性能。这款高性能平台扩展了 NVMe™ 闪存的功能,通过以太网结构提供低延迟共享。Data24 4000 系列利用六个 Western Digital RapidFlex™ A2000 Fabric Bridge 设备,使用多达十二个 100GbE 端口提供无缝网络连接。这些接口支持 罗CEv2 和TCP协议,为数据传输提供多种选择。

该机箱采用 2U 外形设计,可容纳多达 24 个双端口 U.2 NVMe SSD。该平台支持 PCIe® Gen4,其架构可充分利用每个 SSD 的性能,在整个机箱内保持高带宽。NVMe SSD 提供各种容量和耐用性选项,包括 Ultrastar® DC SN655 SSD,容量高达 15.36TB,总原始容量为 368TB¹。

该平台的设计消除了超额认购,确保了平衡的访问,同时保持了 NVMe 性能。Data24 4000 系列还集成了 RESTful API 支持,以简化管理,增强易用性和与现有 IT 基础架构的集成。

高可用性和企业级可靠性是 Data24 4000 系列的关键属性。双 I/O 模块和 N+2 风扇冗余等功能让您高枕无忧,即使在不可预见的组件故障期间也能确保持续运行。整个平台(包括 SSD)均享有 5 年有限保修。

Western Digital OpenFlex Data24主要规格

OpenFlex Data24 规格
最大存储容量 368TB
输入电压 120V-240V
电源供应器 双800W
数据传输速率 12 个 100Gbps NVMe-oF
外形 2U
工作温度 10°C至35℃,
重量 18.25公斤/ 40.2磅
外形尺寸(宽x长x高) 491.9 毫米 x 628.65 毫米 x 85.5 毫米 / 19.37 英寸 x 24.75 英寸 x 3.37 英寸
功耗(最大/典型) 750瓦/~550瓦
电源效率 80 Plus钛
驱动器插槽 24
散热器 4 个系统风扇(支持 N+2)
机架单位 (U) 2U
所需机架深度 1000 mm(39.4 in。)
所需机架宽度 450mm(17.72 in。)

测试OpenFlex Data24

为了充分发挥 OpenFlex Data24 的作用,我们必须整合几个关键组件:NVIDIA GPUDirect™、NVIDIA IndeX® 和高达 5.9TB 的龙卷风模拟数据。通过利用 NVIDIA GPUDirect,我们实现了 GPU 内存和 OpenFlex Data24 之间的直接通信,大大减少了延迟并最大化了数据吞吐量。利用 NVIDIA 的 IndeX,我们可以更高效地可视化和交互大量龙卷风数据集,展示系统的实时处理能力。此设置提供了一个完美的测试平台,用于展示 OpenFlex Data24 以惊人的速度和效率处理密集型 AI 工作负载和大规模数据处理的能力。

NVIDIA GPU 直接

NVIDIA GPU 直接 技术显著提高了高性能 GPU 计算环境中的数据传输效率。这套技术优化了 GPU 与其他系统组件之间的数据移动。通过减少延迟和开销,GPUDirect 实现了 GPU 与网络适配器、存储设备和其他 GPU 等外围设备之间的更直接通信。传统的数据传输过程涉及通过 CPU 和系统内存路由数据,从而产生阻碍性能的瓶颈。GPUDirect 通过允许直接内存访问 (DMA) GPU 内存,绕过 CPU 和系统内存,从而提高整体吞吐量,从而缓解了这些瓶颈。

NVIDIA 高级技术营销经理 Harry Petty 表示:

“NVIDIA 的技术可实现低延迟和快速的存储数据传输,通过减少 GPU 空闲时间来优化 AI 工作负载的性能。这可缩短模型训练时间并提高结果准确性,从而加快发现速度并提高工作流程效率。”

GPUDirect 包含多项重要功能,包括 GPUDirect RDMA,它有助于在 GPU 和支持 RDMA 的网络适配器之间实现直接数据传输。这种直接通信对于需要快速数据交换的应用程序(例如科学模拟和大规模数据分析)至关重要。通过实现更快的数据传输,GPUDirect RDMA 可减少延迟并提高 GPU 集群的效率。此外,GPUDirect Storage 将 GPU 与高速存储系统更紧密地集成在一起,使数据密集型应用程序能够利用现代 NVMe 存储的最大带宽。这种集成可加速数据访问并减少等待数据加载到 GPU 内存中的时间,这对于实时分析和大规模机器学习工作负载至关重要。

GPUDirect 的功能在多个 GPU 协同工作的环境中尤其有效,例如深度学习训练集群。通过促进 GPU 之间的直接通信,GPUDirect 优化了并行处理并显著降低了与 GPU 间数据传输相关的开销。这种增强功能在训练复杂的神经网络时尤其有用,因为这种网络必须在多个 GPU 之间快速交换大量数据。GPUDirect 带来的效率提升在分子动力学模拟和流体动力学等应用中也很明显,在这些应用中,计算工作负载分布在众多 GPU 上以获得更快的结果。

NVIDIA 指数

NVIDIA 指数 是一款先进的体积可视化工具,旨在以高保真度处理海量数据集。IndeX 利用 GPU 加速提供 3D 体积数据的实时交互式可视化,使其成为石油和天然气勘探、医学成像和科学研究等行业不可或缺的工具。传统可视化工具通常难以应对现代数据集的庞大规模和复杂性,导致渲染时间变慢和用户体验交互性降低。IndeX 利用 NVIDIA 的 GPU 技术提供高性能渲染和数据处理,从而克服了这些限制,确保用户可以实时与其数据交互。

IndeX 的功能源于其能够利用 GPU 的并行处理能力,从而高效地管理和呈现大规模体积数据。此功能在需要高分辨率可视化的应用中非常有用,例如石油和天然气领域的地震解释和油藏模拟。通过提供地下结构的详细和准确的视觉表示,IndeX 可帮助地质学家做出更明智的决策。在医学领域,IndeX 有助于从 MRI 和 CT 扫描等成像方式可视化复杂的解剖结构,从而帮助诊断和治疗计划。

IndeX 的实时渲染功能对于科学研究也至关重要,因为科学研究需要对来自模拟和实验的大量数据集进行可视化和分析。研究人员可以以交互方式操作和探索他们的数据,从而更快地进行假设检验和发现。IndeX 的可扩展性确保它可以处理由先进科学仪器和模拟产生的不断增长的数据量,为研究人员提供有效可视化和解释数据的工具。通过与现有工作流程无缝集成并支持各种数据格式,IndeX 提高了生产力并加快了跨多个学科的发现速度。

将它们全部捆绑在一起

将 Data24 4000 系列与 NVIDIA GPUDirect 技术集成,通过简化 GPU 和存储之间的数据传输,显著提高了 GPU 密集型应用程序的性能。GPUDirect 促进了直接内存访问,允许数据移动绕过 CPU 和系统内存,以减少延迟并提高吞吐量。与 Data24 4000 系列的高性能 NVMe-oF 功能相结合,GPUDirect 可确保 GPU 能够快速访问存储在 NVMe SSD 上的大型数据集。

这种集成在 GPU 和存储之间的高速数据交换至关重要的环境中尤其有益,例如深度学习和科学模拟。Data24 4000 系列的低延迟和高带宽,加上 GPUDirect 支持的直接数据路径,可最大限度地缩短数据传输时间并提高 GPU 的利用率。这种协同作用可优化并行处理任务的性能,其中多个 GPU 需要快速且频繁地访问共享数据。

在本测试中,OpenFlex Data24 4000 和 GPU 服务器通过 200GbE 交换机连接,使用 NVMe-oF RoCEv2 协议,匹配的 MTU 为 5000。GPU 服务器使用 3 个 Mellanox® CX7 RNIC,每个 RNIC 有 2x 200 GbE。OpenFlex Data24 4000 配备 12x 100GbE 端口。每个 CX7 端口有 2 个 IP 地址,允许单个 CX7 映射到 Data24 上的四个端口。这为每个双端口驱动器上的所有 4 个 PCIe 通道提供了连接。6x 200 GbE 链路等于 12x 100GbE 链路的带宽潜力,适用于无阻塞网络架构。

每个 NVIDIA H100 通过 PCIe Gen5 x16 插槽连接,理论上可以实现双向 64GB/s 带宽。每个 200GbE 和 100GbE RNIC 端口理论上分别可以达到 25 GB/s 和 12.5 GB/s。一个关键的设计考虑因素是确保无阻塞架构。这要求 GPU、RNIC 和 NVMe-oF 驱动器都物理映射到同一个 CPU、NUMA 和 PLX 交换机上。这允许配置充分利用 GPUDirect。如本实现所示,第二个 CPU、NUMA 和 PLX 交换机上的镜像配置将允许可预测的计算规模和理论上的性能翻倍。

在 AI 训练集群中,Data24 4000 与 GPUDirect 的组合可通过减少与数据加载相关的瓶颈来缩短训练时间。高效的数据路径确保 GPU 能够不间断地连续接收数据,保持高处理速度并提高整体系统效率。此设置对于实时分析和其他需要快速数据访问和处理的应用程序也非常有利,可为各种计算工作负载提供显著的性能提升。

NVIDIA IndeX 服务器配置

对于 NVIDIA IndeX 测试,我们采用了配备交换 PCIe 背板、一对 NVIDIA H521 和三张 NVIDIA ConnectX-100 网卡的 Supermicro 7GE-TNRT。

Supermicro® 521GE-TNRT 主要规格
型号 超微 521GE-TNRT
处理器 2 个英特尔® 至强® 铂金 8462Y+
内存 1TB DDR5
GPU 2 个 NVIDIA H100 PCIe
网络接口 3 个 NVIDIA ConnectX-7 NIC

GDSIO 综合测试

为此使用的基准测试工具是 GDSIO,这是一款专门的 NVIDIA 专有实用程序,旨在测量 GPU 直接存储 (GDS) 环境中的存储性能。我们研究了本轮测试的几种配置:带有 12 个驱动器和 24 个驱动器的单个 GPU,以及带有 24 个驱动器的两个 GPU。

Western Digital OpenFlex Data24 在 GDSIO 性能测试中的表现与 NVIDIA H100 GPU 搭配使用,揭示了驱动器的原始功率。当配置 12 个驱动器和单个 GPU 时,系统实现了 44.14 GB/s 的写入带宽。在使用一个 GPU 的情况下将驱动器数量增加到 24 个时,写入性能略有改善,达到 54.15 GB/s。在 24 个驱动器设置中引入第二个 GPU 可实现大幅提升,将写入带宽提升至 87.91 GB/s。

读取性能也呈现出类似的趋势。12 个驱动器、一个 GPU 的配置产生了 53.47 GB/s 的读取带宽。扩展到 24 个驱动器和一个 GPU 后,读取带宽略微增加到 54.75 GB/s。然而,最显著的改进来自双 GPU 设置,系统实现了令人印象深刻的 101.14 GB/s 读取带宽。这些结果强调了 OpenFlex Data24 能够随着驱动器数量的增加而可预测地扩展。

添加 GPU 对最大化性能起着至关重要的作用。24 个驱动器和两个 GPU 的配置是最佳设置,可为读写操作提供最高带宽。此测试强调了 GPU 加速在充分利用 GDSIO 框架潜力方面的重要性。OpenFlex Data24 与 NVIDIA H100 GPU 搭配使用时表现出卓越的性能,使其成为要求苛刻的存储环境的强大解决方案。

对于 AI 工作负载,快速的数据提取和处理至关重要,OpenFlex Data24 的性能可以显著缩短训练时间并更高效地处理大型数据集。将数据从存储快速移动到 GPU 内存的能力确保充分利用强大的 GPU 的计算资源,从而促进更快、更高效的模型训练和推理。

使用 OpenFlex Data24 为 H100 的龙卷风提供动力

气候研究人员长期以来一直在研究超级单体雷暴,这种大气现象是造成世界上最猛烈、最危险的龙卷风的原因。这些风暴动态复杂,精确模拟耗时且数据密集。探索此类数据是一个缓慢而繁琐的过程,通常需要数小时才能呈现新的可视化效果。

NVIDIA GPU 和 NVIDIA IndeX 的使用彻底改变了这一领域。科学家现在可以实时执行体积可视化。我们在 Supermicro 系统上运行的 H100 模拟(由 OpenFlex Data24 提供数据)展示了 Leigh Orf 教授模拟的 2011 年俄克拉荷马州风暴。该模拟从龙卷风形成前的初始条件中数学推导而来,包括 250 亿个网格点,每个网格点都有十多个属性,例如降雨、冰雹、压力和风速。这个详细的可视化显示了 6000 个模拟步骤,为龙卷风的动态提供了前所未有的洞察力。

此次模拟的关键是 NanoVDB,这是一种紧凑的稀疏卷数据结构,通过将数据直接映射到 GPU 的内存中,可以减少数据集大小和内存占用。结合 GPUDirect Storage 技术和 OpenFlex Data24,我们实现了高达 89GB/s 的速度,可以以每秒超过 13 帧的速度查看结果。这相当于每 5.9 秒提取约 66TB 的数据集。这种组合允许轻松进行交互式导航、动态参数调整和模拟清理。


禁用 GPUDirect(因此数据现在遍历 CPU 复合体)后,带宽减少到大约 15 GB/s,并且帧速率显著下降到每秒 4 帧。

速度至关重要,但逼真的质量对于验证模拟的准确性也至关重要。如果模拟和现实不一致,则必须纠正模型。NVIDIA Iray 是一款基于 GPU 的路径追踪器,可渲染物理上正确的光传输,与 NVIDIA IndeX 体积数据一起使用来支持此可视化。龙卷风的漏斗、地面接触以及云水比和雨水等细节元素(以蓝灰色孔隙表示)清晰可见。

结论

该项目充分展示了配置良好的无阻塞架构可为 GPU 加速工作负载提供的性能、时间和成本优势。简而言之,将 GPU 发挥到最大吞吐量或处理能力可带来更高效的成果和投资回报。

Western Digital 的架构支持开放式可组合基础设施 (OCI),OpenFlex Data24 4000 平台利用这种 OCI 方法,通过使用 NVMe-over-Fabrics (NVMe-oF) 分解数据存储。将存储资源与 GPU 服务器分离不仅有助于释放服务器的资源(从传统的步调一致升级中释放这些资源),而且这样做还可以对 NVMe 驱动器到 GPU 的映射进行微调。这种与 GPU 要求精确匹配的驱动器可以密切解决 GPU 功能、性能和数据容量需求,从而提供这些资源所需的可预测规模和灵活性。

由于数据不再孤立,它成为可访问的网络存储资源,可以根据需要在多个 GPU 服务器之间共享,从而进一步提高灵活性。

Western Digital OpenFlex Data24 与 NVIDIA GPUDirect 技术相结合,在处理 AI 和其他 GPU 加速工作负载方面展现出强大的能力。通过在 GPU 内存和 NVMe 存储之间启用直接数据路径,Data24 可显著降低延迟并最大化带宽,从而确保高效的数据处理和最佳的 GPU 利用率。这种集成可以更快、更有效地处理大规模数据集,使 Data24 成为现代数据密集型环境中的宝贵资产。

我们的真实测试涉及大量龙卷风模拟数据集,展示了通过此设置实现的显著性能提升。OpenFlex Data24 能够提供高吞吐量和低延迟数据传输,再加上 NVIDIA IndeX 的实时可视化功能,凸显了其在 AI 训练、科学模拟和实时分析等要求苛刻的应用中的潜力。

利用 Data24 系列和 GPUDirect 技术进行 AI 训练集群,可以确保数据从存储无缝流向 GPU,从而显著缩短训练时间。此设置可最大限度地减少瓶颈并提高整体系统效率,使其成为追求更快、更准确的 AI 模型的关键组件。

除了 AI 之外,OpenFlex Data24 的优势还扩展到其他 GPU 加速工作负载,包括高性能计算和实时数据分析。该平台降低了延迟并提高了吞吐量,确保需要快速访问和处理数据的应用程序能够以最佳性能运行,从而及时提供精确的结果。

请于 6 年 8 月 2024 日至 2024 日在 FMS 607 展位#XNUMX 观看此演示。

Western Digital OpenFlex 平台

[1] XNUMX 兆兆字节 (TB) 等于 XNUMX 万亿字节。实际用户容量可能因操作环境而有所减少。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅