搭载 PERC975 系列 RAID 控制器的戴尔 H13i 是该公司十多年来在硬件 RAID 领域取得的最重大飞跃。虽然戴尔会定期发布 PERC 产品线的更新,但这些更新大多是渐进式的,侧重于随着 PCIe 的更新换代而进行的控制器调优和带宽提升。但其底层架构仍然与多年来定义企业 RAID 的 SATA 和 SAS 传统架构紧密相连。PERC H975i 彻底打破了这一循环。这款控制器基于博通的 SAS51xx 系列芯片组构建,标志着向闪存优先和 NVMe 原生设计的明确过渡。通过专门支持 NVMe 驱动器并取消对传统 HDD 和 SATA 技术的支持,H975i 采用了一种前瞻性的存储基础架构方法,并针对现代数据密集型和 AI 优先工作负载的高性能、低延迟需求进行了优化。
关键精华
- 闪存优先 NVMe RAID: PERC13 H975i 完全脱离 SAS/SATA,基于 Broadcom SAS51xx 构建,实现 NVMe 原生、AI 就绪架构。
- 巨大的代际跨越: PCIe Gen5 x16 每个控制器最多配备 16 个 NVMe 驱动器(两个控制器配备 32 个),在测试中每个控制器可提供 52.5 GB/s 和 12.5M IOPS,与 PERC12 相比,其优势包括 +88% 读取带宽、+318% 写入带宽、+31% 4K 读取 IOPS 和 +466% 4K 写入 IOPS。
- AI服务器适配: 前端集成设计释放了 GPU 的后部 PCIe 插槽,缩短了 MCIO 运行时间,并为每个加速器启用专用存储管道,以实现更稳定、更确定的吞吐量,且不会增加 CPU 开销。
- 压力下的弹性: 超级电容器保护的缓存和更快的重建将时间缩短至 10 分钟/TiB,同时保持重建期间的高性能(高达 53.7 GB/s 的读取速度、68 GB/s 的写入速度、17.3M/5.33M 4K IOPS)。
- 端到端安全: 硬件信任根、SPDM 设备身份以及涵盖驱动器、飞行中数据和控制器缓存的全方位加密。
PERC H975i 提供无与伦比的性能和架构创新。它采用 PCIe Gen 5 x16 主机接口,最多支持 16 个 NVMe 硬盘(每个系统 32 个 NVMe 硬盘,配备两个控制器),在我们的测试中,H975i 实现了惊人的 52.5 GB/s 最大吞吐量和每个控制器 12.5 万次 IOPS。与 PERC2 相比,这几乎在所有关键类别中都提升了两倍,PERC12 的最高吞吐量为 6.9 万次 IOPS,吞吐量为 27 GB/s。除了原始性能之外,PERC13 还引入了基于超级电容器的缓存保护机制(取代传统的电池供电系统),在确保数据完整性的同时又不影响运行可靠性。在前代产品安全特性的基础上,H975i 现在扩展了全方位加密功能,可加密缓存中的数据,并提供全面的传输中和静态数据保护。
PERC H975i 是一款专用存储加速器,旨在满足 AI 工作负载前所未有的计算需求。它兼具高密度和高性能,以及低延迟存储,且不增加 CPU 开销。实际上,将一张能够占用 x5 接口的 PCIe Gen16 RAID 卡与 Gen5 GPU 配对,可为每个加速器提供专用的存储管道。这简化了 PCIe/NUMA 拓扑,避免了邻域噪声效应,并将重建或后台任务隔离到该 GPU 的 I/O 域。
将其扩展为双 RAID 卡,用于两块 GPU,即可保持线性性能,同时避免共享通道或缓存的争用。如此一来,即可为数据密集型训练和推理(大批量、快速重排、快速检查点读取)提供更稳定的输入带宽,并在负载和重建期间实现更紧密的延迟分布。这种架构不仅能推动更高的峰值数据,还能使吞吐量更具确定性,这正是多 GPU AI 服务器保持高利用率的必要条件。
Dell PERC12 H965i 和 PERC13 H975i 规格
| 专栏 | PERC12 H965i 正面 | PERC13 H975i 正面 |
|---|---|---|
| RAID级别 | 0,1,5,6,10,50,60 | 0,1,5,6,10,50,60 |
| 非 RAID(JBOD) | 是 | 是 |
| 主机总线类型 | PCIe Gen4 x16 | PCIe Gen5 x16 |
| 边带管理 | I2C、PCIe VDM | I2C、PCIe VDM |
| 每个端口的机柜数量 | 不适用 | 不适用 |
| 处理器/芯片组 | Broadcom 片上 RAID,SAS4116W | Broadcom 片上 RAID,SAS5132W |
| 能源包/备用电源 | 电池 | 超级电容器 |
| 本地密钥管理安全 | 是 | 是 |
| 安全企业密钥管理器 | 是 | 是 |
| 控制器队列深度 | 8,192 | 8,192 |
| 非易失性缓存 | 是 | 是 |
| 快取记忆体 | 8 GB DDR4 3200 MT/s | 集成 RAID 缓存 |
| 缓存函数 | 回写、预读、直写、始终回写、不预读 | 回写、直写、始终回写、不预读 |
| 最大复杂虚拟磁盘 | 64 | 16 |
| 最大简单虚拟磁盘数 | 240 | 64 |
| 最大磁盘组数 | 64 | 32 |
| 每个磁盘组的最大 VD | 16 | 8 |
| 最大热备用设备数量 | 64 | 8 |
| 支持热插拔设备 | 是 | 是 |
| 自动配置(主要并执行一次) | 是 | 是 |
| 硬件异或引擎 | 是 | 是 |
| 在线扩容 | 是 | 是 |
| 专用和全局热备盘 | 是 | 是 |
| 支持的驱动器类型 | NVMe Gen3 和 Gen4 | NVMe Gen3、Gen4 和 Gen5 |
| VD 条带元素尺寸 | 64KB | 64KB |
| NVMe PCIe 支持 | Gen4 | Gen5 |
| 配置最大 NVMe 驱动器 | 每个控制器 8 个驱动器 | 每个控制器 16 个驱动器 |
| 支持的扇区大小 | 512B、512e、4Kn | 512B、512e、4Kn |
| 存储启动支持 | 仅 UEFI | 仅 UEFI |
Dell PowerEdge 服务器中的 PERC13 H975i 前置控制器旨在无缝集成到系统架构中。与占用后置 PCIe 插槽的传统附加卡不同,H975i 直接连接到前置驱动器背板,并通过专用 PCIe 5.0 接口与主板上的前置 MCIO 连接器连接。这种集成设计保留了后置 PCIe 插槽,可用于高性能 GPU 和其他 PCIe 扩展,同时显著缩短了线缆长度。这有助于保持信号完整性,使系统更可靠、更易于维护。最终,内部布局更加整洁,气流更加顺畅,非常适合高密度计算密集型部署。
H975i 实施了全面的安全架构,涵盖从硅片级硬件认证到 SED 驱动器的全频谱数据加密。硬件信任根在此基础上建立了从内部启动 ROM 到每个固件组件的不可变加密验证链,确保只有经过验证的戴尔认证固件才能在控制器上执行。这种基于硬件的安全性通过安全协议和数据模型 (SPDM) 实现扩展,其中每个控制器都包含唯一的设备身份证书,使 iDRAC 能够执行实时身份验证。该控制器将加密保护扩展到传统的静态数据场景之外,涵盖了缓存。它将加密密钥保存在未经授权的固件无法访问的安全内存区域中。因此,无论敏感数据是驻留在驱动器上还是在缓存中正在处理,它们都受到保护。
H975i 的电源保护功能与传统的电池供电系统相比,通过集成超级电容器实现了另一项重大改进。超级电容器可在意外断电事件中提供瞬时供电,确保将加密的缓存完整刷新到非易失性存储器,从而实现数据无限期的保护。此外,与需要 4-8 小时完成学习周期的电池供电系统不同,H975i 的超级电容器可在 5-10 分钟内完成透明学习周期,且校准期间性能不会下降。这种设计消除了电池解决方案固有的维护成本和性能下降问题,同时为关键任务数据保护提供了卓越的可靠性。
集成监控和管理
戴尔的 PERC13 RAID 控制器与戴尔的许多 RAID 解决方案一样,可以通过多种方式进行管理和监控,包括在平台启动期间通过 BIOS 中的系统设置、通过 iDRAC Web GUI、PERC12 实用程序,甚至通过戴尔 OpenManage UI 和 CLI。
iDRAC 控制器管理
查看 iDRAC 管理界面时,“控制器”选项卡会提供服务器存储硬件的概览。除了 BOSS 卡之外,您还会看到双 PERC H975i 控制器,其中包含固件版本、缓存和电池健康状况等信息。此摘要信息可让您快速验证控制器的就绪状态和配置,而无需访问 BIOS 或使用 CLI 工具。
iDRAC 中的“虚拟磁盘”选项卡显示已创建的存储阵列,包括其 RAID 级别、大小和缓存策略。此系统中列出了两个 RAID-10 组,均基于 SSD 构建。管理员可以通过此视图确认卷是否在线、创建新的虚拟磁盘,或使用“操作”菜单调整或删除现有配置。
RAID 控制器配置实用程序
上图显示了在 PowerEdge R975 平台上进入 PERC H7715i 前端配置实用程序系统设置的示例。通过此界面,您可以管理所有关键 RAID 控制器设置,包括配置管理、控制器管理、设备管理等。此实用程序提供了一种简化的方法,可在平台启动过程中直接设置虚拟磁盘并监控硬件组件。
选择 RAID 级别后,我们继续选择阵列的物理磁盘。在此示例中,所有可用的 NVMe SSD 均已列出并标记为支持 RAID。我们从未配置的容量池中选择多个 3.2 TiB Dell DC NVMe 驱动器。介质类型、接口和逻辑扇区大小等筛选条件有助于缩小选择范围。选中所需的驱动器后,我们可以单击“确定”来完成磁盘选择并继续创建虚拟磁盘。
在完成虚拟磁盘创建之前,系统会显示一条警告,确认所选物理磁盘上的所有数据将被永久删除。为了继续,我们勾选“确认”框,然后选择“是”以授权该操作。此安全措施有助于防止在 RAID 创建过程中意外丢失数据。
虚拟磁盘创建完成后,它会出现在“虚拟磁盘管理”菜单下。在本例中,我们新建的 RAID 5 虚拟磁盘容量为 43.656 TiB,状态为“就绪”。只需几个简单的步骤,存储即可配置完毕并投入使用。
PERC BIOS 配置实用程序和 iDRAC 界面不仅提供了直观的本地和远程管理选项,戴尔还提供了名为 PERC CLI (perccli2) 的强大命令行工具。该实用程序支持 Windows、Linux 和 VMware,非常适合在无头环境中编写脚本、实现自动化或管理 PERC 控制器。戴尔还提供了有关安装和命令使用的详细文档, PERC CLI 在他们的支持网站上。
戴尔PERC13性能测试
在深入性能测试之前,我们使用配置了双 PERC H7715i 前端控制器的 Dell PowerEdge R975 平台准备了环境。这些控制器搭配了 3.2 个 12,000 TB 的 Dell NVMe 硬盘,每个硬盘的额定连续读取速度高达 5,500 MB/s,连续写入速度高达 128 MB/s(使用 13 KiB 块大小)。这种高性能基础使我们能够突破 PERCXNUMX 控制器的吞吐量极限,并大规模评估 RAID 性能。
- 平台: 戴尔PowerEdge R7715
- CPU: AMD EPYC 9655P 96 核处理器
- 随机存取存储器: 768GB(12 x 64GB)DDR5-5200 ECC
- 突袭控制器: 2 个 PERC13 H975i
- 存储: 32 个 3.2TB Dell CD8P NVMe 驱动器
- PCIe加速器: 2 个 NVIDIA H100 GPU
NVIDIA Magnum IO GPU 直接存储:AI 与存储的结合
现代 AI 流水线通常受 I/O 限制,而非计算限制。数据批次、嵌入和检查点必须足够快地从存储器传输到 GPU 内存,以保持加速器繁忙。NVIDIA 的 Magnum IO GDS(通过 cuFile)缩短了传统的“SSD → CPU DRAM → GPU”路径,允许数据直接从 NVMe 直接传输到 GPU 内存。这消除了 CPU 的反弹缓冲区开销,降低了延迟,并使吞吐量在负载下更可预测,所有这些都转化为更高的 GPU 利用率、更短的 epoch 时间和更快的检查点保存/加载周期。
我们的 GDSIO 测试旨在测量从存储到 GPU 的数据路径本身,涵盖了块大小和线程数,以显示支持 PERC13 的 NVMe 组能够以多快的速度将数据流传输到 H100 内存。每个 H975i 都连接到 PCIe 5.0 x16 链路(理论上每个控制器约 64 GB/s,单向),两个控制器的总上限接近 112 GB/s;我们的曲线稳定期可以告诉您是链路限制还是介质限制。对于从业者来说,可以将图表视为实际工作负载的代理:大型顺序读取映射到数据集流传输和检查点恢复;大型顺序写入映射到检查点保存;并发的较小传输反映了数据加载器的混洗和预取。简而言之,强大的 GDSIO 扩展意味着在训练和高吞吐量推理过程中更少的 GPU 卡顿和更稳定的性能。
GDSIO读取顺序吞吐量
从顺序读取开始,吞吐量在较低的块大小和线程数下开始适度增长,在单线程 0.3K 块时约为 8 GiB/s。在 16K 到 512K 块之间,性能急剧提升,尤其是在线程数从 4 个增加到 16 个时。最显著的提升发生在 1M、5M 和 10M 块大小下,吞吐量急剧跃升,在 103M 块大小和 10 个线程下达到 256 GiB/s 的峰值。这一进展表明,PERC13 阵列受益于更大的块大小和多线程并行性,最佳饱和度约为 64-128 个线程,超过此值后,吞吐量将趋于平稳。
GDSIO 读取顺序吞吐量差异
在从 8K 到 10M 的块大小的顺序读取测试中,PERC13 (H975i) 的表现始终优于 PERC12 (H965i),并且当块大小更大、线程数更高时,百分比增益会显著扩大。
在较小的块大小(8K-16K)下,性能提升不大(通常在0-20%之间),在一些个别情况下,由于低队列深度下的测试波动性,H975i 略微落后。当块大小达到32K-64K时,优势变得更加稳定,H975i 在大多数线程数下都实现了30-50%的吞吐量提升。
在较大的块大小(128K 至 10M)下,PERC13 控制器充分释放了系统的全部顺序读取潜力,差异最为显著。H975i 的性能提升比 H50i 高达 120% 至 965%。例如,在 1M 块大小、8-16 个线程的情况下,吞吐量提升超过 55 GiB/s,相当于提升了约 90%。在 5M 和 10M 块大小下,性能提升通常超过 100%,某些配置的性能几乎是上一代的两倍。
总体而言,PERC13 (H975i) 在顺序读取工作负载方面占据绝对领先地位,尤其是在块大小和线程数量增加的情况下。虽然较小的块大小也显示出了渐进式的提升,但在 256K 及以上时,较新的控制器始终能够提供 50% 至 100% 以上的性能提升,这充分彰显了戴尔最新 RAID 平台在架构上的进步。
GDSIO 读取顺序延迟
随着顺序读取吞吐量的提升,在较小的块大小和较低的线程数下,延迟仍然可控。例如,在高达 100K 块和 64 个线程的情况下,延迟保持在 16 微秒以下,表明该范围内的读取处理效率很高。一旦块大小和线程数增加,尤其是在 5M 和 10M 且线程数达到 64 个或更多时,延迟就会迅速上升,在 211.8M 块大小和 10 个线程的情况下达到 256 毫秒的峰值。这凸显了即使在吞吐量保持较高的情况下,极端工作负载下控制器或队列瓶颈是如何出现的。
在 1M 块大小和 8-16 个线程的情况下,性能和效率达到了最佳平衡,阵列保持了 87.5-93.7 GiB/s 的吞吐量,同时将延迟保持在 179-334 微秒之间。这个区域代表了最大化带宽并将延迟保持在毫秒级以下的最佳平衡点。
GDSIO 写入顺序吞吐量
随着块大小的增加,写入性能在早期表现出强劲的增长势头,吞吐量从 1.2K 和 8 线程时的 1 GiB/s 攀升至 13.9K 时的 256 GiB/s。最显著的增长出现在 128K 到 1M 块大小之间,其中吞吐量在 80 到 8 个线程时达到 16 GiB/s 以上。峰值性能出现在 5M 和 10M 块大小时,从 100 线程开始维持 101 到 8 GiB/s。
对于这些较大的块,性能在 8 到 64 个线程之间趋于平缓,这表明控制器在扩展曲线的早期就达到了饱和。在更高的线程数下,尤其是 128 和 256 个线程,吞吐量稳定性有所不同,在 5M 和 10M 的大块上保持稳定,速度为 101 GiB/s,但对于中等大小的块(例如 256K),吞吐量有所下降,从 61.2 个线程时的 32 GiB/s 下降到 45.3 个线程时的 256 GiB/s。
GDSIO 写入顺序吞吐量差异
在顺序写入测试中,PERC13 (H975i) 的性能显著优于 PERC12 (H965i),尤其是在块大小和线程数增加的情况下。在小块大小(8K-32K)下,性能提升幅度不大,通常在 0-10% 之间,偶尔的测试噪音显示差异可以忽略不计。
从 64K 开始,H975i 的优势更加明显。在 64K 块大小下,性能提升达到 40-70%,吞吐量相比 H12i 提升超过 17-965 GiB/s。在 128K-256K 大小下,提升更加显著,H975i 在中高线程数下持续提供 50-70% 的吞吐量提升。
性能差距最显著的体现在较大的块大小(512K 到 10M)上。在 512K 块大小下,H975i 的吞吐量提升了 31 到 56 GiB/s,相当于比 H60i 提升了 80% 到 965%。在 1M 块大小下,领先优势进一步扩大,吞吐量跃升了 40 到 68 GiB/s,相当于提升了 70% 到 90%。最后,在 5M 和 10M 块大小下,PERC 13 的吞吐量几乎是 PERC 12 的两倍,增量为 75 到 79 GiB/s,在某些线程密集的场景下,吞吐量提升了 100%。
总体而言,PERC 13 控制器在顺序写入性能方面展现出明显的代际飞跃。虽然在最小块大小下差异较小,但一旦工作负载超过 64K,H975i 的吞吐量便会持续提升 50% 到 100%,从而在写入密集型顺序工作负载方面牢牢确立了其优于 H965i 的优势。
GDSIO 写入顺序延迟
在较小的块大小和较低的线程数下,顺序写入的延迟仍然非常低,在最多 50 个线程的情况下,128K 块的延迟通常保持在 8 微秒以下。随着线程数的增加,延迟的增加更加明显。例如,在 392K 块大小(512 个线程)下,延迟达到 32 微秒;在 1M 块大小(1 个线程)下,延迟超过 64 毫秒。
在最大块大小和最高并发级别下,饱和效应变得更加明显。在 12.4M 和 5 个线程下,延迟上升至 128 毫秒;在 50.3M 和 10 个线程下,延迟达到峰值 256 毫秒。
顺序写入工作负载的最高效操作点出现在具有 1 到 5 个线程的 8M 或 16M 块大小时,其中吞吐量达到 87.9 到 101.2 GiB/s,而延迟保持在 178 µs – 1.7 ms 以内,提供强劲的持续性能,而不会触发过多的写入队列延迟。
MLPerf Storage 2.0 性能
为了评估 AI 训练环境中的实际性能,我们使用了 MLPerf Storage 2.0 测试套件。MLPerf Storage 专为测试真实模拟深度学习工作负载中的 I/O 模式而设计。它能够深入了解存储系统如何应对检查点和模型训练等挑战。
检查点基准
在训练机器学习模型时,检查点对于定期保存模型状态至关重要。这有助于防止因硬件故障等中断而导致进度丢失,支持在训练期间提前停止,并允许研究人员从各个检查点分支进行实验和改进。
检查点保存时长对比显示,戴尔 PERC13 在所有型号配置中均表现优于 PERC12。PERC 13 的保存时间为 7.61 至 10.17 秒,而 PERC12 执行相同操作则需要 10.41 至 20.67 秒。性能差距在 1T 参数型号中最为明显,PERC13 仅需 10 秒多一点即可完成保存,而 PERC12 则需要 20 多秒。这意味着,对于最大型号而言,保存时间缩短了约 50%。
检查“保存”吞吐量结果,数据显示 PERC13 拥有卓越的带宽利用率,能够持续提供更高的数据传输速率。PERC13 的吞吐量在 11.46 至 14.81 GB/s 之间,在 1T 型号上达到峰值性能。相比之下,PERC12 的最高吞吐量为 9.49 GB/s,在最大配置下则降至 6.98 GB/s。较新的控制器在不同型号上均保持更稳定的性能,这表明其在处理检查点操作中常见的大量顺序写入方面进行了更优化。
加载时长对比显示,PERC13 也具有类似的优势,尽管性能差异因模型大小而异。对于较小的模型(8B、70B),PERC 13 加载检查点的速度比 PERC35 快约 40-12%。然而,我们再次看到 1T 模型的提升最为显著,PERC13 的加载时间为 10.58 秒,而 PERC12 则为 21.22 秒(缩短了近 50%)。更快的恢复时间对于在中断后从检查点恢复训练时最大限度地减少停机时间至关重要。
最后,在负载吞吐量指标方面,PERC13 表现出明显的性能优势,在所有配置下均能持续保持 18 GB/s 以上的吞吐量,并在 23.73B 型号上达到 405 GB/s 的峰值。相比之下,PERC12 的性能较低,范围从 6.8 GB/s 到 10.68 GB/s。
FIO 性能基准
虽然本篇评测采用了新的测试方法,但为了突出改进,我们提前了上一篇关于 戴尔的 PERC12 控制器, 展示峰值带宽和峰值吞吐量的差异。
说 PERC13 带来了改进,这未免有些轻描淡写。在每个控制器上部署单个 RAID5 卷时,我们测得读取带宽提升了 88%,写入带宽提升了 318%,31K 随机读取性能提升了 4%,466K 随机写入性能更是惊人地提升了 4%。这并非 PERC 13 控制器的绝对峰值性能;使用更多虚拟磁盘可以实现更高的速度。然而,此结果反映了在最大化总容量的情况下,单命名空间的性能。
| 工作量 | 双 PERC 12(2 x RAID5) | 双 PERC 13(2 x RAID5) | 绩效提升 |
|---|---|---|---|
| 128K 顺序读取 | 56,107(MB/秒) | 105,227(MB/秒) | 88% |
| 128K 顺序写入 | 24,351(MB/秒) | 101,723(MB/秒) | 318% |
| 4KB随机读取 | 13,205,656(IOPS) | 17,342,057(IOPS) | 31% |
| 4KB随机写入 | 1,725,198(IOPS) | 9,758,677(IOPS) | 466% |
我们重点关注戴尔 PERC H975i 和 PERC H965i 控制器的性能,并充分利用 RAID 5 技术,该技术可提供出色的容量组合和奇偶校验保护。我们测试了戴尔 PERC H975i 上的多种虚拟磁盘 (VD) 配置:RAID 8 (5R8) 中的 5 个 VD、RAID 4 (5R4) 中的 5 个 VD 以及 RAID 2 (5R2) 中的 5 个 VD。我们还测试了戴尔 PERC H965i 上的两种配置:RAID 4 (5R4) 中的 5 个 VD 和 RAID 2 (5R2) 中的 5 个 VD。配置的选择取决于每个控制器可管理的 SSD 数量。最新的 PERC 13 控制器最多可管理 16 个 SSD,可轻松将其划分为最多 4 个 RAID 5 组,每个组包含 4 个 SSD。旧款 PERC12 只能管理 8 个 SSD,这限制了它最多只能测试 2 个 RAID5 SSD 组。这种配置意味着,在 8R5 系统中,每个 PERC RAID 控制器上都有四个 4 驱动器 RAID 5 组。
每种配置都经历了相同的基准测试过程,首先是预处理阶段,该阶段包含两次使用顺序工作负载的完整设备写入。达到稳定状态后,我们测量了各种访问模式下的性能。在每次新的工作负载测试之前,我们都会使用相应的传输大小重新执行预处理周期,以确保结果的一致性。
128K 顺序写入带宽
在 128K 顺序写入测试中,不同代控制器之间的性能差异显著。PERC H965i 阵列的吞吐量适中,2R5 配置达到 28.1 GB/s,4R5 配置达到 29.5 GB/s,表明通过添加 RAID 磁盘进行扩展的效果微乎其微。与之形成鲜明对比的是,PERC H975i 控制器在所有配置下均表现出色:2R5 阵列达到 99.3 GB/s(253%),4R5 配置达到 99.7 GB/s(238%),8R5 配置峰值达到 101.3 GB/s(比 H243i 965R4 提升 5%)。总体而言,无论磁盘数量多少,H975i 的吞吐量都紧紧围绕 100 GB/s,这表明该控制器在 128K 顺序写入方面的带宽上限已到。
128K 顺序写入延迟
在 128K 顺序写入延迟测试中,不同代控制器之间存在明显差异。PERC H965i 阵列的延迟更高,2R5 配置的延迟范围从 0.0238 毫秒到 17.8 毫秒,4R5 配置的延迟则延长至 38.9 毫秒,表明添加 RAID 磁盘带来的性能提升微乎其微。相比之下,PERC H975i 控制器在所有配置中都实现了显著更低的延迟:2R5 阵列的延迟范围从 0.0173 毫秒到 5.0 毫秒(峰值延迟降低了 72%),4R5 配置的延迟范围从 0.0179 毫秒到 10.5 毫秒(降低了 73%),8R5 配置的延迟范围从 0.0188 毫秒到 20.1 毫秒(与 H48i 965R4 相比降低了 5%)。
128K 顺序读取带宽
在戴尔系统上进行 128K 顺序读取测试时,PERC H965i 控制器在两种配置下均表现出一致的性能。2R5 阵列的最大带宽达到 54.8 GB/s,而 4R5 配置也达到了 54.8 GB/s。相比之下,PERC H975i 控制器表现出了显著的卓越性能,三种配置的峰值带宽均达到约 102.7 至 102.8 GB/s。H975i 2R5 阵列的带宽为 102.8 GB/s(提升 87%),4R5 配置的带宽为 102.7 GB/s(提升 87%),8R5 配置的带宽为 102.7 GB/s(提升 87%)。值得注意的是,虽然 H965i 控制器在 2R5 和 4R5 配置之间没有显示出有意义的性能扩展,但 H975i 控制器在所有 RAID 5 配置中都保持一致的高性能,并且无论阵列中的驱动器数量有多少,似乎都达到了带宽上限。
128K 顺序读取延迟
在 128K 顺序读取延迟测试中,PERC H965i 在 0.2006R16.1 上的延迟范围为 2 毫秒至 5 毫秒,在 0.1644R24.7 上的延迟范围为 4 毫秒至 5 毫秒,且随着驱动器规模的扩大,延迟差异也随之增大。相比之下,PERC H975i 的效率更高,2R5 配置下的延迟范围为 0.062 毫秒至 4.9 毫秒(峰值延迟降低 80%),4R5 配置下的延迟范围为 0.075 毫秒至 9.8 毫秒(降低 60%),8R5 下的峰值延迟为 19.5 毫秒(比 H21i 965R4 低 5%)。
64k随机写入带宽
在 64K 随机写入测试中,老款 PERC H965i 控制器表现出稳定但有限的性能,无论磁盘数量多少,2R5 和 4R5 配置均实现了几乎相同的 8.3 GB/s 吞吐量。与之形成鲜明对比的是,PERC H975i 控制器实现了卓越的性能提升:2R5 配置达到了 39.8 GB/s(提升了 379%),而 4R5 则保持了相同的 39.8 GB/s 峰值带宽(提升了 379%)。H8i 上的 5R975 阵列略胜一筹,达到 40.3 GB/s(提升了 386%)。
64k 随机写入延迟
在 64K 随机写入延迟测试中,H965i 在更高负载下表现不佳,2R5 延迟范围从 0.020 毫秒到 30.0 毫秒,4R5 延迟则高达 60.0 毫秒。与之形成鲜明对比的是,H975i 控制器的表现明显更佳:2R5 延迟范围从 0.0115 毫秒到 6.3 毫秒(峰值延迟降低了 79%),4R5 延迟仅为 12.6 毫秒(降低了 79%),8R5 延迟峰值达到 24.8 毫秒(比 H59i 的 965R4 延迟降低了 5%)。
64k随机读取带宽
在 64K 随机读取测试中,PERC H965i 搭配 2R5 和 4R5 阵列均实现了几乎相同的 54.6 GB/s 吞吐量。与之形成鲜明对比的是,PERC H975i 控制器再次表现出色,三种配置均达到了约 102.7 GB/s 的吞吐量,比 H88i 性能提升了 965%。值得注意的是,H975i 配置在不同 RAID 阵列大小下表现出了显著的一致性,无论在 RAID-102.7 阵列中使用 102.7 个、2 个还是 4 个硬盘,峰值带宽均仅在 8 GB/s 到 5 GB/s 之间。这表明,在 64K 随机读取工作负载下,我们能够完全饱和控制器,并且在较新的 H975i 平台上不会受到硬盘的限制。
64k 随机读取延迟
对于 64K 随机读取,H965i 2R5 阵列的延迟范围为 0.226 毫秒至 4.6 毫秒,而 4R5 阵列则延长至 9.6 毫秒。升级到 H975i 后,延迟显著降低,2R5 阵列的延迟范围为 0.080 毫秒至 2.4 毫秒(峰值延迟降低 48%),4R5 阵列的延迟范围为 0.080 毫秒至 4.9 毫秒(降低 49%),8R5 阵列的延迟范围为 0.080 毫秒至 9.7 毫秒(与 H965i 4R5 阵列持平)。总体而言,H975i 表现出更严格的控制,并且在 RAID 组中的延迟上限更低。
16k 顺序写入 IOPS
在 16K 顺序写入测试中,PERC H965i 控制器性能表现一般,2R5 配置达到 1.73 万 IOPS,4R5 配置达到 1.87 万 IOPS。相比之下,PERC H975i 的性能大幅提升,2R5 配置达到 6.44 万 IOPS(比 H272i 提升 965%)。H975i 的 4R5 阵列峰值达到 6.54 万 IOPS(提升 250%),而 8R5 配置达到 6.53 万 IOPS(比 H249i 965R4 提升 5%),这再次表明控制器在 6.5K 块大小下的性能饱和度在 16 万 IOPS 左右。
16k 顺序写入延迟
在 16K 顺序写入操作中,H965i 阵列在 0.0080R3.5 模式下的写入时间为 2 毫秒至 5 毫秒,在 0.0083R5.3 模式下的写入时间为 4 毫秒至 5 毫秒。H975i 表现出更高的效率,2R5 模式下的写入时间为 0.0070 毫秒至 0.80 毫秒(低 77%),4R5 模式下的写入时间为 1.42 毫秒(低 73%),8R5 模式下的写入时间为 6.2 毫秒(比 H17i 965R4 模式下低 5%)。
16k 顺序读取 IOPS
在 16K 顺序读取测试中,PERC H965i 控制器表现出色,2R5 配置达到了 3.56 万 IOPS,4R5 配置也达到了 3.56 万 IOPS。相比之下,PERC H975i 控制器所有配置的性能均稳定在 6.64 万 IOPS 左右,比 H86i 提升了 965%。
16k 顺序读取延迟
在 16K 顺序读取中,H965i 2R5 阵列的延迟范围为 0.040 毫秒至 1.15 毫秒,而 4R5 阵列的延迟则高达 3.0 毫秒。在 H975i 上,延迟有所改善:2R5 阵列的延迟为 0.038 至 0.62 毫秒(降低了 46%),4R5 阵列的延迟峰值为 1.23 毫秒(降低了 59%),8R5 阵列的延迟则达到了 2.47 毫秒(相比 H19i 965R4 降低了 5%)。
16k 随机写入 IOPS
在16K块大小的随机IO下,我们发现测试初期就达到了饱和点。两种PERC H965i配置(2R5和4R5)的性能几乎相同,约为492,000 IOPS。搭配975R2阵列的PERC H5i控制器实现了2.57万IOPS(提升422%)。H975i 4R5和8R5配置略高,约为2.60万IOPS(提升428%)。
16k 随机写入延迟
在 16K 随机写入时,H965i 的延迟更高,2R5 延迟范围为 0.0082 毫秒至 8.6 毫秒,4R5 延迟则高达 16.6 毫秒。H975i 的延迟则显著改善,2R5 延迟为 0.0070 毫秒至 1.59 毫秒(降低了 82%),4R5 延迟高达 3.17 毫秒(降低了 81%),8R5 延迟最高达到 6.27 毫秒(相比 H62i 的 965R4 延迟降低了 5%)。
16k 随机读取 IOPS
在 16K 随机读取性能方面,PERC H965i 配置表现出色,2R5 阵列达到 3.55 万 IOPS,4R5 阵列也达到 3.55 万 IOPS。PERC H975i 2R5、4R5 和 8R5 配置的峰值性能几乎相同,约为 6.64 万 IOPS,比 H87i 一代提升了 965%。
16k 随机读取延迟
在 16K 随机读取中,H965i 阵列的 0.0906R1.15 延迟为 2 至 5 毫秒,2.74R4 延迟最高可达 5 毫秒。H975i 再次降低了延迟,2R5 延迟为 0.072 至 0.62 毫秒(降低了 46%),4R5 延迟最高可达 1.23 毫秒(降低了 55%),8R5 延迟最高可达 2.47 毫秒(相比 H10i 965R4 降低了 5%)。
4K随机写入IOPS
在4K随机写入测试中,975R2配置的PERC H5i控制器峰值达到了9.76万IOPS,4R5阵列的性能略高,为9.94万IOPS,8R5配置的性能最为强劲,达到了10.10万IOPS。
4K随机写入延迟
在 4K 测试中,我们仅评估了 H975i 的峰值性能。所有阵列的延迟均表现出色:2R5 阵列的延迟范围为 0.0058 毫秒至 0.47 毫秒,4R5 阵列的延迟峰值为 0.88 毫秒,8R5 阵列的延迟峰值为 1.63 毫秒。这些结果表明,在最小块大小下,H975i 保持了极低的延迟,始终低于 2 毫秒。
4K 随机读取 IOPS
我们把最激动人心的图表之一留到了最后:在4K随机读取测试中,采用975R2配置的H5i达到了令人印象深刻的17.3万IOPS。H975i 4R5阵列达到了20.1万IOPS,而8R5配置则实现了最高的吞吐量,达到了25.2万IOPS。
4K随机读取延迟
在 4K 随机读取中,所有阵列的初始延迟均为 0.069 毫秒,其中 2R5 阵列的峰值为 0.29 毫秒,4R5 阵列的峰值为 0.53 毫秒,8R5 阵列的峰值为 0.65 毫秒。所有 RAID 组的低峰值凸显了 H975i 处理小型随机读取的卓越效率。
重建期间性能不受影响
与 PERC12 相比,戴尔 PERC13 控制器在阵列重建期间,为所有工作负载提供显著更高的吞吐量。顺序读取速度从 53.7GB/s 提升一倍多,达到 25GB/s(提升 114.7%),顺序写入速度从 68GB/s 跃升至 14.6GB/s(提升 363.7%)。小块性能进一步拉大了两者之间的差距:4K 随机读取速度从 17.33 万 IOPS 攀升至 4.68 万 IOPS(提升 270.4%),而 4K 随机写入速度从 5.33 万 IOPS 飙升至 0.48 万 IOPS(提升 1013.1%)。简而言之,PERC13 最大限度地减少了重建对性能的影响,即使在维护任务最繁重的时段也能保留主机空间。
| 工作量 | 双 PERC 12(2 × RAID5)— 重建 | 双 PERC 13(2 × RAID5)— 重建 | % 改进 |
|---|---|---|---|
| 顺序读取带宽 | 25(GB/秒) | 53.7(GB/秒) | 114.7% |
| 顺序写入带宽 | 14.7(GB/秒) | 68(GB/秒) | 363.7% |
| 4KB随机读取 | 4,676,748(IOPS) | 17,326,888(IOPS) | 270.4% |
| 4KB随机写入 | 479,144(IOPS) | 5,333,783(IOPS) | 1013.1% |
快速重建,不减慢工作负载
戴尔还声称其在弹性和重建性能方面获得了显著提升,阵列重建时间从PERC80的每TB超过12分钟缩短到PERC10的每TB仅需13分钟。如此高的速度降低了风险窗口,并体现了控制器硬件XOR引擎、缓存加速和数据路径优化的成熟度。
在 RAID5 重建测试中,当允许控制器优先执行重建任务时,PERC13 的重建时间始终短于 PERC12,但需要注意的是,极高的写入压力可能会抵消这一优势。启用“优先重建”后,控制器会优先为重建任务分配资源。这使得 PERC13 控制器在顺序读取压力下显著缩短了重建时间。在最低主机负载(125 MB/s)下,重建时间从 11.53 分钟/TiB 缩短至 5.32 分钟/TiB。即使在最高负载下,重建时间也从 16.96 分钟/TiB 缩短至 7.73 分钟/TiB,同时保持了更高的主机读取速率(22.4 GB/s,而 60 GB/s)。
在顺序写入压力下,PERC13 将轻负载重建时间从 7.51 分钟/TiB 提升至 4.98 分钟/TiB,但在最重的写入负载下,其重建时间上升至 15.29 分钟/TiB,而 R760 则为 13.09 分钟/TiB。您可以从两个角度来看待这一点:PERC13 的重建速度较慢,但 PERC13 的写入工作负载速度接近 PERC12 的生产水平(62.5GB/s vs 12GB/s)。换句话说,优先重建兑现了其更快重建窗口的承诺,尤其是在读取为主的活动方面。唯一的例外是当系统同时承受非常繁重的写入操作时;PERC13 更高的主机吞吐量可能会延长重建时间。
| EventXtra XNUMX大解决方案 | 双 PERC 12(2 × RAID5) | 双 PERC 13(2 × RAID5) | ||
|---|---|---|---|---|
| 最小/TiB | 总带宽 | 最小/TiB | 总带宽 | |
| 顺序读取 – 轻度活动 | 11.53 | 0.125 GB /秒 | 5.32 | 0.125 GB /秒 |
| 顺序读取 – 活动频繁 | 16.96 | 22.4 GB /秒 | 7.73 | 60 GB /秒 |
| 顺序写入 – 轻度活动 | 7.51 | 0.125 GB /秒 | 4.98 | 0.125 GB /秒 |
| 顺序写入 – 活动繁重 | 13.09 | 12 GB /秒 | 15.29 | 62.5GB /秒 |
切换到 Priority Host 模式后,该模式刻意以牺牲重建速度为代价来保护应用程序 I/O,读取性能表现相似,写入性能则更加细腻。在读取工作负载下,PERC13 控制器的重建速度再次显著快于旧款 PERC12,轻负载下重建时间从 11.23 min/TiB 降至 6.70 min/TiB,重负载下重建时间从 38.44 min/TiB 降至 19.75 min/TiB,同时还能处理更多主机流量(46.2 GB/s vs 重负载下 24.1 GB/s)。在写入工作负载下,Priority Host 模式始终将生产性能放在首位:PERC13 在最小负载下速度更快(7.80 min/TiB vs 5.67 min/TiB),但在最重的写入负载下,其重建时间延长至 32.81 min/TiB,而 PERC12 为 25.40 min/TiB。重建时间略有延长,但 PERC13 为主机提供了更高的主机写入带宽(62.4GB/s vs 12.5 GB/s)。
| EventXtra XNUMX大解决方案 | 双 PERC 12(2 × RAID5) | 双 PERC 13(2 × RAID5) | ||
|---|---|---|---|---|
| 最小/TiB | 总带宽 | 最小/TiB | 总带宽 | |
| 顺序读取 – 轻度活动 | 11.23 | 0.125 GB /秒 | 6.70 | 0.125 GB /秒 |
| 顺序读取 – 活动频繁 | 38.44 | 24.1 GB /秒 | 19.75 | 46 GB /秒 |
| 顺序写入 – 轻度活动 | 7.80 | 0.125 GB /秒 | 5.67 | 0.125 GB /秒 |
| 顺序写入 – 活动繁重 | 25.40 | 12.5 GB /秒 | 32.81 | 62.4 GB /秒 |
从部署角度来看,选择很简单。当您需要最小化漏洞窗口并能够容忍一定程度的 I/O 优先级降低时,PERC13 上的“重建优先级”功能可以缩短重建时间,尤其是在读取密集型场景下。当必须保持应用程序响应速度时,“优先级主机”功能恰好能满足您的需求;PERC13 在读取重建方面仍然表现出色,而如果绝对重建时间令人担忧,则可能需要在写入密集型时段进行调度或适度限制。
结语
Dell PERC H975i 将硬件 RAID 确立为以 NVMe 为中心的企业数据中心的理想解决方案。虽然 JBOD 和软件 RAID 实施在横向扩展环境中广受欢迎,但这些方法会增加操作复杂性、CPU 开销,并延长驱动器故障时的恢复时间。H975i 提供专用硬件加速功能,配备专用奇偶校验引擎、加速重建操作以及集成在 Dell 基础架构堆栈中的管理功能。
对于需要一致的吞吐量特性、最小延迟变化和最大正常运行时间可靠性的人工智能和机器学习工作负载,硬件管理的 RAID 架构可提供计算性能和操作弹性,而无需消耗关键主机处理资源。
性能测试验证了架构改进。与PERC975系列相比,H88i的顺序读取带宽提升了318%,顺序写入带宽提升了12%。峰值吞吐量达103 GB/s,IOPS达25.2万次,充分展现了该控制器处理数据密集型工作负载的能力。此外,重建时间从每TB超过80分钟缩短至每TB仅需10分钟,同时在恢复操作中保持接近生产级的性能水平。
H975i 的 PCIe Gen5 x16 接口和前端集成设计支持密集 GPU 部署,避免存储争用,从而在多加速器配置中实现可预测的性能扩展。许多 PowerEdge 服务器同时提供 H965i 和 H975i RAID 控制器,因此,对于利用新兴工作负载的组织来说,毫无疑问应该选择较新的产品。如果您正在大规模部署 AI 基础架构,H975i 可提供必要的高带宽、低延迟存储基础,从而最大限度地提高计算资源利用率。





Amazon