存储评论网

美光 9550 MAX 评测:兼顾 AI、DB 和分析的均衡性能

企业版  ◇  SSD

2024 年 7 月,美光宣布 9550 NVMe SSD系列,这是一款专为下一波企业存储部署而打造的第五代平台。当时,我们报道了此次发布,并重点介绍了两个产品层级:面向读取密集型环境的 PRO 和面向混合用途工作负载的 MAX。美光科技随后向我们提供了 9550 MAX 的样品,让我们能够对该系列中这款更高耐用性产品进行全面的企业实验室测试。

美光 9550 Max 12.8 TB 前端。

9550 MAX 专为读写平衡的混合用途工作负载而设计,其耐用性和持续性能与原始吞吐量同等重要。这使其成为数据库、分析、AI/ML 训练流程以及涉及高持续交易率的金融应用的理想选择。

容量范围从 3.2TB 到 25.6TB,涵盖从小型应用驱动器到高密度存储节点的高容量整合等各种部署场景。9550 MAX 提供 U.2 和 E3.S 两种规格,为企业从现有的 2.5 英寸基础设施过渡到下一代 EDSFF 平台提供灵活性。

与注重读取性能但耐用性较低的 PRO 系列相比,MAX 可提供高达每日三次的全盘写入 (DWPD),使其成为写入密集型或均衡型工作负载环境的理想之选。Pro 和 Max 系列均具备 PCIe Gen5 性能、NVMe 2.0 和 (OCP) 2.0-2.5 兼容性;9550 系列 SSD 以其卓越的速度和可靠性脱颖而出,专为大规模应用而设计。

位于 美光 7600 系列 9550 系列 SSD 以卓越的延迟和能效服务于主流数据中心工作负载,为需要在负载下实现最大一致性和吞吐量的数据密集型环境提供更高的耐用性、更广泛的容量选择和卓越的持续性能

美光 9550 MAX 规格

下表概述了美光 9550 MAX 系列 SSD,重点介绍了其 U.2 和 E3.S 型号的外形尺寸、性能指标、耐用性等级和容量选项。

美光 9550 MAX 规格(U.2 / E3.S)
用例 混合用途(每天 3 次驱动器写入)
接口/协议 PCIe Gen5 x4,NVMe v2.0b
NAND闪存 美光 232 层 3D TLC NAND
OCP 合规性 OCP 2.0 (r21)
可靠性 MTTF:2.0万小时 @ 0–55°C;2.5万小时 @ 0–50°C | UBER < 1 个扇区/1017 读取位数 | 5 年保修
功率(平均 RMS) ≤ 18 W 顺序读取;≤ 18 W 顺序写入
工作温度 0 - 70°C
容量和性能(9550 MAX)
容量 顺序。 读取(MB/秒) 顺序。 写入(MB/秒) 随机读取(K IOPS) 随机写入(K IOPS) 70/30 读/写(千 IOPS)
3.2TB 14,000 10,000 3,000 540 640
6.4TB 14,000 10,000 3,300 640 720
12.8TB 14,000 10,000 3,300 820 1,000
25.6TB 14,000 10,000 3,300 1,200 1,300
典型延迟(µs)
阅读 60
填写 15
耐久度(写入的总字节数,TB)
容量 RND TBW 序列号 笔记
3.2TB 17,520 37,200 最大(每日 3 次 DWPD)
6.4TB 35,040 74,200 最大(每日 3 次 DWPD)
12.8TB 70,080 143,100 最大(每日 3 次 DWPD)
25.6TB 140,160 282,600 最大(每日 3 次 DWPD)

Micron 9550 MAX 设计和构建

美光科技将 9550 MAX 定位为混合用途企业级 SSD,旨在实现 3 DWPD 的均衡读/写工作负载。它配备 PCIe Gen5 x4 接口,支持 NVMe 2.0b 协议,并采用美光科技的 232 层 3D TLC NAND 技术,以强调在持续负载下实现一致的延迟。

从物理上讲,该硬盘系列涵盖 U.2 和 E3.S 两种规格,使运营商能够灵活地将其放入当今的 2.5 英寸 NVMe 托架中,或迁移到更高密度的 EDSFF 部署中,而无需更换平台。符合 OCP 2.0 和 2.5 标准进一步增强了这种多功能性,使 9550 MAX 能够满足现代超大规模和企业服务器中常见的机械、散热和管理要求。

美光 9550 Max 后部。

从功耗和散热角度来看,美光科技规定连续读写操作的平均 RMS ≤18 W,这完全符合 U.2 和 E3.S 系统典型的前置散热方案,并有助于在长时间混合工作负载下保持性能一致性。额定工作温度为 0–70 °C,为管理员在各种机箱气流设计中提供舒适的散热空间。

可靠性目标体现了 MAX 系列对耐用性的重视:MTTF 高达 2.5 万小时(较高环境下为 2.0 万小时),UBER < 1e-17,并提供五年质保。容量范围涵盖 3.2 TB 至 25.6 TB,美光科技公布了较低的典型延迟数据(读取 60 µs / 写入 15 µs),以及 Gen5 吞吐量额定值(读取高达 14 GB/s / 写入高达 10 GB/s)和可观的混合 IO 数量。在实际的混合用途部署中,这些特性比峰值规格更为重要。

美光 9550 MAX 性能

路测平台

我们选择运行 Ubuntu 22.04.02 LTS 的 Dell PowerEdge R760 作为本次评测所有工作负载的测试平台。配备 串行电缆的 Gen5 JBOF, 它与 U.2、E1.S、E3.S 和 M.2 SSD 广泛兼容。我们的测试系统配置概述如下。

  • 2 个英特尔至强金牌 6430(32 核,2.1GHz)
  • 16个64GB DDR5-4400
  • 480GB 戴尔 BOSS 固态硬盘
  • 串行电缆 Gen5 JBOF
驱动器比较

DLIO 检查点基准

为了评估 SSD 在 AI 训练环境中的实际性能,我们使用了数据和学习输入/输出 (DLIO) 基准测试工具。DLIO 由阿贡国家实验室开发,专门用于测试深度学习工作负载中的 I/O 模式。它能够深入了解存储系统如何应对检查点设置、数据提取和模型训练等挑战。下图展示了两款硬盘如何在 36 个检查点之间处理整个过程。在训练机器学习模型时,检查点对于定期保存模型状态至关重要,可防止在中断或断电期间丢失进度。这种存储需求需要强大的性能,尤其是在持续或密集的工作负载下。我们使用了 2024 年 8 月 13 日发布的 DLIO 基准测试 2.0 版。

为了确保基准测试能够反映真实场景,我们基于 LLAMA 3.1 405B 模型架构进行测试。我们使用 torch.save() 实现检查点,以捕获模型参数、优化器状态和层状态。我们的设置模拟了一个八 GPU 系统,并实施了一种混合并行策略,将四路张量并行和双向流水线并行处理分布在八个 GPU 上。此配置产生的检查点大小为 1,636 GB,反映了训练现代大型语言模型的需求。

在本次基准测试中,美光 9550 MAX 12.8TB 脱颖而出,成为当之无愧的领导者。在完整的 18 个检查点运行过程中,它保持了最低的平均完成时间,范围从 457 秒到 575 秒。该硬盘表现出色,检查点之间的差异极小,这表明其固件设计均衡,并针对混合读/写工作负载进行了优化。

紧随其后的是美光 7600 MAX 6.4TB,其运行时间在 459 秒至 586 秒之间。虽然其平均速度仍然具有竞争力,但在测试点 4 和 7 之间出现了短暂的性能波动,直到测试结束时才趋于稳定。尽管如此,它仍然稳居顶级水平,在持续运行 AI 和 HPC 工作负载时表现出卓越的效率。

美光 9550 7.68TB 的表现略逊于两款旗舰型号,成绩范围从 458 秒到 582 秒。它保持了稳定的扩展性,并与高端 MAX 硬盘保持竞争力,进一步巩固了美光 9550 平台的领先优势。

在测试的其他企业级 SSD 中,Solidigm PS1010、SanDisk SN861 和 Kingston DC3000ME 占据了中等水平,大多数检查点的完成时间都在 450 秒到 610 秒之间。Pascari X200P 的性能稳定性最差,在运行中期达到了 690 多秒,直到接近尾声才稳定下来。

在本次平均测试中,Solidigm PS1010 7.68TB 以最快的平均完成时间领跑各组,三次测试的平均完成时间范围从 458 秒到 564 秒不等。该硬盘表现出了极佳的一致性,在运行之间保持了较低的差异,并在混合 I/O 工作负载下展现了强大的效率。

SanDisk SN861 7.68TB 紧随其后,其结果几乎相同,平均值在 461 秒到 553 秒之间,证实了其能够以最小的退化提供可靠的检查点性能。

紧随其后的是美光 9550 7.68TB,在相同测试中耗时 461 秒到 559 秒之间。其性能依然非常有竞争力,略微落后于领先者,同时在所有迭代中保持了稳定的扩展性和稳定的吞吐量。

美光 9550 MAX 12.8TB 和美光 7600 MAX 6.4TB 位列第五,平均得分略高,为 462–555 秒和 464–567 秒。两者在一段时间内都保持了一致的表现,但落后于容量较小的美光科技和两款领先的硬盘 固晶 和 SanDisk。

在该系列的其他产品中,金士顿 DC3000ME 和 帕斯卡里 X200P 的总体耗时最长,平均分别为 580 秒和 660 秒。这些结果反映出在持续检查点条件下,性能差距更大,尤其是在需要频繁写入持久存储的工作负载下。

FIO性能基准

为了衡量每款 SSD 在常见行业指标上的存储性能,我们利用了 FIO。每块 SSD 都经过相同的测试流程,其中包括一个预处理步骤:使用顺序写入工作负载对硬盘进行两次全盘填充,然后进行稳态性能测量。随着每种被测工作负载类型的变化,我们会根据新的传输大小再次进行预处理填充。

在本节中,我们重点关注以下 FIO 基准:

  • 128K 连续
  • 64K随机
  • 16K随机
  • 4K随机

128K 顺序写入(IODepth 16/NumJobs 1)

进入128K顺序写入测试,结果与我们在预处理过程中观察到的结果几乎相同。美光9550 Max(12.8TB)再次遥遥领先,保持10,957.9MB/s的速度,稳居榜首。金士顿DC3000ME(7.68TB)以8,477.4MB/s的速度紧随其后,Pascari X200P(7.68TB)则以8,369.7MB/s的速度紧随其后。

紧随其后的是 Solidigm PS1010(7,126.5MB/s)和 SanDisk DC SN861(7,116.5MB/s),而 Micron 7600 Max(6.4TB)以 6,960.6MB/s 的速度位居榜末。

128K 顺序写入延迟 (IODepth 16 / NumJobs 1)

谈到延迟,128K 顺序写入测试在 IODepth 为 16 的情况下运行,并执行单个作业,而预处理时队列深度更大,为 256。正如预期的那样,所有硬盘的延迟均显著下降。美光 9550 Max (12.8TB) 再次以 0.18 毫秒的最低延迟领先,展现了其以最小延迟维持最高吞吐量的能力。

金士顿 DC3000ME(7.68TB)紧随其后,为 0.24ms;Pascari X200P(7.68TB)紧随其后,为 0.24ms。与此同时,Solidigm PS1010(0.28ms)和 SanDisk DC SN861(0.28ms)的结果也相近,而美光 7600 Max(6.4TB)则以 0.29ms 的成绩垫底。

128K 顺序读取(IODepth 64 / NumJobs 1)

转到读取测试,128K 顺序读取测试中,各竞品 SSD 的成绩更加接近。Pascari X200P(7.68TB)以 14,242.1MB/s 的读取速度夺得桂冠,略高于 Solidigm PS1010(7.68TB)的 14,163.3MB/s,而 Micron 9550 Max(12.8TB)则以 14,047.5MB/s 的读取速度紧随其后。这三款 SSD 的持续顺序读取吞吐量在实际应用中差距很小。

金士顿 DC3000ME(7.68TB)的速度略低于前三名,为 13,513.8MB/s,而闪迪 DC SN861(7.68TB)的速度为 12,631.2MB/s。美光 7600 Max(6.4TB)的速度较低,为 11,240.5MB/s,是该组中唯一一款速度低于 12GB/s 门槛的硬盘。

128K 顺序读取延迟(IODepth 64 / NumJobs 1)

延迟方面,128K 顺序读取测试 (IODepth 64 / NumJobs 1) 凸显了顶级产品之间的激烈竞争。Pascari X200P (7.68TB) 以 0.56ms 领先,Solidigm PS1010 (0.56ms) 和美光 9550 Max (12.8TB) 的延迟均为 0.57ms,两者几乎旗鼓相当。这三款硬盘的性能实际上旗鼓相当,这与我们在吞吐量方面看到的差距不大相符。

紧随其后的是金士顿 DC3000ME(7.68TB),时间为 0.59ms;闪迪 DC SN861(7.68TB)则为 0.63ms;美光 7600 Max(6.4TB)则以 0.71ms 的成绩垫底,这与其较低的顺序读取带宽一致。

64K 随机写入

在 64K 随机写入测试中,美光 9550 Max (12.8TB) 展现出广泛的性能范围,从最低约 2.45GB/s 到最高 10.6GB/s,平均速度为 7.34GB/s。这不仅使其成为性能最佳的硬盘,也是唯一一款在更高队列深度下始终超过 10GB/s 的硬盘。美光 7600 Max (6.4TB) 表现出了稳定的一致性,但性能上限较低,从 2.39GB/s 到 6.8GB/s 不等,平均速度为 5.16GB/s。这使得它稳居第二梯队,落后于 9550 Max,但领先于榜单上的大多数其他竞争对手。

纵观其他产品,金士顿 DC3000ME(7.68TB)和闪迪 DC SN861(7.68TB)的传输速度稳定在 4-6GB/s 范围内,总体上具有竞争力,但无法达到美光的水平。Solidigm PS1010(7.68TB)和 Pascari X200P(7.68TB)的传输速度则处于较低水平,通常集中在 2-4GB/s 范围内,远远落后于这两款美光硬盘。

64K随机写入延迟

在延迟方面,美光 9550 Max(12.8TB)的表现最为稳定,平均延迟仅为 0.30 毫秒,即使在队列深度较大的情况下,峰值也低于 1.71 毫秒。美光 7600 Max(6.4TB)紧随其后,平均延迟略高,为 0.41 毫秒,最大值为 2.3 毫秒,在负载下仍能保持合理的控制。金士顿 DC3000ME 和闪迪 DC SN861 的表现处于中等水平,延迟通常在 0.05 毫秒到 2.7 毫秒之间。与此同时,Pascari X200P 和 Solidigm PS1010 的波动最为明显,在队列深度较大的情况下分别达到 4.1 毫秒和 6.0 毫秒。

64K 随机读取

在 64K 随机读取测试中,两款美光硬盘均表现出色,平均速度非常接近。美光 9550 Max (12.8TB) 的速度范围从最低的 0.49GB/s 到最高的 13.7GB/s,平均速度为 6.96GB/s。美光 7600 Max (6.4TB) 的表现也类似,最低速度略高,为 0.61GB/s,最高速度为 11.0GB/s,平均速度为 6.94GB/s。

从更广泛的图表中,我们可以看到 Solidigm PS1010 和 Pascari X200P 等硬盘能够在更高的队列深度下达到 13-14GB/s 的范围,这使得它们的峰值吞吐量略高于美光。金士顿 DC3000ME 在 12-13GB/s 的范围内紧随其后,而 SanDisk DC SN861 则略低,稳定在 12.3GB/s 左右。

64K随机读取延迟

在 64K 随机读取测试中,美光 9550 Max(12.8TB)保持了强劲的延迟表现,平均延迟为 0.25 毫秒,最低延迟为 0.12 毫秒,在高负载下最高可达 1.14 毫秒。美光 7600 Max(6.4TB)的数据非常相似,平均延迟为 0.26 毫秒,最低延迟为 0.10 毫秒,但最高延迟略有上升,达到 1.42 毫秒。两款美光产品整体延迟表现稳定,在大部分测试过程中与其他产品保持着紧密的对比。

纵观图表,Solidigm PS1010 和 Pascari X200P 的突发延迟略高,一般在 0.1 到 1.2 毫秒之间。与此同时,金士顿 DC3000ME 和闪迪 DC SN861 紧随其后,峰值略高于 1.2 毫秒。在所有测试的硬盘中,美光科技保持了竞争力和稳定性,与其他顶级产品之间仅存在细微的差异。

16K 顺序写入

在 16K 顺序写入测试中,美光 9550 Max(12.8TB)再次占据主导地位,吞吐量范围从最低的 0.85GB/s 到最高的 10.7GB/s,平均速度为 7.75GB/s。美光 7600 Max(6.4TB)紧随其后,性能范围较窄,从 0.84GB/s 到 6.8GB/s,平均速度为 5.63GB/s,这使其远远落后于 9550,但仍领先于大多数其他硬盘。

从更广泛的图表来看,金士顿 DC3000ME 和 Pascari X200P 在更高的队列深度下,速度集中在 6-8GB/s 范围内,互有胜负,但总体上落后于 9550 Max。美光 7600 Max 也处于这一水平,但更倾向于较低水平。Solidigm PS1010 的速度略低,在 5-6GB/s 范围内,而闪迪 DC SN861 的整体性能最差,经常低于 4GB/s,最低甚至只有 1GB/s。

16K 顺序写入延迟

在 16K 顺序写入延迟测试中,美光 9550 Max(12.8TB)再次展现出出色的响应能力,平均延迟为 0.12 毫秒,最低延迟为 0.018 毫秒,在高负载下峰值达到 0.75 毫秒。美光 7600 Max(6.4TB)紧随其后,平均延迟略高,为 0.18 毫秒,最低延迟为 0.018 毫秒,峰值达到 1.15 毫秒。

从图表来看,金士顿 DC3000ME 和 Pascari X200P 的延迟仍处于中等水平,一般在 0.05 至 1.2 毫秒之间,而 Solidigm PS1010 的延迟则有所上升,在较高队列深度时超过了 1.5 毫秒。SanDisk DC SN861 的延迟总体上表现最差,在压力下会超过 2.0 毫秒。

16K 顺序读取

在 16K 顺序读取测试中,两款美光硬盘均表现出色,但性能略有不同。美光 9550 Max(12.8TB)的读取速度范围从最低的 1.02GB/s 到最高的 12.5GB/s,平均吞吐量为 5.59GB/s。美光 7600 Max(6.4TB)的起始速度与 9550 Max 类似,为 1.03GB/s,峰值为 11.0GB/s,平均速度略高,为 6.08GB/s,在全程运行的一致性方面略胜 9550 Max。

从更广泛的图表来看,金士顿 DC3000ME 在更高的队列深度下飙升至领先地位,短暂突破了 12.8GB/s,而 Pascari X200P 和 Solidigm PS1010 也进入了 12GB/s 的范围。SanDisk DC SN861 略微落后,最高速度略低于 10GB/s。

16K 顺序读取延迟

在 16K 顺序读取测试中,美光 9550 Max(12.8TB)的延迟曲线范围从最低的 0.015 毫秒到最高的 0.78 毫秒,平均延迟时间为 0.15 毫秒。美光 7600 Max(6.4TB)的表现略逊一筹,最低延迟为 0.014 毫秒,最高延迟为 0.71 毫秒,平均延迟为 0.13 毫秒,这使得其在效率方面略胜一筹。

从图表来看,金士顿 DC3000ME 和 Pascari X200P 的中段性能表现相似,平均在 0.1-0.2 毫秒之间,峰值略高于 0.8 毫秒。Solidigm PS1010 的性能略不稳定,达到了 0.75 毫秒;而 SanDisk DC SN861 的性能表现与金士顿基本一致,但随着队列深度的增加,其波动性也随之增大。

16K 随机写入

在 16K 随机读取测试中,美光 9550 Max(12.8TB)的峰值略高于 900K IOPS,最低点约为 18K IOPS,平均吞吐量约为 420K IOPS。美光 7600 Max(6.4TB)表现出更高的一致性,但其最大扩展性略低,峰值约为 720K IOPS。其性能范围从最低点的 17K IOPS 到整体约 350K IOPS。

从图表来看,Pascari X200P 和 Solidigm PS1010 的扩展性能都令人印象深刻,Pascari 的最高性能与美光 9550 Max 相当,峰值略低于 900K IOPS,而 Solidigm 则稳定在 820-850K IOPS 范围内。金士顿 DC3000ME 最初与领先者表现不相上下,但随着扩展的进行,峰值达到了 620K IOPS 左右。SanDisk DC SN861 则落后,最终性能略高于 500K IOPS。

16K随机写入延迟

在 16K 随机写入测试中,美光 9550 Max(12.8TB)再次展现出最强的延迟性能,保持在 0.015 毫秒至 0.77 毫秒之间,平均延迟为 0.13 毫秒。美光 7600 Max(6.4TB)的延迟表现略逊一筹,范围在 0.016 毫秒至 1.26 毫秒之间,平均延迟为 0.21 毫秒。这使得 9550 Max 在压力下表现最高效,而 7600 Max 与其他同类产品相比仍保持着竞争力。

从图表来看,金士顿 DC3000ME 和 Pascari X200P 处于中间水平,通常运行在 0.2 至 1.5 毫秒范围内,而闪迪 DC SN861 在高队列深度下飙升得更厉害,突破了 1.8 毫秒。Solidigm PS1010 在本次测试中表现最为挣扎,最差情况下延迟远超 3 毫秒,表明难以在规模化情况下保持一致性。

16K 随机读取

在 16K 随机读取测试中,美光 9550 Max(12.8TB)的性能范围广泛,从大约 16.7K IOPS 开始,最高可达 904K IOPS,平均吞吐量为 433K IOPS。美光 7600 Max(6.4TB)的扩展性略低,但一致性极强,从 17.1K IOPS 到 720K IOPS 不等,平均吞吐量为 362K IOPS。

纵观所有竞品,Pascari X200P 与美光 9550 几乎不相上下,峰值都达到了 900 万 IOPS。Solidigm PS1010 略微落后,峰值在 820 万到 850 万 IOPS 之间,而金士顿 DC3000ME 则更早进入稳定期,峰值约为 620 万 IOPS。SanDisk DC SN861 的 IOPS 略高于 500 万 IOPS,在队列深度较高的情况下,扩展性较弱。

16K随机读取延迟

在 16K 随机读取测试中,美光 9550 Max(12.8TB)的延迟曲线范围从最低 0.073 毫秒到最高 0.57 毫秒,平均延迟为 0.12 毫秒。美光 7600 Max(6.4TB)的延迟曲线类似,但在大规模情况下略高,最低延迟为 0.065 毫秒,最高延迟为 0.71 毫秒,平均延迟为 0.14 毫秒。两款美光产品均提供了稳定的低延迟响应,其中 9550 Max 在队列深度较高时曲线更窄。

在其他产品中,Pascari X200P 和金士顿 DC3000ME 在中段性能表现强劲,在测试的大部分时间里,其延迟时间大致在 0.1 至 0.3 毫秒之间,之后逐渐逼近最高 0.8 毫秒的范围。SanDisk DC SN861 和 Solidigm PS1010 的延迟变化较大,尤其是 Solidigm 的延迟时间峰值接近 0.6 至 0.65 毫秒,落后于美光和 Pascari 等领先产品。

4K 随机写入

在 4K 随机写入测试中,美光 9550 Max (12.8TB) 表现领先,提供 320 万至 1.56 万 IOPS 的写入速度,在整个过程中保持稳定扩展,并在高队列深度下保持高度一致性。美光 7600 Max (6.4TB) 紧随其后,在超过中间范围后表现出令人印象深刻的加速,峰值略高于 1.78 万 IOPS,使其成为本次测试中扩展速度最快的产品。两款美光硬盘均展现出企业级负载控制能力,进程平稳,线程组合之间的波动极小。

在竞争对手中,SanDisk DC SN861 和 Kingston DC3000ME 表现良好,但落后于美光硬盘,最高速度分别接近 1.3 万 IOPS 和 960 万 IOPS。Pascari X200P 表现出中等的一致性,峰值速度达到 1.6 万 IOPS 左右,而 Solidigm PS1010 则明显滞后,在大多数高深度场景中都无法保持 550 万 IOPS 以上的稳定性。

4K随机写入延迟

在 4K 随机写入测试中,美光 9550 Max (12.8TB) 展现出卓越的延迟控制,最低延迟仅为 0.013 毫秒,最高延迟为 0.37 毫秒,平均延迟时间为 0.06 毫秒。美光 7600 Max (6.4TB) 紧随其后,最低延迟为 0.012 毫秒,最高延迟为 0.29 毫秒,平均延迟时间为 0.05 毫秒。两款硬盘均保持了稳定的低响应时间,9550 Max 在队列深度较高时表现出略高的稳定性。

从图表来看,金士顿 DC3000ME 和 Pascari X200P 的响应时间波动较大,通常位于 0.1-0.5 毫秒之间,最高可达 0.5 毫秒以上。SanDisk DC SN861 的响应时间也处于类似区间,但运行中期会出现一些峰值。与此同时,Solidigm PS1010 的响应速度最慢,波动较大,峰值甚至超过了 0.7 毫秒,使其响应速度落后于其他同类产品。

4K 随机读取

在 4K 随机读取测试中,美光 9550 Max(12.8TB)最高可达 2.2 万 IOPS,平均约 1.3 万 IOPS。美光 7600 Max(6.4TB)紧随其后,峰值略高于 2.0 万 IOPS,平均 1.4 万 IOPS,在高负载下表现出色。两款美光硬盘均表现出色,在队列深度和线程数方面互有胜负。

图表显示,SanDisk DC SN861 的峰值性能飙升至 2.5M IOPS 以上,但也表现出明显的波动性,在高负载下会有所下降。Pascari X200P 和金士顿 DC3000ME 的峰值性能均稳定在 2.0M IOPS 左右,性能表现强劲,但稳定性不如美光。Solidigm PS1010 的中段性能表现不错,但较早进入稳定期,最终接近 2.1M IOPS。

4K随机读取延迟

在 4K 随机写入延迟测试结果中,美光 9550 Max(12.8TB)在高负载下保持了最低的响应时间,在扫描初期平均约为 0.03-0.05 毫秒,并在峰值压力下逐渐攀升至 0.35-0.38 毫秒。美光 7600 Max(6.4TB)紧随其后,差异略大,但仍具有竞争力,在最大吞吐量下最高略低于 0.30 毫秒。

相比之下,SanDisk DC SN861 和 Pascari X200P 的延迟峰值随着吞吐量的增加而急剧上升,在最高队列深度下,SanDisk 的延迟飙升至 0.40 毫秒以上,而 Pascari 的延迟则超过 0.50 毫秒。金士顿 DC3000ME 落后于这两款产品,峰值略高于 0.50 毫秒,但在较低工作负载下保持相对稳定。Solidigm PS1010 的延迟最为严重,早期的爬升幅度已达到 0.10 毫秒以上,峰值达到 0.73 毫秒,反映出在较大的随机写入压力下存在不稳定性。

GPU 直接存储

我们在这个测试平台上进行的测试之一是 Magnum IO GPU 直接存储 (GDS) 测试。GDS 是 NVIDIA 开发的一项功能,允许 GPU 在访问存储在 NVMe 驱动器或其他高速存储设备上的数据时绕过 CPU。GDS 无需通过 CPU 和系统内存路由数据,而是实现 GPU 和存储设备之间的直接通信,从而显著降低延迟并提高数据吞吐量。

GPU 直接存储的工作原理

传统上,当 GPU 处理存储在 NVMe 驱动器上的数据时,数据必须先经过 CPU 和系统内存,才能到达 GPU。由于 CPU 充当了中间环节,这一过程会造成瓶颈,增加延迟并消耗宝贵的系统资源。GPU 直接存储技术使 GPU 能够通过 PCIe 总线直接从存储设备访问数据,从而消除了这种低效率。这种直接路径减少了数据移动开销,从而实现了更快、更高效的数据传输。

AI 工作负载(尤其是涉及深度学习的工作负载)是高度数据密集型的。训练大型神经网络需要处理数 TB 的数据,数据传输的任何延迟都可能导致 GPU 利用率不足和训练时间延长。GPU Direct Storage 通过确保尽快将数据传送到 GPU、最大限度地减少空闲时间并最大限度地提高计算效率来解决这一挑战。

此外,GDS 对于涉及流式传输大型数据集的工作负载(例如视频处理、自然语言处理或实时推理)尤其有益。通过减少对 CPU 的依赖,GDS 可加速数据移动并释放 CPU 资源以用于其他任务,从而进一步提高整体系统性能。

GDSIO 顺序读取

在我们的 GDSIO 顺序读取测试中,从 16K 的小块传输开始,美光 9550 的最大吞吐量在低队列深度下约为 0.5 GiB/s,并在 QD128 时逐渐提升至约 1.9 GiB/s。迁移到 128K 块大小后,性能显著提升,在 QD1 时达到 1.4 GiB/s,在 QD64 时达到峰值约 5.3 GiB/s。–128。在 1M 块测试中,该驱动器表现出最强的性能,从浅队列的 2.0 GiB/s 扩展到 QD128 的 6.1 GiB/s,在所有深度上都表现出持续的增长和稳定的效率。

与美光 7600 Max 相比,9550 Max 的运行轨迹相似,峰值吞吐量略高。7600 Max 的 16K 测试开始时速度约为 0.5 GiB/s,最高速度接近 1.9 GiB/s,在小块工作负载下几乎与 9550 Max 相同。在 128K 测试中,它的初始速度较快,为 2.2 GiB/s,但峰值约为 5.0 GiB/s,而其 1M 块测试结果约为 5.6 GiB/s。总体而言,这两款硬盘都提供了可预测的扩展性和强大的顺序性能,9550 Max 在更高的队列深度和更大的块大小下保持着略微但持续的优势。

纵观测试的其他企业驱动器,包括 帕斯卡里 X200P,金士顿DC3000ME, 固晶 PS1010 和 SanDisk DC SN861 的吞吐量结果通常在 5.0 GiB/s 到 6.1 GiB/s 之间。所有型号的吞吐量范围都相对较窄,这表明当前企业级 SSD 处理 GPU 直接工作负载的效率很高。在这一组中,美光 SSD 始终名列前茅,9550 Max 在更高的队列深度下保持着微弱的优势。相比之下,其他型号则紧随其后,速度差距在十分之几 GiB/s 以内,具体取决于工作负载强度。

GDSIO 顺序读取延迟

在顺序读取延迟测试中,两款美光硬盘在所有块大小和队列深度下均展现出紧密一致的响应时间。美光 9550 Max 在较小块大小下一开始就表现出非常低的延迟,在 QD1 下 16K 传输的延迟约为 31µs,并在 QD128 下逐渐增加到约 1.0ms。在 128K 块大小下,延迟范围从 86µs 到 3.0ms,而 1M 工作负载的延迟则从浅队列下的 482µs 上升到 QD128 下的 20.6ms。

美光 7600 Max 也表现出类似的模式,最小块的延迟开始时略快,QD1 为 27µs,到 QD128 时约为 1.0ms。在 128K 块时,延迟范围为 54µs 至 3.1ms;在 1M 块时,延迟范围为 QD1 的 391µs 至 QD128 的 22.3ms。

纵观整个测试组,所有硬盘在中小型块大小下均保持接近平价,而随着队列深度的增加,在 1M 工作负载下自然攀升。美光 9550 Max 和 7600 Max 始终保持紧密分组,反映出与同类产品相比,延迟扩展稳定且变化极小。 帕斯卡里 X200P、金士顿 DC3000ME 和 固晶 PS1010。

GDSIO 顺序写入

在 GDSIO 顺序写入测试中,美光 9550 Max 在所有工作负载下均保持了持续强劲的吞吐量。在较小的 16K 块大小下,性能起始于 0.5 GiB/s 左右,到 QD32 时攀升至约 1.5 GiB/s,然后在最高队列深度时略有下降。在 128K 块大小下,吞吐量显著提升,从 QD1 时的 2.3 GiB/s 扩展到 QD32 时的峰值 5.3 GiB/s–64。1M 块的结果保持在相同的高性能范围内,从 4.7 GiB/s 附近开始,并在中等队列深度下维持在 5.0 GiB/s 至 5.4 GiB/s 之间,然后在 QD128 处略有下降。

美光 7600 Max 的曲线几乎相同,在 16K 时从 0.5 GiB/s 开始,在较小传输时达到 1.5 GiB/s 的最高速度。在 128K 时,其速度从 2.2 GiB/s 稳步攀升至 5.2 GiB/s,而 1M 块工作负载在中等队列深度范围内将吞吐量保持在 4.1 GiB/s 至 5.4 GiB/s 之间。两款硬盘均表现出极佳的一致性,即使队列深度增加,性能变化也极小,这凸显了美光在 GPU 直接工作负载下固件调优的高效性。

从更广泛的数据集来看,所有测试的企业级硬盘在峰值负载下的整体吞吐量都收敛在 4.0-5.4 GiB/s 的窄带范围内。Pascari X200P 和 Micron 7600 Max 等硬盘的吞吐量徘徊在较高范围附近,而金士顿 DC3000ME、Solidigm PS1010 和 SanDisk DC SN861 等其他硬盘则紧随其后。

GDSIO 顺序写入延迟

在顺序写入延迟测试中,两款美光硬盘均展现出稳定、可预测的响应时间,且响应时间与队列深度和块大小呈线性关系。美光 9550 Max 在较小传输量下表现出与 7600 Max 几乎相同的低延迟性能,在队列深度 1 下,16K 块的延迟为 30µs,在队列深度 128 下则降至 2.7ms。在 128K 块的情况下,延迟从 52µs 逐渐增加到 3.2ms,而 1M 块工作负载在队列深度 1 下延迟为 207µs,在队列深度最大时达到 40ms 左右。

美光 7600 Max 的表现也类似,只有细微的变化。它在 QD1 下记录到 16K 块的延迟为 30µs,在 QD128 下最高达到 1.5ms。在 128K 下,延迟范围在 54µs 到 3.0ms 之间;对于 1M 传输,延迟从 QD1 下的 237µs 攀升至 QD128 下的 40.7ms。

在整个组别比较中,所有硬盘都表现出一致的队列深度增加行为,并保持了类似的扩展模式。美光硬盘与 帕斯卡里 X200P 和 Kingston DC3000ME 在大部分范围内都表现出色,并且在较小的块大小下都表现出出色的低延迟特性,同时在更繁重的连续写入条件下保持可预测的增加。

结语

美光 9550 Max 延续了美光在企业级固态硬盘 (SSD) 领域的强劲发展势头,在耐用性、吞吐量和效率之间实现了完美平衡,满足当前数据密集型工作负载的需求。它专为混合使用环境而设计,在顺序和随机操作下均能保持高性能,并具有出色的延迟稳定性和高达 3 DWPD 的写入耐用性。

在整个测试过程中,9550 Max 证明了它能够轻松处理企业级和 AI/ML 流水线,并在 GPU 直连存储、FIO 和 DLIO 环境中提供可预测的扩展。其性能在不同的工作负载和队列深度下保持一致,体现了美光 Gen5 平台和固件优化的成熟度。与 7600 Max 相比,9550 Max 在吞吐量和响应速度方面实现了虽小但可衡量的提升,尤其是在更高的队列深度下,同时保持了相同的低延迟特性,这使得这两款型号在各自的层级中都成为强有力的竞争者。

Micron 9550 Max 背面和平面视图。

从部署角度来看,U.2 和 E3.S 外形尺寸的灵活性确保其能够在传统和下一代基础设施中顺利应用。其高能效和 OCP 合规性进一步增强了其在密集数据中心部署中的适用性。

总体而言,美光 9550 Max 是一款性能全面的企业级 SSD,兼具持续的混合工作负载性能、运营效率和可靠性。对于寻求 PCIe Gen5 就绪性且不牺牲稳定性和使用寿命的企业而言,这无疑是一大进步,使其成为性能最强大的混合用途 SSD 之一。 NVMe 目前可用的解决方案。

产品页

参与 StorageReview

订阅消息 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅

迪伦·多尔蒂

K-12 网络管理员,精通 Cisco 网络、IP 安全和 NAC 解决方案。UniFi 爱好者和家庭实验室人员,负责测试和审查网络和安全产品。