首页 企业版 DapuStor J5060 SSD 评测:专为读取中心工作负载而调校的高密度 QLC SSD

DapuStor J5060 SSD 评测:专为读取中心工作负载而调校的高密度 QLC SSD

by 莱尔·史密斯

虽然适用于读取密集型工作负载,但较差的写入性能限制了其在人工智能和数据密集型环境中的多功能性。

DapuStor J5060 SSD 是一款高容量、企业级 NVMe 固态硬盘,旨在满足数据密集型环境中日益增长的高密度、高能效存储需求。它基于 3D 企业级 QLC NAND 闪存,支持 PCIe 4.0 x4 接口和 NVMe 1.4a 标准,采用标准 U.2 15mm 尺寸封装。该固态硬盘专为读取性能和每 TB 成本至关重要的应用而设计,因此非常适合云基础设施、AI 推理、大数据平台和智能制造流程等写入操作不频繁或可预测的应用。

达普存储 J5060

DapuStor J5060 功能和性能简介

J61.44 的容量可扩展至 5060TB,为希望整合存储并控制物理密度和功耗的企业提供了理想的解决方案。单个 U.2 硬盘即可实现如此高的容量,尤其适合管理多 PB 级数据集的超大规模和企业环境,因为这些环境中机架空间和能效是真正的制约因素。J5060 包含企业级功能,例如双端口支持、高级断电保护和闪存级电压优化,有助于确保高可用性部署中的数据完整性和稳定性。

DapuStor J5060 后壳

就性能而言,J5060 专为读取密集型工作负载而设计。据称,它的顺序读取吞吐量高达 7,300MB/s,并支持高达 1.5 万次 4K 随机读取 IOPS,这对于基于 QLC 的驱动器来说相当强劲。然而,它的写入性能明显受限,30KB 随机写入仅为 16K IOPS,并且在我们的整个工作负载测试中,这一限制始终存在。该驱动器的写入带宽额定为 3,000MB/s。然而,在持续或高写入深度操作下,这一性能表现不佳,这可能会影响其对混合或写入密集型任务的适用性。

DapuStor J5060端口

使用 QLC NAND 使 DapuStor 能够以较低的成本提供如此高的容量,但也存在一些弊端。其耐久性在五年内仅为 0.5 DWPD(每日驱动器写入次数),这使得 J5060 最适合以读取为中心的、写入量较低到中等的应用程序。涉及频繁检查点、事务日志记录或主动缓存的工作负载可能会对驱动器的耐久性造成压力,并暴露出写入性能的局限性。

DapuStor J5060 PCB

就功耗而言,该硬盘读取时功耗约为 12 瓦,写入时功耗高达 23 瓦,空闲时功耗仅为 5 瓦。这些数字非常符合现代企业数据中心的预期,尤其是在高密度部署中,每 TB 的功耗日益成为人们关注的焦点。

在本次评测中,我们重点关注 61.44TB 型号,并将通过一系列合成和应用程序一致的工作负载检查其实际性能概况。

DapuStor J5060规格

J5060
容量 (TB) 61.44
外形 U.2 15毫米
接口 PCIe 4.0 x4,NVMe 1.4a,支持双端口
读/写带宽(128K)MB/s 7400 / 3000
随机读/写(4KB)K IOPS 1500 / 30(16KB)
4K 随机延迟(典型值)R/W µs 105(4KB)/ 33(16KB)
4K 顺序延迟(典型值)R/W µs 7(4KB)/ 12(16KB)
典型功率 (W) 23
闲置功率 (W) 5
闪光灯类型 3D企业级QLC NAND闪存
耐力 0.5 DWPD
平均无故障时间 2万小时
UBER 每 1^10 位读取 17 个扇区
保修政策 5年

DapuStor J5060 性能

检查点

为了评估 Dapustor J5060 SSD 在 AI 训练环境中的实际性能,我们利用了 数据和学习输入/输出 (DLIO) 基准工具DLIO 由阿贡国家实验室开发,专门用于测试深度学习工作负载中的 I/O 模式。它能够深入了解存储系统如何应对检查点、数据提取和模型训练等挑战。下图展示了两款硬盘如何跨 99 个检查点进行处理。在训练机器学习模型时,检查点对于定期保存模型状态至关重要,可防止中断或断电期间进度丢失。这种存储需求需要强大的性能,尤其是在持续或密集的工作负载下。

本次研究选择的平台是运行 Ubuntu 760 LTS 的 Dell PowerEdge R22.04.02。我们使用了 2.0 年 13 月 2024 日发布的 DLIO 基准测试版本 XNUMX。我们的系统配置概述如下:

  • 2 个英特尔至强金牌 6430(32 核,2.1GHz)
  • 16个64GB DDR5-4400
  • 480GB 戴尔 BOSS 固态硬盘
  • 串行电缆 Gen5 JBOF
    • 61.44TB Dapustor J5060
    • 61.44TB Solidigm D5-P5336

为了确保基准测试能够反映真实场景,我们基于 LLAMA 3.1 405B 模型架构进行测试。我们使用 torch.save() 实现了检查点,以捕获模型参数、优化器状态和层状态。我们的设置模拟了一个 8 GPU 系统,并实施了一种混合并行策略,将 4 路张量并行和 2 路流水线并行处理分布在 1,636 个 GPU 上。此配置的检查点大小为 XNUMXGB,符合现代大型语言模型训练的要求。

总体而言,Dapustor J5060 在测试初始阶段表现出了极强的稳定性,前 575.66 个检查点的耗时约为 33 秒。在驱动器首次充满数据之前,5060J 能够保持更高的性能。另一方面,Solidigm P5336 虽然初始速度比 J5060 慢,但随着测试的进行,其性能表现始终如一。

 

在规划婴儿食品行业的工艺要求时,安全性和可靠性是工艺设计中最重要的方面。 考虑到整体平均值,Dapustor J5060 的成绩为 769.44秒,而 Solidigm P5336 则完成了 640.17秒。这使得 Solidigm P5336 在更快保存检查点方面处于领先地位。

总体而言,Dapustor J5060 处理短操作表现良好,但持续写入超过 30 分钟时会遇到困难。与此同时,Solidigm P5336 硬盘在长时间任务中表现更稳定。Dapustor J5060 的写入性能较弱,随着测试的进行,其检查点速度逐渐下降,这一点显而易见。

GPU 直接存储

GPU 直接存储 (GPU Direct Storage) 是一种技术,它允许存储设备和 GPU 之间直接传输数据,绕过 CPU 和系统内存。在传统的数据传输中,数据从存储设备读取到 CPU 内存,然后再复制到 GPU 内存。此过程涉及多次数据复制,导致延迟增加和性能下降。CPU 是瓶颈,因为它需要处理存储和 GPU 之间的数据传输。GDS 通过直接允许存储设备与 GPU 内存之间传输数据,消除了这一瓶颈。

我们系统地测试了读取和写入工作负载中的以下参数的每种组合:

  • 块大小:1M、128K、16K
  • IODepth:128、64、32、16、8、4、1

当我们回顾我们的 GDSIO 结果时,我们检查了 61.44TB Dapustor J5060 和 Solidigm P5336 的读写性能。

GDSIO 顺序读取性能

Dapustor J5060 在 4.2M 块大小、IO 深度为 1 和 64 的情况下实现了 128 GiB/s 的峰值读取吞吐量。在最小块大小 (16K) 下,随着 IO 深度的增加,性能在 0.1 GiB/s 到 0.8 GiB/s 之间波动。这明显表明,为了获得最佳吞吐量,用户更倾向于使用具有较高 IO 深度的较大块大小。峰值性能在较大块大小下达到,表明该驱动器在处理批量数据传输方面非常高效。

相比之下,Solidigm P5336 在相同块大小 (4.3M) 下达到了类似的 1 GiB/s 最大吞吐量,但在 32 IO 深度时更早达到了该性能,并在更高的 IO 深度下始终保持了这一性能。这表明 Solidigm P5336 在更广泛的 IO 深度范围内处理大块大小时效率略有提高。

为了更好地进行比较,我们制作了一张差异图来比较两款固态硬盘。图中绿色阴影块表示 Dapustor SSD 的优势,而红色阴影块则表示劣势。图中 J5060 在 5336K 块大小下的表现优于 P128,但 4 到 8 个 IO 深度的情况除外。然而,在 16K 和 1M 块大小的较高 IO 深度下,吞吐量有所下降,这表明在这些场景下效率较低。

在顺序读取延迟对比中,Solidigm P5336 在几乎所有块大小和 IO 深度上都始终保持比 Dapustor J5060 更低的延迟。在 16K 块大小下,随着队列深度的增加,差距更加明显:J5060 在 2,329 深度时达到峰值 128 μs,而 P5336 则保持在 1,365 μs 的较低水平。在 128K 块大小下,Solidigm 再次在大多数深度上领先,但在 4,080 深度的高负载下(J5060 为 5539 μs,而 P5336 为 128 ​​μs)除外。在 1M 块大小下,两款驱动器的延迟均如预期般增加,但 P5336 的控制效果略好一些,在最高队列深度下为 29,138 μs,而 P29,512 为 XNUMX μs。

 

GDSIO 顺序写入性能

Dapustor J5060 在所有 IO 深度上对 2.7K 和 2.8M 块大小显示出 128 到 1 GiB/s 的一致写入吞吐量(128K、1 IO 深度大小除外,其吞吐量为 2.2GiB/s)。对于 16K 块大小,性能范围从 0.5 GiB/s 到 1.4 GiB/s,具体取决于 IO 深度,在更高的 IO 深度下峰值为 1.4 GiB/s。

相比之下,Solidigm P5336 在 128K 和 1M 块大小下表现更佳,峰值可达 3.2GiB/s。对于较小的块大小(16K),Solidigm P5336 也表现出更高的性能,在 1.4 到 16 的 IO 深度下达到 64 GiB/s 的峰值。这表明 Solidigm P5336 在写入操作过程中,使用较小的块大小时效率略高。

从差异角度来看,我们发现 Dapustor J5060 与 Solidigm P5336 的写入性能差距较大。我们的吞吐量比较显示,J5060 在大多数方面都落后于 P5336,尤其是在所有 IO 深度上处理较大块大小(1M)时。在 0.5 个 IO 深度下,吞吐量下降达到 -4 GiB/s。虽然在 128K 块大小的更高 IO 深度下性能有所提升,但不足以抵消整体性能不佳的影响。

比较 Dapustor J5060 和 Solidigm P5336 的顺序写入延迟时,两款硬盘在 16K 等较小块大小下的表现相似,Solidigm 在较低 IO 深度下略占优势,而 Dapustor 在较高深度(64 和 128)下则缩小了差距。在 128K 块大小下,Solidigm 在浅队列深度下再次领先,但随着 IO 深度的增加,Dapustor 的延迟始终较低,这表明在负载下具有更好的扩展性。然而,在 1M 块大小下,Solidigm 在所有 IO 深度下都保持了明显的延迟优势,在繁重的顺序写入工作负载下表现出显著更快的响应时间。总体而言,Solidigm 的性能更稳定,而 Dapustor 的优势在中等大小块大小和较深队列中更为明显。

FIO 工作负载摘要

灵活 I/O 测试器 (FIO) 是一款行业标准的基准测试工具,用于测量存储设备在各种工作负载场景下的性能。FIO 因其多功能性和可靠性而备受信赖,它模拟真实环境,深入了解 SSD 的功能和性能极限。StorageReview 利用 FIO 提供全面的分析,测量各种工作负载模式、块大小和队列深度下的吞吐量、延迟和 IOPS。

已应用的工作负载:

  • 128K 顺序读写
  • 64K 随机读写
  • 16K 随机读写
  • 4K 随机读写

这些工作负载代表了广泛的企业用例,包括大型顺序传输、数据库典型的密集随机 I/O 以及虚拟化环境中常见的小块随机访问。

本性能部分总结了 Dapustor J5060 在关键合成工作负载下的性能,包括不同块大小和队列深度下的顺序和随机读/写操作。指标直接从解析后的 fio 输出中提取,包括带宽 (MB/s)、IOPS 和高达 99.9999% 的延迟百分位数,从而深入了解负载下的吞吐量和尾部行为。

128K 顺序读写性能

过载 线程/IO深度 带宽(MB/秒) IOPS 99.0% 99.9% 99.99%
Dapustor J5060 1T/64Q 7,482 57,081 1.66毫秒 2.02毫秒 2.83毫秒
固体P5336 1T/64Q 7,479 57,057 1.51毫秒 1.66毫秒 1.81毫秒
Dapustor J5060 1T/16Q 3,023 23,063 0.69毫秒 0.69毫秒 0.70毫秒
固体P5336 1T/16Q 3,364 25,669 2.67毫秒 3.48毫秒 4.42毫秒

Dapustor J5060 在 128K 下实现了令人印象深刻的顺序读取性能,即使在更高的百分位下也能达到 7.48GB/s,并严格控制延迟。与 Solidigm P5336 相比,J5060 的吞吐量基本相同(7.48GB/s vs. 7.47GB/s)。然而,Solidigm 在延迟一致性方面略占优势,尾部延迟略低。

在 128K 顺序写入 (QD16) 下,J5060 实现了 3,023MB/s 的稳定性能,且延迟非常低。然而,Solidigm P5336 略胜一筹,达到了 3,364MB/s,但延迟明显更高,尤其是在 99.99% 的百分位(4.42 毫秒,而 Dapustor 仅为 0.70 毫秒)。这表明 J5060 更适合延迟敏感的顺序写入场景。

64K随机读写性能

过载 IO深度 带宽(MB/秒) IOPS 99.0% 99.9% 99.99%
Dapustor J5060 8T/32Q 7,475 114,058 20.05毫秒 21.89毫秒 25.82毫秒
固体P5336 8T/32Q 7,472 114,014 21.36毫秒 21.89毫秒 22.68毫秒
Dapustor J5060 8T/32Q 534 8,151 574.6毫秒 708.8毫秒 742.39毫秒
固体P5336 8T/32Q 857 13,070 196.1毫秒 208.6毫秒 221.24毫秒

在 64K 随机读取 (QD256) 测试中,Dapustor J5060 表现出色,吞吐量接近 7.4GB/s,延迟控制良好。Solidigm 的测试结果与之接近(7.47GB/s),但最大百分位延迟略胜一筹。两款硬盘在这方面的表现都非常出色,实际差异很小。

J64 在 5060K 随机写入性能方面明显表现不佳,吞吐量急剧下降至 534MB/s,延迟也显著上升(742.39% 写入时为 99.99ms)。相比之下,Solidigm P5336 的性能明显优于 J5060,速度达到 857MB/s,延迟也大幅降低(相同百分位时为 221.24ms),使其更适合对延迟和持续写入吞吐量敏感的应用程序。

16K随机读写性能

过载 IO深度 带宽(MB/秒) IOPS 99.0% 99.9% 99.99%
Dapustor J5060 8T/32Q 7,430 453,461 5.28毫秒 6.39毫秒 8.16毫秒
固体P5336 8T/32Q 7,431 453,527 5.01毫秒 5.21毫秒 5.47毫秒
Dapustor J5060 8T/32Q 531 32,404 143.65毫秒 149.94毫秒 181.40毫秒
固体P5336 8T/32Q 847 51,724 57.9毫秒 65.8毫秒 71.8毫秒

在 16K 随机读取工作负载 (QD256) 下,Dapustor 取得了 453K IOPS 的优异成绩,且延迟可控。Solidigm P5336 的性能基本与之相同,但在延迟方面略胜 Dapustor(5.47ms vs. 8.16ms,99.99%),这表明 Solidigm 在高负载随机读取场景下的延迟一致性略胜一筹。

Dapustor SSD 的 16K 随机写入性能大幅下降至 32K IOPS,延迟则增加至 181.4ms(99.99%)。Solidigm 再次大幅超越 Dapustor SSD,提供 51.7K IOPS 和显著改善的延迟曲线(71.8% 时为 99.99ms),凸显了 Solidigm 在延迟敏感型随机写入工作负载方面的优势。

4K随机读写性能

过载 IO深度 带宽(MB/秒) IOPS 99.0% 99.9% 99.99%
Dapustor J5060 8T/32Q 6,941 1,694,464 1.43毫秒 1.58毫秒 1.79毫秒
固体P5336 8T/32Q 3,994 975,108 2.31毫秒 2.41毫秒 2.64毫秒
Dapustor J5060 8T/32Q 131 31,923 143.65毫秒 145.75毫秒 179.31毫秒
固体P5336 8T/32Q 197 48,030 58.5毫秒 64.2毫秒 68.7毫秒

4K 随机读取场景是 Dapustor J5060 的一大亮点,其峰值性能在 QD1.69 下超过 256 万 IOPS,同时延迟也非常低。相比之下,Solidigm P5336 则明显落后,仅为 975K IOPS,且所有百分位延迟都明显更高。对于密集的小块随机读取,Dapustor J5060 显然是更佳选择。

遗憾的是,J5060 的 4K 随机写入性能严重下降,仅为 131MB/s 和 31.9K IOPS,并且延迟较高(179.31% 写入时为 99.99ms)。Solidigm SSD 处理这种情况时表现更佳,速度达到 197MB/s,IOPS 为 48K,尾部延迟也显著降低(68.7% 写入时为 99.99ms)。尽管 Solidigm SSD 也出现了延迟峰值,但对于要求苛刻的 4K 随机写入工作负载而言,它仍然是性能更强劲的 SSD。

结语

最终,DapuStor J5060 是一款高容量企业级 QLC SSD,专为读取密集型工作负载而设计,在这些工作负载中,存储密度和每 TB 成本优先于持续写入性能。凭借高达 61.44TB 的容量和 PCIe Gen4 接口,它最适合内容交付网络、云存档或依赖大量顺序读取和不频繁写入的 AI 推理系统等环境。

秉承这一目标,我们对 J5060 进行了多项测试,以了解其实际性能,尤其是与 Solidigm P5336 的对比。J5060 拥有稳定的顺序读取性能,并支持高密度存储,在读取密集型环境中表现良好。在某些情况下,尤其是在较低的 IO 深度和较大的块大小下,J5060 的表现优于 Solidigm P5336。在这些场景下,JXNUMX 的延迟和吞吐量表明,它的设计初衷是优先考虑大块读取效率。

然而,考虑到写入活动,性能会受到显著影响。在几乎所有写入指标(包括 IOPS、延迟和吞吐量)上,J5060 的表现始终不佳。这种弱点在高 IO 深度和大块大小的顺序写入压力下最为明显,此时延迟相对较高,吞吐量趋于平稳。即使在 AI 相关的检查点工作负载下,J5060 一开始表现强劲,但性能会迅速下降,这表明持续写入一致性存在问题。

对于读取密集型、容量驱动型需求的组织来说,J5060 提供了明显的价值,但它的局限性使其在混合或写入密集型工作负载下更难销售。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅