存储评论网

DapuStor R6060 122TB 评测:大规模读取密集型第五代 QLC 固态硬盘

企业版  ◇  SSD

DapuStor R6060 是一款采用 DP800 控制器和 3D QLC NAND 闪存的 PCIe Gen5 企业级 QLC SSD。该系列产品涵盖 U.2、E3.L 和 E1.L 三种规格,容量分别为 15.36TB、30.72TB、61.44TB 和 122.88TB,此外还有一款 245TB 的顶级型号。其接口支持 PCIe 5.0 x4 或 2×2 双端口操作以及 NVMe 2.0。我们评测的这款产品是 122.88TB 的 E3.L 2T 版本,DapuStor 将其定位为面向高密度 AI 基础设施、云部署和大规模存储池等对闪存密度要求极高的应用场景。该性能特性符合这一角色,它兼具高顺序读取带宽和低得多的写入吞吐量,使得 R6060 更适合读取密集型数据集和容量驱动型存储层,而不是小块事务工作负载。

DapuStor R6060 122TB 俯视图

DapuStor 官方数据显示,R6060 系列固态硬盘的顺序读取吞吐量最高可达 14GB/s,顺序写入吞吐量为 4GB/s。随机读取性能方面,15.36TB 和 30.72TB 型号最高可达 3 万 IOPS,而 61.44TB 和 122.88TB 型号则为 2.8 万 IOPS。随机写入性能则低得多,小容量型号在 16KB 数据块下为 40 万 IOPS,而 122.88TB 型号在 32KB 数据块下为 20 万 IOPS。因此,R6060 更适合用于读取密集型任务,尤其适用于大型数据集和高密度存储层,在这些场景下,可用容量比小块写入速度更为重要。

R6060 具备此类固态硬盘应有的企业级功能,其中 NVMe 2.0 灵活数据放置 (FDP) 是 QLC 闪存的关键特性之一。FDP 使主机能够更好地控制数据写入位置,从而降低写入放大效应并更有效地利用闪存资源。DapuStor 标称该硬盘的 DWPD 为 0.6,并符合 OCP 2.5 标准、NVMe-MI 1.2、端到端数据保护、安全启动、固件验证、数据清除支持、遥测、延迟监控以及双端口支持(适用于需要路径冗余的系统)。

DapuStor R6060 122TB 后视图

DapuStor 为 R6060 提供五年质保,最大功耗为 25W,待机功耗为 5W。随机延迟为 80/25 µs 读/写,顺序延迟为 7/8 µs,平均故障间隔时间为 2.5 万小时。

DapuStor R6060 122TB 技术规格

指标/字段 15.36TB 30.72TB 61.44TB 122.88TB
General (将军)
PCN R6060
容量 (TB) 15.36 30.72 61.44 122.88
外形  U.2/E3.L 2T/E1.L
接口 PCIe 5.0×4 / 2×2,NVMe 2.0
闪光灯类型 3D企业级QLC NAND闪存
性能
读取带宽 @128KB (MB/s) 14000 14000 14000 14000
写入带宽 @128KB (MB/s) 4000 4000 4000 4000
随机读取 @4KB KIOPS 3000 3000 2800 2800
随机写入 KIOPS 40@16KB 40@16KB 40@16KB 20@32KB
随机延迟读/写(微秒) 80/25
序列延迟读/写(微秒) 7/8
电力
最大功率(瓦) 25
闲置功率 (W) 5
可靠性
耐力 0.6 DWPD
平均无故障时间 2.5万小时
UBER 每 1^10 位读取 18 个扇区
保修政策 5 年

DapuStor R6060 性能

路测平台

我们使用运行 Ubuntu 22.04.2 LTS 的 Dell PowerEdge R760 作为本次评测所有工作负载的测试平台。配备了 串行电缆 Gen5 JBOF它与 U.2、E1.S、E3.S 和 M.2 SSD 广泛兼容。我们的系统配置概述如下:

  • 2 个英特尔至强金牌 6430(32 核,2.1GHz)
  • 16个64GB DDR5-4400
  • 480GB 戴尔 BOSS 固态硬盘
  • 串行电缆 Gen5 JBOF

驱动器比较

在分析基准测试结果时,务必牢记这些硬盘的市场定位。虽然它们在部署场景上并非完全直接竞争,但在容量和市场定位方面存在足够的重叠,这为理解 DapuStor R6060 122.88TB 在当前高容量企业级 SSD 市场中的定位提供了有用的参考。

对比组重点展示了企业级闪存扩展的几种不同方法。基于TLC的Micron 6550 ION 61.44TB强调更高的Gen5原始性能,而Solidigm P5336 122.88TB和Solidigm P5336 61.44TB则着重于通过QLC NAND实现最大容量和成本效益。DapuStor J5060 61.44TB提供了另一个Gen4 U.2参考点,而R6060则以122.88TB的容量进军更新的Gen5 E3.L级别。

将这些驱动器纳入考量,可以更全面地了解 R6060 在面向性能和面向密度的设计方面的表现,因为供应商正在不断发展高容量企业存储平台。

DapuStor R6060 122TB 连接器侧视图

FIO性能基准

为了衡量每款 SSD 在常见行业指标上的存储性能,我们利用了 FIO。每块 SSD 都经过相同的测试流程,其中包括一个预处理步骤:使用顺序写入工作负载对硬盘进行两次全盘填充,然后进行稳态性能测量。随着每种被测工作负载类型的变化,我们会根据新的传输大小再次进行预处理填充。

在本节中,我们重点关注以下 FIO 基准:

  • 128K 连续
  • 64K随机
  • 16K随机
  • 4K随机

128K 顺序写入(IODepth 16/NumJobs 1)

在128K顺序写入测试中,DapuStor R6060 122.88TB硬盘的读写速度为3,920.6MB/s,在该组排名第二。Micron 6550 ION 61.44TB硬盘以10,456.4MB/s的读写速度遥遥领先,但R6060仍然轻松超越了Solidigm P5336 122.88TB硬盘(3,152.5MB/s)、DapuStor J5060 61.44TB硬盘(2,883.1MB/s)以及Solidigm P5336 61.44TB硬盘(2,503.5MB/s)。

128K 顺序写入延迟 (IODepth 16 / NumJobs 1)

DapuStor R6060 122.88TB 固态硬盘在 128K 顺序写入延迟测试中取得了 509.7µs 的成绩,再次位列第二。Micron 6550 ION 61.44TB 固态硬盘以 191.0µs 的成绩领先,而其他硬盘的成绩均落后于 R6060,其中包括 Solidigm P5336 122.88TB(634.0µs)、DapuStor J5060 61.44TB(693.3µs)以及 Solidigm P5336 61.44TB(798.4µs)。尽管 Micron 在该项测试中保持了较大的领先优势,但 R6060 仍然是其余硬盘中表现最佳的。

128K 顺序读取(IODepth 64 / NumJobs 1)

在 128K 顺序读取测试中,DapuStor R6060 122.88TB 达到了 11,554.0MB/s,再次位列第二,仅次于 Micron 6550 ION 61.44TB 的 13,979.7MB/s。

在这两款硬盘之后,其他对比产品的读写速度急剧下降,Solidigm P5336 61.44TB 的读写速度为 7,132.3MB/s,Solidigm P5336 122.88TB 为 7,121.6MB/s,DapuStor J5060 61.44TB 为 7,126.8MB/s。除了 Micron 的那款硬盘之外,R6060 是本次测试中唯一一款读写速度超过 11GB/s 的硬盘。

128K 顺序读取延迟 (IODepth 64 / NumJobs 1)

DapuStor R6060 122.88TB 的 128K 顺序读取延迟为 692.1µs,在同组产品中排名第二。Micron 6550 ION 61.44TB 的延迟最低,为 571.9µs,而 Solidigm P5336 122.88TB 的延迟最高,为 1123.0µs。两款 Solidigm P5336 硬盘的延迟几乎相同,122.88TB 型号为 1123.0µs,61.44TB 型号为 1121.3µs,DapuStor J5060 的延迟则介于两者之间,为 1122.1µs。

R6060 保持着对其他参赛者的明显领先优势,但 Micron 仍然保持着最高成绩。

 

64K 随机写入

在64K随机写入测试中,DapuStor R6060 122.88TB 的性能表现几乎稳定。初始设置下(1/1),读写速度为3,477.9MB/s,IOPS为55.6K;设置下(1/2),读写速度跃升至3,915.2MB/s,IOPS为62.6K。此后,性能基本保持不变。大部分时间读写速度都在3,913.7MB/s至3,916.9MB/s之间波动,最高读写速度为3,916.9MB/s,IOPS为62.7K(4/1)。即使在更高的读写设置下,读写速度也分别保持在3,914.6MB/s(32/4)、3,913.8MB/s(16/8)和3,914.0MB/s(32/8)。因此,除了较低的 1/1 起始点之外,R6060 在整个扫描过程中基本上都保持在一个固定的平台上。

从图表中的其他硬盘来看,Micron 6550 ION 61.44TB 的读写速度明显更高,从大约 2.4GB/s 提升至略高于 10.3GB/s。排在 R6060 之后的是 Solidigm P5336 122.88TB,读写速度保持在 3.0GB/s 左右;DapuStor J5060 61.44TB 的读写速度大多在 2.8GB/s 左右;而 Solidigm P5336 61.44TB 的读写速度则徘徊在 2.5GB/s 到 2.6GB/s 之间。因此,R6060 位居第二,与其他非 Micron 品牌的硬盘相比优势明显。

Dapustor 122TB 运行 64k 写入缩放

64K随机写入延迟

延迟呈现相同的稳定模式,R6060 在 1/1 负载下测得延迟为 18µs,在 1/2 和 2/1 负载下为 31µs,在 1/4、2/2 和 4/1 负载下为 63µs,然后在 2/4、4/2 和 8/1 负载下为 127µs。随着负载增加,延迟在 1/8、2/8、8/2 和 16/1 负载下达到 255µs,然后在 4/8、8/4 和 32/1 负载下达到 510µs。在高负载下,延迟在 8/8、16/4 和 32/2 负载下达到 1,021µs,在 16/8 和 32/4 负载下达到 2,043µs,并在 32/8 负载下达到峰值 4,087µs。

Micron 硬盘的延迟始终保持最低,在 32/8 读写速度下约为 1,600 微秒。R6060 位列第二,延迟为 4,087 微秒。Solidigm P5336 122.88TB 的延迟约为 5,100 微秒,J5060 约为 5,500 微秒,而 Solidigm P5336 61.44TB 的延迟则略高于 6,000 微秒。因此,尽管 R6060 的延迟远不及 Micron,但在高负载测试中,它仍然领先于其他三款硬盘。

Dapustor 122TB 运行 64k 写入延迟扩展

64K 随机读取

DapuStor R6060 122.88TB 在 64K 随机读取测试中曲线不太平缓,但最终成绩最佳。其初始读写速度为 381.4MB/s,IOPS 为 6.1K(1/1 容量),随后在 1/2 容量时攀升至 748.2MB/s,在 2/2 容量时达到 1,007.1MB/s,在 1/4 容量时达到 1,431.8MB/s,在 2/4 容量时达到 2,343.8MB/s。在 1/8 时达到 2,767.5MB/s,然后在 4/4 时达到 3,668.5MB/s,在 16/2 时达到 4,060.2MB/s,在 2/8 时达到 4,750.0MB/s,在 8/4 时达到 6,433.3MB/s,在 4/8 时达到 7,495.3MB/s。之后,在 32/2 时达到 8,428.0MB/s,在 16/4 时达到 9,827.5MB/s,在 8/8 时达到 10,782.5MB/s,在 16/8 时达到 12,798.2MB/s,并在 32/8 时达到峰值 13,274.8MB/s。

如下面的图表所示,Micron 6550 ION 61.44TB 在大部分测试过程中都保持领先,最高速度接近 13.0GB/s,尽管 R6060 在最后阶段设法略微超过了 Micron。Dapustor 122TB 运行 64k 读取扩展

64K随机读取延迟

尽管R6060在测试初期表现比其他硬盘略显不稳定,但在测试后期表现出色。其初始速度为163µs(1/1),随后在1/2时达到167µs,1/4时达到174µs,1/8时达到180µs,2/8时达到217µs,2/4时达到220µs,2/2时达到249µs,2/1时达到260µs,4/8时达到287µs,4/4时达到290µs,8/4时达到352µs。中频部分变得不太整齐,在 8/1 时为 446µs,在 16/2 时为 505µs,在 32/2 时为 531µs,在 16/1 时为 574µs,在 32/1 时为 595µs,在 16/8 时为 700µs,在 32/4 时为 738µs,在 32/8 时达到峰值 1,285µs。

在图表中,Micron 的整体表现再次较低,在 32/8 时约为 1,200µs。R6060 的最终成绩为 1,285µs,仍然远低于 J5060 和两款 Solidigm 硬盘,后三者的最终成绩均超过了 2,200µs。

16K 随机读取

在负载深度增加后,DapuStor R6060 122.88TB 固态硬盘在 16K 随机读取测试中取得了优异成绩。在 1/1 负载深度下,其初始 IOPS 为 9.6K,随后在 2/1 负载深度下达到 18.0K,在 1/4 负载深度下达到 37.2K,在 8/1 负载深度下达到 58.2K,在 1/8 负载深度下达到 72.8K。之后性能持续提升,在 16/1 负载深度下达到 112.8K,在 4/4 负载深度下达到 133.3K,在 2/8 负载深度下达到 138.1K,在 1/16 负载深度下达到 140.3K。随着负载深度的增加,性能提升更为显著,在 32/1 负载深度下达到 211.6K,在 8/4 负载深度下达到 246.9K,在 4/8 负载深度下达到 256.5K,在 2/16 负载深度下达到 261.2K。在较重的设置下,它在 16/4 时保持 436.0K,在 8/8 时保持 447.7K,在 4/16 时保持 456.1K,然后在 32/4 时达到 659.3K,在 16/8 时达到 671.3K,在 8/16 时达到 679.7K,在 32/8 时达到 784.5K,在 16/16 时达到 786.2K,并在 32/16 时达到峰值 817.7K IOPS。

与其他产品相比,R6060 的整体性能表现优异,但美光仍然占据榜首。美光 6550 ION 61.44TB 的 IOPS 接近 860 万,在性能最顶尖的硬盘中领先于 R6060。尽管如此,R6060 在大部分测试中都保持着远超 Solidigm P5336 的性能,最终也远胜于它们。

16K随机读取延迟

在测试的大部分时间里,R6060 的延迟表现都相当不错,直到最后阶段。在 1/1 设置下,延迟为 104µs,然后在 2/1 设置下为 110µs,在 4/1 设置下为 124µs。在较低和中等设置下,延迟保持在一个较小的范围内,包括 1/4 设置下的 107µs、1/8 设置下的 109µs、1/16 设置下的 113µs、2/8 设置下的 115µs、4/4 设置下的 120µs、8/4 设置下的 130µs、8/1 设置下的 137µs 和 16/1 设置下的 141µs。随着负载增加,延迟逐渐上升,在 8/8 时为 143µs,在 16/4 时为 148µs,在 32/1 时为 151µs,在 8/16 时为 189µs,在 16/8 时为 193µs,然后在负载最重的组合下上升得更陡,在 32/4 时达到 196µs,在 16/16 时达到 330µs,在 32/8 时达到 336µs,并在 32/16 时达到峰值 642µs。

这使得R6060在大部分测试过程中都保持着良好的性能,尽管在最后阶段出现了明显的峰值。Micron 6550 ION的整体延迟曲线仍然最佳,并且在整个测试图表中都保持着较低的延迟。

 

16K 随机写入

与同组大多数产品相比,DapuStor R6060 122.88TB 的随机写入性能较低,仅为 16K。其初始 IOPS 为 42.7K(1 月 1 日),1 月 4 日上升至 51.3K,2 月 4 日达到峰值 50.7K。此后,在剩余的测试中,其 IOPS 大多维持在 28K 至 46K 之间,具体表现为:1 月 8 日 46.4K,2 月 8 日 43.0K,4 月 4 日 44.2K,8 月 8 日 41.3K,16 月 4 日 37.1K,16 月 8 日 36.1K,16 月 16 日 30.0K,以及 32 月 16 日 27.3K。就带宽而言,峰值达到了 801.4MB/s,大部分时间速度都在 500MB/s 到 700MB/s 之间。

与其他同类产品相比,R6060 的原始写入 IOPS 表现逊色不少,只有另一款 122TB 的 Solidigm 硬盘能与之匹敌。Micron 6550 ION 61.44TB 的表现遥遥领先,大部分时间 IOPS 都在 250 万到 660 万之间。DapuStor J5060 61.44TB 的 IOPS 通常维持在 175 万到 185 万左右,而 Solidigm P5336 61.44TB 的 IOPS 则通常在 160 万左右。

16K随机写入延迟

R6060 在 1/1 时初始值就很低,为 23µs,然后在 2/1 时测量为 51µs,在 1/4 时测量为 77µs,在 4/1 时测量为 115µs,在 2/4 时测量为 157µs。从那以后,随着工作负载的增加,时间迅速攀升,在 2/8 时达到 371µs,在 16/1 时达到 470µs,在 4/8 时达到 779µs,在 8/4 时达到 815µs,在 2/16 时达到 881µs,在 32/1 时达到 1,139µs,在 8/8 时达到 1,548µs,在 16/4 时达到 1,723µs,在 4/16 时达到 1,738µs,在 8/16 时达到 3,660µs,在 32/4 时达到 4,133µs,在 16/16 时达到 8,537µs,在 32/8 时达到 8,846µs,最终在 32/16 时达到 18,759µs。

这使得R6060在测试的高端阶段延迟最高。美光显卡的延迟始终远低于R6060,即使在最苛刻的测试组合中,J5060和两款Solidigm固态硬盘的延迟也远低于R6060。

4K 随机读取

DapuStor R6060 122.88TB 在 4K 随机读取测试中表现出色,随着测试队列深度和作业数量组合的增加,性能也得到了提升。

它从 1/1 时的 11.5K IOPS 开始,然后攀升至 2/1 时的 21.5K,1/4 时的 44.0K,2/4 时的 83.2K,1/8 时的 85.4K,2/8 时的 162.2K,以及 1/16 时的 165.0K。从那以后,它继续扩展,在 4/8 时达到 313.1K,2/16 时达到 316.5K,16/4 时达到 557.9K,8/8 时达到 585.6K,4/16 时达到 598.9K,16/8 时达到 1.043M,8/16 时达到 1.069M,16/16 时达到 1.729M,最终在 32/16 时达到峰值 2.061M IOPS。带宽最高达到 8,050.3MB/s。

4K随机读取延迟

在整个测试过程中,读取延迟基本保持在一个较小的范围内,仅在高端阶段略有上升。R6060 在 1/1 时读取延迟为 0.086 毫秒,然后在 2/1 时为 0.092 毫秒,1/4 时为 0.090 毫秒,2/4 时为 0.095 毫秒,1/8 时为 0.093 毫秒,2/8 时为 0.098 毫秒,1/16 时为 0.096 毫秒。在测试过程中,读取延迟基本维持在接近该水平,包括 4/4 和 4/8 时为 0.101 毫秒,8/4 时为 0.107 毫秒,8/8 时为 0.109 毫秒,16/4 时为 0.115 毫秒,8/16 时为 0.119 毫秒,16/8 时为 0.123 毫秒。在较重的设置下,16/16 时上升到 0.148 毫秒,32/8 时上升到 0.155 毫秒,并在测试结束时达到峰值 0.247 毫秒。

GPU 直接存储

我们在这个测试平台上进行的测试之一是 Magnum IO GPU 直接存储 (GDS) 测试。GDS 是 NVIDIA 开发的一项功能,允许 GPU 在访问存储在 NVMe 驱动器或其他高速存储设备上的数据时绕过 CPU。GDS 无需通过 CPU 和系统内存路由数据,而是实现 GPU 和存储设备之间的直接通信,从而显著降低延迟并提高数据吞吐量。

GPU 直接存储的工作原理

传统上,当 GPU 处理存储在 NVMe 驱动器上的数据时,数据必须先经过 CPU 和系统内存,才能到达 GPU。由于 CPU 充当了中间环节,这一过程会造成瓶颈,增加延迟并消耗宝贵的系统资源。GPU 直接存储技术使 GPU 能够通过 PCIe 总线直接从存储设备访问数据,从而消除了这种低效率。这种直接路径减少了数据移动开销,从而实现了更快、更高效的数据传输。

AI 工作负载(尤其是涉及深度学习的工作负载)是高度数据密集型的。训练大型神经网络需要处理数 TB 的数据,数据传输的任何延迟都可能导致 GPU 利用率不足和训练时间延长。GPU Direct Storage 通过确保尽快将数据传送到 GPU、最大限度地减少空闲时间并最大限度地提高计算效率来解决这一挑战。

此外,GDS 对于涉及流式传输大型数据集的工作负载(例如视频处理、自然语言处理或实时推理)尤其有益。通过减少对 CPU 的依赖,GDS 可加速数据移动并释放 CPU 资源以用于其他任务,从而进一步提高整体系统性能。

GDSIO 顺序读取吞吐量

在我们的 GDSIO 顺序读取吞吐量测试中,DapuStor R6060 122.88TB 在 16K 传输时表现参差不齐,但随着块大小的增加,性能逐渐趋于稳定。在 16K 块大小下,其单线程速度为 663.7MiB/s,四线程降至 221.5MiB/s,八线程降至 200.3MiB/s,随后在 128 线程时回升至 978.8MiB/s。这使得它在测试的大部分小块传输阶段,尤其是在中等线程数下,落后于其他一些硬盘,因此 16K 顺序读取并非这款硬盘的最佳性能所在。

在 128K 读写速度下,R6060 的表现明显更胜一筹。单线程下速度为 1.4GiB/s,16 线程下为 1.7GiB/s,32 线程下为 2.8GiB/s,随后在 64 线程和 128 线程下分别攀升至 4.3GiB/s 和 4.9GiB/s。这使得它在 128K 顺序读取的高线程数下,在该组产品中名列前茅,领先于 DapuStor J5060 61.44TB、Micron 6550 ION 61.44TB 和 Solidigm P5336 122.88TB。尤其是在 64 线程和 128 线程下,R6060 与其他同类产品之间的差距更为显著。

最大的提升体现在 100 万次读写测试中。R6060 在单线程下初始速度为 1.7GiB/s,随后在四线程时跃升至 3.0GiB/s,八线程时达到 4.4GiB/s,十六线程时达到 5.2GiB/s,并在 128 线程时达到峰值 5.9GiB/s。从八线程开始,它就一直领先于其他对比对象,并且随着并发数的增加,领先优势持续扩大。因此,尽管 R6060 在 16K 读写测试中表现不稳定,但其 128K 和 100 万次顺序读取测试的结果非常出色,尤其是在线程数增加到测试的较高水平后。

GDSIO 顺序读取 IOPS

在 GDSIO 顺序读取 IOPS 测试中,DapuStor R6060 122.88TB 的性能表现因块大小而异。在 16K 块大小下,其性能在单线程时表现强劲,达到 42.5K IOPS;随后在四线程和八线程时分别下降至 14.2K 和 12.8K IOPS;之后性能逐渐回升,在 32 线程、64 线程和 128 线程时分别达到 19.9K、36.6K 和 62.6K IOPS。这一性能回升使其接近 Micron 6550 ION 的顶尖水平,但 Solidigm P5336 在该测试环节以 128 线程 92.5K IOPS 的成绩遥遥领先。在较小的 16K 负载下,R6060 在线程数适中时的性能表现略显不稳定,但最终的成绩远超预期。

在 128K 并发测试中,R6060 展现出更强、更稳定的性能扩展性。其单线程 IOPS 为 11.6K,四线程为 6.4K,八线程为 8.7K,十六线程为 14.0K,三十二线程为 23.2K,六十四线程为 35.3K,十二八线程为 40.3K。在高端测试中,R6060 的表现最佳,领先于 31.3K 并发测试的 DapuStor J5060(61.44TB)、23.3K 并发测试的 Solidigm P5336(122.88TB)以及 19.4K 并发测试的 Micron 6550 ION(61.44TB)。随着并发数的增加,R6060 在这一环节的优势更加明显。

在 1M 测试结果中,R6060 表现出色(尽管从图表中可能不太明显)。其初始 IOPS 为 1.7K,在 4 线程时提升至 3.0K,8 线程时为 4.5K,16 线程时为 5.3K,32 线程时为 5.6K,64 线程时为 5.9K,128 线程时为 6.0K。这使其在对比组中 1M 传输测试中取得了最高成绩,超过了 DapuStor J5060(4.3K)、Solidigm P5336(4.3K)和 Micron 6550 ION(2.6K)。因此,尽管 16K 测试部分出现了一些波动,但 R6060 在 128K 和 1M 顺序读取 IOPS 方面表现非常出色,尤其是在线程数增加到测试上限时。

GDSIO 顺序读取延迟

在 GDSIO 顺序读取延迟测试中,DapuStor R6060 122.88TB 的表现优于其他几款产品,尤其是在线程数增加的情况下。在 16K 负载下,单线程读取延迟为 22µs,四线程为 281µs,八线程为 623µs,16 线程为 1.1ms,32 线程为 1.6ms,64 线程为 1.7ms,128 线程为 2.0ms。这使得它在 16K 负载下拥有最低的延迟,并在其他负载下也保持了竞争力。虽然 Micron 6550 ION 和 Solidigm P5336 在 16K 负载的中段略低一些,但在接近高端负载时,各款产品之间的差距再次缩小。

在 128K 线程测试中,R6060 表现强劲,单线程延迟为 85µs,4 线程为 621µs,8 线程为 923µs,16 线程为 1.1ms,32 线程为 1.4ms,64 线程为 1.8ms,128 线程为 3.2ms。在 32 线程测试中,它始终处于领先地位或接近领先水平,即使在负载增加的情况下延迟有所上升,它与其他硬盘相比仍然表现出色。Micron 6550 ION 在 128K 线程测试的高端表现远超 R6060,而 DapuStor J5060 和 Solidigm P5336 在 128 线程测试中也优于 R6060。

最显著的差距体现在 1M 工作负载测试中,R6060 在单线程下延迟为 587µs,四线程下为 1.3ms,八线程下为 1.8ms,十六线程下为 3.0ms,三十二线程下为 5.8ms,六十四线程下为 10.8ms,十二十八线程下为 21.3ms。在整个 1M 测试范围内,这些数值均优于 Micron 6550 ION,并且在线程数较高时低于 Solidigm P5336,尽管 DapuStor J5060 在 64 线程和 128 线程测试中仍然领先。总体而言,随着传输大小和并发性的增加,R6060 在控制顺序读取延迟方面表现出色,尤其是在测试的高负载部分表现尤为稳定。

GDSIO 顺序写入吞吐量

在 GDSIO 顺序写入吞吐量测试中,DapuStor R6060 122.88TB 在大部分测试范围内都表现出色,尤其是在 128K 和 1M 的早期测试中。在 16K 测试中,其初始速度为 0.67GiB/s,在四线程时攀升至 1.18GiB/s,八线程时达到 1.37GiB/s,并在 16 线程时达到峰值 1.47GiB/s,之后在 128K 测试中回落至 1.20GiB/s。这一性能与 Micron 6550 ION 相当,在 16K 中等线程测试的大部分范围内,Micron 6550 ION 的表现略胜一筹。

当数据块大小提升至 128K 时,R6060 的性能表现显著增强。其初始读写速度为 2.79GiB/s,在 4 线程时跃升至 3.82GiB/s,并在 16 线程时保持在该范围内,达到 3.83GiB/s。之后,在 32 线程、64 线程和 128 线程时,其读写速度分别为 3.71GiB/s、3.80GiB/s 和 3.28GiB/s。这使得 R6060 在本次对比测试中几乎全程领先于其他硬盘,仅在最高线程数下略有下降。

在 1M 测试中,R6060 在低线程数和中线程数下再次领先。它在单线程时速度为 3.81GiB/s,四线程时为 3.73GiB/s,八线程时为 3.79GiB/s,十六线程时为 3.49GiB/s,之后速度逐渐下降,三线程时为 3.31GiB/s,六线程时为 3.06GiB/s,十二线程时为 2.93GiB/s。Micron 6550 ION 在 1M 测试的后期阶段最终超越了 R6060,在三线程时速度达到峰值 3.90GiB/s,而 Solidigm P5336 的速度则保持在 3GiB/s 左右,DapuStor J5060 的速度则始终保持在 2.8GiB/s 左右。总体而言,R6060 在该组中展现了较好的顺序写入吞吐量,其最佳性能为 128K,并且在 1M 工作负载下具有强大的早期扩展能力。

GDSIO 顺序写入 IOPS

在 GDSIO 顺序写入 IOPS 测试中,DapuStor R6060 122.88TB 固态硬盘在 16K 测试中表现出色,并在整个测试阶段保持领先地位。其单线程 IOPS 为 43.5K,四线程为 76.9K,八线程为 89.4K,十六线程为 95.9K,在 32 线程时达到峰值 98.4K,之后在 64 线程时降至 89.8K,在 128 线程时降至 78.7K。Micron 的 6550 ION 在 16K 测试的中段表现略胜一筹,在 32 线程时达到 100K IOPS,在 64 线程时达到 97.5K,但 R6060 一直紧随其后,直到最高线程数测试时才被 J5060 和 Solidigm P5336 超越。

在 128K 测试中,R6060 从始至终都展现出该组显卡中最强劲的性能。其单线程 IOPS 为 22.8K,四线程 IOPS 为 31.3K,八线程 IOPS 为 31.3K,十六线程 IOPS 为 31.4K,三十二线程 IOPS 为 30.3K,六十四线程 IOPS 为 31.2K,而十二八线程 IOPS 为 26.9K。这使其领先于 Micron 6550 ION,后者在中段测试中 IOPS 接近 30K,之后跌至 20K 出头;R6060 也远超 J5060 和 Solidigm P5336,这两款显卡在 128K 测试的大部分时间里都落后 R6060 较多。

在所有四款硬盘的1M写入测试中,R6060的性能差距都相当小,但R6060仍然名列前茅。它在单线程下实现了3.9K IOPS,四线程下为3.8K,八线程下为3.9K,十六线程下为3.6K,32线程下为3.4K,64线程下为3.1K,128线程下为3.0K。这使其在低线程性能上略胜J5060一筹,并在最终测试中与Solidigm P5336基本持平,而Micron 6550 ION在32线程和64线程测试中一度领先。总体而言,R16展现了强劲的顺序写入IOPS性能,其最佳成绩为128K,在所有线程数下均领先于其他对比产品。

GDSIO 顺序写入延迟

在 GDSIO 顺序写入延迟测试中,DapuStor R6060 122.88TB 在测试的轻负载和中负载部分表现出色,但随着线程数的增加,性能有所下降。在 16K 写入测试中,单线程延迟为 22µs,四线程为 51µs,八线程为 88µs,16线程为 165µs,32线程为 323µs,64线程为 709µs,128线程为 1.6ms。总体而言,这些数据非常出色,使 R6060 在 16K 写入测试的大部分时间里都保持在领先位置。Micron 6550 ION 在最重的 16K 负载下表现略逊一筹,而 J5060 和 Solidigm P5336 的表现则更胜一筹。

在 128K 线程下,R6060 的表现依然具有竞争力,其单线程延迟为 43µs,4 线程为 126µs,8 线程为 254µs,16 线程为 508µs,32 线程为 1.1ms,64 线程为 2.0ms,128 线程为 4.8ms。这是本次对比测试中延迟最低的显卡之一,尤其是在 64 线程下。只有 Micron 6550 ION 在高端性能上略逊一筹,而 J5060 和 Solidigm P5336 在 128 线程下的性能均优于 R6060。

最大的提升出现在 1M 传输量测试中,R6060 在单线程下延迟为 255µs,4 线程下为 1.0ms,8 线程下为 2.1ms,16 线程下为 4.5ms,32 线程下为 9.5ms,64 线程下为 20.5ms,128 线程下为 42.7ms。这使得它在高负载下落后于 Micron 6550 ION,略高于 Solidigm P5336,而 J5060 在高端测试中延迟最高。因此,R6060 在 16K 和 128K 以下的顺序写入延迟表现良好,但更大的 1M 传输量随着并发数的增加而急剧上升。

DLIO 检查点基准

为了评估 SSD 在 AI 训练环境中的实际性能,我们使用了数据与学习输入/输出 (DLIO) 基准测试工具。DLIO 由阿贡国家实验室开发,专门用于测试深度学习工作负载中的 I/O 模式。它能够深入了解存储系统如何处理检查点、数据摄取和模型训练等挑战。该测试的设计使得每个驱动器都填充了完整的检查点;容量更大的 SSD 可以容纳更多检查点。下图展示了两个驱动器在 99 个检查点(122TB 版本为 198 个检查点)的处理情况。在训练机器学习模型时,检查点对于定期保存模型状态至关重要,可以防止在中断或断电期间丢失训练进度。这种存储需求要求系统具备强大的性能,尤其是在持续或高强度工作负载下。我们使用了 2024 年 8 月 13 日发布的 DLIO 基准测试 2.0 版本。

为了确保我们的基准测试能够反映真实场景,我们基于 LLAMA 3.1 405B 模型架构进行了测试。我们使用 torch.save() 实现了检查点机制,用于捕获模型参数、优化器状态和层状态。我们的设置模拟了一个八 GPU 系统,并采用了混合并行策略,将四路张量并行和两路流水线并行分布在八个 GPU 上。这种配置产生的检查点大小为 1,636GB,符合现代大型语言模型训练的需求。

对于 DLIO 检查点通过平均值测试,我们将 DapuStor R6060 122TB 与 Solidigm P5336 122.88TB、Solidigm P5336 61.44TB 和 Micron 6550 ION 61.44TB 进行了比较。

DapuStor R6060 在第一轮测试中表现出色,以 465.33 秒的成绩位列所有测试产品之首。然而,在随后的几轮测试中,其性能出现了显著下滑,第二轮耗时 934.50 秒,第三轮更是达到了 965.27 秒。最终,R6060 在所有测试产品中排名垫底,落后于 Solidigm P5336 122.88TB(757.31 秒)、Solidigm P5336 61.44TB(639.63 秒)以及 Micron 6550 ION 61.44TB(585.03 秒)。

 

在 DLIO 检查点基准测试中,DapuStor R6060 122TB 固态硬盘的性能变化最为显著,尤其是在工作负载增加时。测试初期,该硬盘表现优异,运行时间稳定在 460 秒左右,与 Micron 6550 ION 61.44TB 并驾齐驱,领先于两款 Solidigm 固态硬盘。然而,随着检查点数量的增加,R6060 的运行时间明显延长,在剩余的许多检查点上都达到了 900-1000 秒。

结语

DapuStor R6060 122.88TB 的性能符合其设计预期。大块读取、顺序传输和 GPU Direct Storage 工作负载是这款硬盘表现始终优异的部分,而小块随机写入则是其明显的弱点。在 FIO 测试中,R6060 在 128K 顺序读取中达到 11,554MB/s,在 128K 顺序写入中达到 3,920.6MB/s,在 64K 随机写入测试中保持了近乎稳定的 3,913MB/s 至 3,916MB/s 的速度,在 64K 随机读取中达到了 13,274.8MB/s,在 16K 随机读取中达到了 817.7K IOPS,在 4K 随机读取中达到了 2.061M IOPS 的峰值。16K 随机写入是其弱点所在,这款硬盘在该项测试中远逊于我们排行榜上那些以写入性能为核心的 SSD。

DapuStor R6060 122TB 正面图

GDSIO 测试也遵循同样的规律。R6060 在较小的 16K 读取测试中表现不稳定,但随着传输规模的增大,其性能表现强劲,在线程数较高的情况下,128K 和 1M 顺序读取吞吐量均领先于其他对比产品,1M 顺序读取吞吐量达到 5.9GiB/s,并且在所有线程数下,128K 顺序写入 IOPS 也位居榜首。在较大块的 GPU 直接读取测试中,其延迟表现也总体良好。

DapuStor 提供多种规格的 R6060 固态硬盘,包括 U.2、E3.L 和 E1.L 三种规格,容量从 15.36TB 到 122.88TB 不等,更有 245TB 的高端型号。如此丰富的规格选择为系统集成商提供了极大的灵活性,但也凸显了预先进行兼容性检查的重要性。我们测试的 122.88TB E3.L 2T 型号并不属于大多数数据中心常用的 U.2 和 E3.S 规格,因此,在订购 EDSFF 硬盘之前,仍然需要仔细检查硬盘托架、厚度、长度和 PCIe 通道分配等因素。2T 硬盘无法安装在 1T 插槽中,E3.L 硬盘也无法安装在 E3.S 硬盘托架中。这在如今的 EDSFF 集成中已是常见现象,但对于首次将这些高容量硬盘引入部署的用户而言,仍需特别注意。

R6060 适用于其所面向的存储层级,表现良好,为 DapuStor 提供了一个可靠的高容量 Gen5 QLC 选择。

产品页面 – DapuStor R6060 122TB

参与 StorageReview

资讯订阅 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter(现为X) | TikTok | RSS订阅

莱尔·史密斯

Lyle 是 StorageReview 的撰稿人,文章涵盖了广泛的终端用户和企业 IT 主题。