像 DapuStore Haishen5 H5100 这样的高性能 SSD 对于 AI 和 HPC 等高级应用至关重要。
数据比以往任何时候都更有价值,因此对高性能、可靠且节能的存储解决方案的需求至关重要。 DapuStor Haishen5 H5100 E3.S SSD 通过先进的技术和周到的工程设计满足了这些需求。我们让 16 个 H5100 投入使用,以了解这些现代 Gen5 SSD 的速度和性能。
大普海神5 H5100 E3.S SSD
H5100 代表着存储性能的重大飞跃,它建立在 DapuStor 的 Gen4 SSD 基础之上。利用最新的 Marvell Bravera PCIe Gen5 企业控制器、KIOXIA BiCS8 3D TLC NAND 和定制的 DapuStor 固件,这款硬盘的吞吐量是 Gen4 同类产品的两倍。Haishen14,000 H9,500 的连续读取速度高达 5 MB/s,写入速度高达 5100 MB/s,可显著减少数据访问时间和延迟,这对于 AI 和 HPC 等现代工作负载至关重要。
随机读取和写入IOPS分别高达2.8万和380万,而4K随机读取延迟小于7微秒,写入延迟小于8微秒。这些性能增强意味着数据处理速度更快,系统响应速度更快,能够处理更密集的工作负载,使其成为需要高速数据传输和存储效率的应用程序的理想选择。
现代数据中心和超大规模数据中心面临的挑战不仅仅是性能挑战。能源效率也越来越重要。KIOXIA BiCS8 3D NAND 和 Marvell Bravera SC5 控制器相结合,可提供高容量和高能效。BiCS8 的垂直堆叠技术可实现高达 32TB 的容量,同时降低功耗。相比之下,Bravera SC5 的动态电源管理和高效数据处理可确保最佳性能和最低能耗,使其成为要求苛刻的企业应用的理想选择。
设计灵活性也至关重要。随着新服务器从 U.2 迁移到 E3.S 和超大规模服务器,甚至 NVIDIA 也为 E1.S 提供了多种应用,SSD 供应商需要支持更多种类的外形尺寸。对于 H5100,必须注意的是,DapuStor 支持 Gen2 中的传统 U.5 外形尺寸。它们还支持 E3.84.S 和 E7.68.S EDFFF 外形尺寸的 3TB 和 1TB 容量驱动器,与 U.2 驱动器相比,具有多种密度和效率优势。
DapuStor H5100 的另一个有趣方面是固件设计。控制固件使 DapuStor 更容易集成驱动器所有组件的交互方式。这种好处体现在许多方面,从更严格的 QoS 到支持灵活数据放置 (FDP) 等高级功能。如果客户有标准框架之外的要求,DapuStor 将针对特定用例定制驱动器的固件。可定制的功能包括固件调整、安全设置、性能调整和电源管理配置。
H5100 SSD 集成了先进的服务质量 (QoS) 功能,可确保在各种工作负载下保持一致的性能和数据完整性。这些 QoS 功能使驱动器能够有效地管理和优先处理 I/O 操作,即使在苛刻的条件下也能保持低延迟和高吞吐量。
DapuStor H5100 中的 FDP 技术优化了驱动器内的数据管理。FDP 允许将数据写入不同的物理空间,从而提高性能、耐久性和整体存储效率。此高级功能有助于减少写入放大并增强驱动器有效处理混合工作负载的能力。虽然目前仅在超大规模世界中可见,但 FDP 在 OCP 中获得了巨大的发展势头,并且由于 FDP 提供的固有耐久性优势,不久之后更多的主流应用程序就会利用它。
DapuStor 海神5 H5100 SSD 规格
规格 | 3.84TB(E3.S) | 7.68TB(E3.S) | 3.84TB(U.2 15毫米) | 7.68TB(U.2 15毫米) | 15.36TB(U.2 15毫米) | 30.72 B (U.2 15 毫米) | 3.84TB(E1.S) | 7.68TB(E1.S) |
---|---|---|---|---|---|---|---|---|
接口 | ||||||||
读取带宽 (128KB) MB/s | 14000 | 14000 | 14000 | 14000 | 14000 | 14000 | 14000 | 14000 |
写入带宽 (128KB) MB/s | 6300 | 8800 | 6300 | 8800 | 9500 | 9500 | 4800 | 5000 |
随机读取 (4KB) KIOPS | 2800 | 2800 | 2800 | 2800 | 2800 | 2800 | 2800 | 2800 |
随机写入 (4KB) KIOPS | 300 | 380 | 300 | 380 | 380 | 380 | 200 | 200 |
4K 随机延迟(典型值)RW µs | 57/8 | 54/8 | 56/8 | 54/8 | 54/8 | 54/8 | 57/8 | 54/8 |
4K 顺序延迟(典型值)RW µs | ||||||||
典型功率 (W) | 18 | 18 | 18 | 19 | 19 | 19 | 17.5 | 17.5 |
闲置功率 (W) | 7 | 7 | 7 | 5 | 5 | 5 | 7 | 7 |
闪光灯类型 | ||||||||
耐力 | ||||||||
平均无故障时间 | ||||||||
UBER | ||||||||
保修政策 |
绩效结果
为了更好地了解 DapuStor Haishen5 H5100 E3.S SSD 的性能,我们在 Supermicro 存储服务器中测试了 16 个 7.68TB 驱动器。Supermicro Storage A+ ASG-1115S-NE316R 是一款高性能 1U 机架式服务器,适用于数据密集型应用。它支持 16 个热插拔 E3.S NVMe 驱动器,使其成为这些 SSD 的理想测试平台。该服务器由单个 AMD EPYC 9634 84 核 CPU 和 384GB DDR5 ECC 内存提供支持。
我们使用 Graid 解决方案来聚合 DapuStor SSD。Graid 将写入奇偶校验计算工作卸载到 GPU,从而释放系统资源以用于其他进程。对于 PCIe Gen4/5 平台,Graid 目前使用 NVIDIA A2000 GPU。大多数平台上带有主动空气冷却器的普通双宽卡就足够了。然而,在这个带有两个单宽插槽的 Supermicro 1U 平台上,Graid 有一个解决方案。他们有一个带有薄型被动冷却器的 NVIDIA A2000 的改进版本,允许将其用于具有气流但没有空间容纳类似于较厚 GPU 的设备的服务器平台。
使用 Graid 后,我们将存储聚合到一个大型 RAID5 池中,将 16 个 7.68TB DapuStor Haishen5 H5100 E3.S SSD 组合起来,创建一个 105TB 的卷。Graid 的默认卷条带大小为 4KB。虽然 JBOD 闪存性能可以提供更高的性能,但如果任何 SSD 发生故障,则存在完全数据丢失的风险。RAID 解决方案可以防止驱动器丢失事件,是此测试场景的更好选择。
我们使用 16 个 DapuStor Haishen5 H5100 PCIe Gen5 SSD 组成一个大型 HW RAID5 Graid 组,首先进行峰值带宽和峰值 I/O 测试。这是客户需要考虑的重要事项。奇偶校验保护对于防止驱动器发生故障时数据丢失至关重要。但是,必须避免引入过多的开销,因为这可能会限制系统性能。
以 1MB 的数据传输大小为重点,查看峰值读取带宽,我们发现该 RAID 组的速度高达惊人的 205GB/s。对于 12.8 驱动器 RAID16 组,这相当于每个驱动器 5GB/s。在连续写入中,我们测量到总计 105GB/s 或每个 SSD 6.6GB/s。这些接近 SSD 规格表上 14GB/s 读取和 5GB/s 写入的数字。
We 查看 4K 随机传输速度 测量峰值吞吐量. 4K 随机读取最高达到 18.1M IOPS 和 52.4GB/s,而 4K 随机写入最高达到 1.873M IOPS 和 7.7GB/s。
峰值吞吐量和带宽 |
DapuStor 7.68TB x 16 HW RAID吞吐量 | DapuStor 7.68TB x 16HW RAID带宽 | DapuStor 7.68TB x 16HW RAID延迟 |
1MB 顺序读取 (84T/16Q) | 129k IOPS | 205GB /秒 | 6.9ms |
1MB 顺序写入 (84T/16Q) | 100k IOPS | 105GB /秒 | 13.4ms |
4K随机读取(84T/32Q) | 12.8 万次 IOPS | 52.4GB /秒 | 0.21ms |
4K随机读取(84T/256Q) | 18.1 万次 IOPS | 74.3GB /秒 | 1.184ms |
4K随机写入(84T/32Q) | 1.873 万次 IOPS | 7.7GB /秒 | 0.717ms |
虽然静态读取或写入测试在测量峰值带宽或吞吐量时很重要,但跨各种块大小的混合 I/O 性能可以显示存储在更传统的用例中的表现。
我们从 4K 块大小开始,读取百分比介于 70% 到 90% 之间。将 70% 读取、30% 写入的随机工作负载应用于 DapuStor Haishen5 H5100 16 SSD RAID 组,我们测量到的吞吐量为 4.173M IOPS 和 17.1GB/s。同时保持平均延迟仅为 0.644ms。将读取混合比例增加到 80% 时,吞吐量增加到 5.762M IOPS 和 23.6GB/s。在 90% 读取混合比例下,性能继续扩展到 7.36M IOPS 和 30.1GB/s。
混合 4K 随机吞吐量和带宽 |
DapuStor 7.68TB x 16HW RAID吞吐量 | DapuStor 7.68TB x 16HW RAID带宽 | DapuStor 7.68TB x 16HW RAID延迟 |
4K 随机 70/30 (84T/32Q) | 4.173 万次 IOPS | 17.1GB /秒 | 0.644ms |
4K 随机 80/20 (84T/32Q) | 5.762 万次 IOPS | 23.6GB /秒 | 0.466ms |
4K 随机 90/10 (84T/32Q) | 7.360 万次 IOPS | 30.1GB /秒 | 0.365ms |
当将块大小增加到 8K 时,我们更接近传统数据库和 OLTP 工作负载。在这里,16 Gen5 SSD HW RAID 组继续以其令人难以置信的性能给我们留下深刻印象。在 70% 的读取混合下,我们测量了 2.956M IOPS 或 24.3GB/s。在 80% 的读取混合下,吞吐量增加到 4.024M IOPS,带宽增加到 33GB/s。在 90% 的读取混合下,我们测量了 5.939GB/s 的 48.7M IOPS,平均延迟仅为 0.452ms。
混合 8K 随机吞吐量和带宽 |
DapuStor 7.68TB x 16 HW RAID吞吐量 | DapuStor 7.68TB x 16 HW RAID带宽 | DapuStor 7.68TB x 16 HW RAID延迟 |
8K 随机 70/30 (84T/32Q) | 2.956 万次 IOPS | 24.3GB /秒 | 0.909ms |
8K 随机 80/20 (84T/32Q) | 4.024 万次 IOPS | 33GB /秒 | 0.668ms |
8K 随机 90/10 (84T/32Q) | 5.939 万次 IOPS | 48.7GB /秒 | 0.452ms |
在我们的随机工作负载测试中,16K 块大小的得分最高。借助 GPU 加速的 HW RAID 将 16 个 H5100 Gen5 SSD 组合成 RAID5,我们可以提高平台的可用带宽。从 70% 的读取混合开始,我们测量了 1.938M IOPS 和 31.7GB/s。在 80% 的读取时,该值增加到 2.484M IOPS 和 40.6GB/s,平均延迟接近 1ms。在 90% 的读取峰值时,存储阵列能够测量 3.63M IOPS 和 59.4GB/s 的总带宽,考虑到这是随机 I/O 命中阵列,这是一个令人难以置信的数字。
混合 16K 随机吞吐量和带宽 |
DapuStor 7.68TB x 16 HW RAID吞吐量 | DapuStor 7.68TB x 16 HW RAID带宽 | DapuStor 7.68TB x 16 HW RAID延迟 |
16K 随机 70/30 (84T/32Q) | 1.938 万次 IOPS | 31.7GB /秒 | 1.386ms |
16K 随机 80/20 (84T/32Q) | 2.484 万次 IOPS | 40.6GB /秒 | 1.082ms |
16K 随机 90/10 (84T/32Q) | 3.630 万次 IOPS | 59.4GB /秒 | 0.740ms |
结论
像 DapuStore Haishen5 H5100 这样的高性能 SSD 对于高级应用程序至关重要。在人工智能和机器学习中,这些 SSD 可加速数据处理,从而实现更快的模型训练和实时分析。对于大数据分析,它们可确保快速的数据检索和分析,支持明智的业务决策。在高频交易中,它们提供所需的低延迟和高速交易。此外,Haishen5 H5100 E3.S 为虚拟化和云计算提供一致且快速的数据访问,这对于维护高效可靠的虚拟化环境至关重要。几乎每个用例都可以从 Gen5 SSD 提供的显着性能和效率提升中受益。
在我们的测试中,H5100 SSD 在我们密集的 1U 服务器中提供了令人难以置信的性能。它是适用于各种高性能应用程序的多功能解决方案,可帮助企业满足不断变化的数据存储需求。我们专注于使用 Graid SupremeRAID 设置的 GPU 加速 HW RAID 性能。这使我们能够在此服务器中保持 16 个 PCIe Gen5 SSD 的强大性能,而不会损害 JBOD 或 RAID0 配置的存储完整性。此设置的亮点包括令人难以置信的 205GB/s 读取和 105GB/s 写入顺序带宽,传输大小为 1MB。随机 I/O 性能也很强大,在 18.1K 传输测试中测量了令人印象深刻的 1.9M IOPS 读取和 4M IOPS 写入。
与机箱内性能一样令人兴奋的是跨网络共享数据的潜力。虽然还处于早期阶段,但我们正在试验此 DapuStor 设置和 Broadcom 400GbE OCP NIC。在 1U 机箱中安装两个这样的 NIC,我们预计可实现约 80GB/s 的共享存储性能。对于 AI 训练或实时数据可视化等任务,快速网络和快速存储是最大限度提高 GPU 利用率的关键。我们期待这个令人印象深刻的平台取得更多发展。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅