将液体冷却与高效的 SSD 管理相结合,为寻求扩展性能和存储密度的数据中心提供了一条前进的道路。
随着数据中心努力提高能源效率,尤其是满足 AI 工作负载的需求,许多数据中心开始采用液体冷却来优化性能并管理能源消耗。液体冷却可以有效地管理高性能服务器产生的热量,使其能够以峰值容量运行,而无需承担传统空气冷却带来的高能耗成本。Solidigm 的高密度 SSD 非常适合这些环境,可提供卓越的 TB 到瓦效率。
虽然人工智能迫使许多数据中心运营商考虑液体冷却,但其影响却更为深远。在之前的一份报告中,我们研究了 液体冷却效果 在 2U Dell PowerEdge R760 上。CoolIT 的直接液体冷却 (DLC) 通过降低风扇速度显著降低了服务器能耗,节省了 200 瓦的功耗。该测试完全以 CPU 性能为中心;这一次,我们希望从存储的角度来了解 SSD 对服务器功耗的影响。
什么是 NVMe 活动电源状态?
NVMe 电源状态是预定义状态 NVMe 设备可以转换到这些状态来管理功耗和性能。NVMe 规范允许最多 32 种电源状态,每种状态都具有最大功耗、进入延迟 (ENLAT)、退出延迟 (EXLAT) 和相对性能值。这些电源状态分为运行状态和非运行状态。运行电源状态或 P 状态允许设备处理 I/O 操作。非运行状态或 F 状态用于设备处于空闲状态且不处理 I/O 操作的情况。
管理这些电源状态对于优化 NVMe 设备的电源效率至关重要,尤其是在功耗至关重要的环境中,例如边缘设备和专用应用程序(如国际空间站上的 SSD)。例如,NVMe 规范包括自主电源状态转换 (APST) 等功能,该功能允许设备根据当前使用情况和热条件自动在电源状态之间转换。这有助于平衡性能和功耗,确保在远程或受限环境中可靠运行。运行时 D3 (RTD3) 支持允许设备进入零功率空闲状态,从而在设备不使用时进一步节省能源。
当电源效率和热管理至关重要时,NVMe 电源状态尤其有用。例如,在边缘设备中,在空闲时快速转换到较低功率状态的能力可以显著降低能耗,这对于在电源有限的远程或恶劣环境中运行的设备至关重要。这是通过 PCIe 主动状态电源管理 (ASPM) 等功能以及 L1.1 和 L1.2 等低功耗状态实现的,这些功能将功耗降至最低水平。由于环境有限且受控,管理国际空间站上的电源和热量输出至关重要。NVMe 电源状态可以帮助限制 SSD 的功耗,以管理热设计功耗 (TDP) 并优化整体能源预算,确保 SSD 高效运行而不会过热。
在这些专用环境中,NVMe 电源状态提供了一种灵活而高效的方式来管理 NVMe 设备的功耗。通过利用这些状态,设备可以平衡性能和电源效率,使其适用于从边缘计算到太空任务的各种应用。根据实时条件动态调整电源状态的能力可确保 NVMe 设备能够满足不同环境的不同需求,同时优化能源效率和热管理。
除了 NVMe 电源状态之外,复合温度和触摸温度的概念在管理新型企业级 SSD 中的 NVMe SSD 热性能方面也发挥着至关重要的作用。触摸温度表示 SSD 的外壳温度。Solidigm 一直是采用新的更高触摸温度标准的领导者。例如,Solidigm D5-P5336 的出厂设置触摸温度为 80°C。这种更高的触摸温度限制允许 SSD 使用较低的气流进行冷却或在更高的环境温度下运行。这种灵活性使数据中心能够优化冷却策略并改善整体热管理,从而可能降低冷却成本并提高 SSD 的可靠性和使用寿命。
管理 NVMe 活动电源状态
在运行 Ubuntu 22.04 的 Linux 测试环境中,我们可以使用 NVMe 工具集轮询驱动器以查看和更改 D5-P5336 的电源状态。如下所示,驱动器支持状态 0,1、2 和 0,其中阶段 2 限制最少,阶段 XNUMX 限制最多。
对于 Solidigm 61.44 TB D5-P5336,PS0 为 25W,PS1 为 15W,PS2 为 10W。驱动器的空闲功耗约为 5.5W,因此随着功率模式的每次升级,SSD 用于 NAND 读写操作的功率开销越来越少。写入操作受到的影响最大,因为写入 NAND 所消耗的功率比读取 NAND 所消耗的功率要大。
检查 Solidigm D5-P5336 SSD 当前电源状态的命令如下所示。当前值 00000000 表示驱动器处于 PS0,即最高 25W 模式。
发出类似的命令来更改电源状态,最后一个数字代表您希望 SSD 处于的电源模式。例如,以下命令将 Soldigim D0-P5 SSD 上的电源模式设置为 PS5336。如果您使用电源模式 1 或 2,请更改—-value= 数字以对应正确的电源模式。
电源状态对性能的影响
为了测量电源状态对 Solidigm D5-P5336 61.44TB SSD 的功率影响和性能影响,我们为 Dell PowerEdge R760 配备了 24 个 SSD。运行 Ubuntu 和 FIO 工作负载生成器,我们可以轻松地在所有 SSD 上运行一致的工作负载并动态更新电源模式。
我们使用戴尔服务器 iDRAC9 板载管理系统内的板载电源监控来监控系统级电源。
我们专注于顺序读取和写入带宽工作负载,在每个驱动器上使用 128K 块大小,然后测量所有 24 个 SSD 的总体性能。值得注意的是,这款具有 760 个 NVMe 托架的 Dell PowerEdge R24 配置利用了 PCIe 交换机而不是直接连接的 NVMe 托架。因此,测量的总带宽在到达驱动器之前会饱和可用的 PCIe 交换机通道。与 Soldigim P5536 规格表相比,这会影响我们测量的总体读取性能,但总体写入速度都低于该限制。
总瓦数 | 写速度 | 读取 GB/s | 功率 超过基础 |
瓦特/驱动 (有系统开销) |
|
---|---|---|---|---|---|
空闲 无驱动器 | 462 | – | – | – | – |
已安装闲置驱动器 | 594 | – | – | 132 | 5.5 |
24x 顺序读取 PS0 | 858 | – | 109GB /秒 | 396 | 16.5 |
24x 顺序读取 PS1 | 858 | – | 105GB /秒 | 396 | 16.5 |
24x 顺序读取 PS2 | 759 | – | 79.8GB /秒 | 297 | 12.375 |
24x 顺序写入 PS0 | 1089 | 82.5GB /秒 | – | 627 | 26.125 |
24x 顺序写入 PS1 | 825 | 34.4GB /秒 | – | 363 | 15.125 |
24x 顺序写入 PS2 | 726 | 17.3GB /秒 | – | 264 | 11 |
回顾我们关于将风冷平台转换为直接液体冷却的好处的文章,我们发现 CPU 的性能略有提升,但同时也节省了 200W 的电力。在新一波以 AI 为中心的服务器中,电力是一种宝贵的商品,这些服务器经常将所有可用资源专用于 GPU 和高端 CPU。在处于或接近风冷功率预算限制的数据中心中,切换到 DLC 可以获得一定的电力预算,使服务器能够在与风冷服务器相同的功率占用空间下安装更多 SSD。
200W 的功耗节省对于存储密度大有裨益;如果您的工作负载是读取密集型工作负载,那么与风冷服务器相比,这种节省可让您将液冷服务器的存储空间从 12 个 SSD 增加到 24 个 SSD。借助 Solidigm D5-P5336,这款 24 托架服务器的存储容量从 737TB 增加到 1,474TB,这要归功于液冷循环。如果工作负载写入密集,您将能够在服务器上再配备大约八个 SSD。但是,这些数字是在基本功率模式下得出的,因此如果您愿意削减一些写入性能,您可以轻松地在服务器上安装 24 个 SSD,以降低性能,同时处理写入密集的工作负载。
结语
通过对 Solidigm D5-P5336 SSD 的测试,我们发现管理 NVMe 电源状态可以显著影响电源效率,而不会显著影响性能。希望最大限度提高能源效率的数据中心运营商可以利用这些电源状态来实现更高的存储密度或降低运营成本,尤其是在以 AI 为中心的环境中,这种环境中的电力非常宝贵。Solidigm 的高密度 SSD 非常适合此用途,可提供出色的 TB 到瓦效率,尤其是采用现代液体冷却技术。
我们的研究结果表明,即使对电源状态进行轻微调整也能显著节省电能,这在电力供应受限的环境中至关重要。优化服务器的整体功耗可提高存储密度并支持更可持续的数据中心运营。
随着现代服务器的性能被推向极限,尤其是在 AI 驱动的工作负载下,电源管理变得越来越重要。将液体冷却与高效的 SSD 管理选项相结合,为希望在不超出功率预算的情况下扩展性能和存储密度的数据中心提供了一条前进的道路。
您可以在 OCP 2024 上现场观看这些技术的完整演示。我们将展示液体冷却和 Solidigm 的 SSD 如何成为现代数据中心能源效率的基石。
本报告由 Solidigm 赞助。 本报告中表达的所有观点和意见均基于我们对所考虑产品的公正看法。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅