液体冷却と効率的な SSD 管理を組み合わせることで、パフォーマンスとストレージ密度の拡張を目指すデータ センターに前進への道が開かれます。
データ センターは、特に AI ワークロードの需要により、エネルギー効率の向上を目指しており、パフォーマンスを最適化し、エネルギー消費を管理するために、多くのデータ センターが液体冷却を採用しています。液体冷却は、高性能サーバーが発する熱を効率的に管理できるため、従来の空冷に伴うエネルギー集約型のコストをかけずに、サーバーをピーク容量で動作させることができます。Solidigm の高密度 SSD は、これらの環境に最適で、テラバイト対ワットの優れた効率を提供します。
AIは多くのデータセンター運営者に液体冷却の検討を強いるが、その影響はもっと広範囲に及ぶ。前回のレポートでは、 液体冷却の効果 2U Dell PowerEdge R760 でテストしました。CoolIT の直接液体冷却 (DLC) により、ファン速度が低下し、サーバーのエネルギー消費が大幅に削減され、200 ワットの電力が節約されました。このテストは CPU パフォーマンスに重点を置いたものでしたが、今回は、SSD がサーバーの電力消費に与える影響を理解するために、ストレージを中心に検討したいと考えました。
NVMe アクティブ電源状態とは何ですか?
NVMeの電源状態は定義済み状態です NVMe デバイスが電力消費とパフォーマンスを管理するために移行できる状態です。NVMe 仕様では最大 32 の電源状態が許可されており、それぞれ最大電力消費、開始レイテンシ (ENLAT)、終了レイテンシ (EXLAT)、および相対パフォーマンス値によって特徴付けられます。これらの電源状態は、動作状態と非動作状態に分かれています。動作電源状態 (P 状態) では、デバイスが I/O 操作を処理できます。非動作状態 (F 状態) は、デバイスがアイドル状態で I/O 操作を処理していないときに使用されます。
これらの電源状態の管理は、特にエッジ デバイスや国際宇宙ステーションの SSD などの特殊なアプリケーションなど、電力消費が重大な懸念事項となる環境では、NVMe デバイスの電力効率を最適化するために重要です。たとえば、NVMe 仕様には、Autonomous Power State Transition (APST) などの機能が含まれており、デバイスは現在の使用状況と熱条件に基づいて電源状態を自動的に切り替えることができます。これにより、パフォーマンスと電力消費のバランスが保たれ、リモート環境や制約のある環境での信頼性の高い動作が保証されます。Runtime D3 (RTD3) のサポートにより、デバイスはゼロ電力アイドル状態に入ることができ、デバイスが使用されていないときにさらにエネルギーを節約できます。
NVMe 電源状態は、電力効率と熱管理が最優先される場合に特に有益です。たとえば、エッジ デバイスでは、アイドル時に低電力状態にすばやく移行する機能により、エネルギー消費を大幅に削減できます。これは、電力が限られている遠隔地や過酷な環境で動作するデバイスにとって重要です。これは、PCIe Active State Power Management (ASPM) などの機能や、電力消費を最小限のレベルに抑える L1.1 や L1.2 などの低電力状態によって実現されます。環境が制限され、制御されているため、ISS での電力と熱出力の管理は非常に重要です。NVMe 電源状態は、SSD の電力消費を抑えて熱設計電力 (TDP) を管理し、全体的なエネルギー バジェットを最適化するのに役立ちます。これにより、SSD が過熱することなく効率的に動作することが保証されます。
これらの特殊な環境では、NVMe 電源状態は、NVMe デバイスの電力消費を柔軟かつ効率的に管理する方法を提供します。これらの状態を活用することで、デバイスはパフォーマンスと電力効率のバランスをとることができ、エッジ コンピューティングから宇宙ミッションまで、さまざまなアプリケーションに適したものになります。リアルタイムの状況に基づいて電源状態を動的に調整する機能により、NVMe デバイスはさまざまな環境のさまざまな要求を満たしながら、エネルギー効率と熱管理を最適化できます。
NVMe 電源状態に加えて、複合温度とタッチ温度の概念は、新しいエンタープライズ SSD の NVMe SSD の熱性能を管理する上で重要な役割を果たします。タッチ温度は、SSD の外部ケース温度を表します。Solidigm は、新しいより高いタッチ温度標準の採用においてリーダー的存在です。たとえば、Solidigm D5-P5336 の工場出荷時設定のタッチ温度は 80°C です。このより高いタッチ温度制限により、SSD を低い空気流で冷却したり、より高い周囲温度で動作させたりすることができます。この柔軟性により、データ センターは冷却戦略を最適化し、全体的な熱管理を改善できるため、冷却コストを削減し、SSD の信頼性と寿命を向上させることができます。
NVMe アクティブ電源状態の管理
Ubuntu 22.04 を実行する Linux テスト環境では、NVMe ツールセットを使用してドライブをポーリングし、D5-P5336 の電源状態を表示および変更できます。以下に示すように、ドライブは状態 0,1、2、0 をサポートしており、ステージ 2 は最も制限が少なく、ステージ XNUMX は最も制限が厳しくなっています。
Solidigm 61.44 TB D5-P5336 の場合、PS0 は 25W、PS1 は 15W、PS2 は 10W です。ドライブのアイドル時の消費電力は約 5.5W なので、電力モードが上がるにつれて、SSD が NAND の読み取りおよび書き込み操作に費やす電力オーバーヘッドはますます少なくなります。書き込み操作は最も大きな影響を受けます。NAND への書き込みには読み取りよりも多くの電力が使用されるためです。
Solidigm D5-P5336 SSD の現在の電源状態を確認するコマンドを以下に示します。現在の値 00000000 は、ドライブが PS0 (最高の 25W モード) であることを示します。
電源状態を変更するために同様のコマンドが発行され、最後の数字は SSD に設定する電源モードを表します。たとえば、次のコマンドは、Soldigim D0-P5 SSD の電源モードを PS5336 に設定します。電源モード 1 または 2 を使用する場合は、正しい電源モードに対応するように --value= の数字を変更します。
電源状態がパフォーマンスに与える影響
Solidigm D5-P5336 61.44TB SSD の電源状態による電力への影響とパフォーマンスへの影響を測定するために、Dell PowerEdge R760 に 24 台の SSD を装備しました。Ubuntu と FIO ワークロード ジェネレーターを実行することで、すべての SSD で一貫したワークロードを簡単に実行し、電源モードをオンザフライで更新することができました。
システム レベルで電力を監視するために、サーバーの iDRAC9 オンボード管理システム内の Dell オンボード電力監視を使用しました。
各ドライブで 128K のブロックサイズを使用して、シーケンシャル読み取りおよび書き込み帯域幅のワークロードに焦点を当て、24 台の SSD 全体の総合パフォーマンスを測定しました。760 台の NVMe ベイを備えたこの特定の Dell PowerEdge R24 構成では、直接接続された NVMe ベイではなく PCIe スイッチが活用されていることに注意してください。そのため、測定された総帯域幅は、ドライブに到達する前に利用可能な PCIe スイッチ レーンを飽和させます。これは、Soldigim P5536 の仕様シートと比較して測定した総読み取りパフォーマンスに影響しますが、総合書き込み速度はすべてその制限を下回りました。
合計ワット | 書き込み速度 | 読み取り GB/秒 | 出力 オーバーベース |
ワット/ドライブ (システムオーバーヘッドあり) |
|
---|---|---|---|---|---|
アイドル状態 ドライブなし | 462 | – | – | – | – |
アイドルドライブがインストールされています | 594 | – | – | 132 | 5.5 |
24倍速シーケンシャル読み取りPS0 | 858 | – | 109GB /秒 | 396 | 16.5 |
24倍速シーケンシャル読み取りPS1 | 858 | – | 105GB /秒 | 396 | 16.5 |
24倍速シーケンシャル読み取りPS2 | 759 | – | 79.8GB /秒 | 297 | 12.375 |
24x シーケンシャル書き込み PS0 | 1089 | 82.5GB /秒 | – | 627 | 26.125 |
24x シーケンシャル書き込み PS1 | 825 | 34.4GB /秒 | – | 363 | 15.125 |
24x シーケンシャル書き込み PS2 | 726 | 17.3GB /秒 | – | 264 | 11 |
空冷プラットフォームを直接液体冷却に変換するメリットに関する記事を振り返ると、CPU に関しては若干のパフォーマンス向上が見られましたが、200W の電力も節約できました。利用可能なすべてのリソースを GPU とハイエンド CPU に割り当てることが多い AI 中心のサーバーの新しい波では、電力は貴重な商品です。空冷の電力予算の上限または上限に近いデータ センターでは、DLC に切り替えると電力予算が確保され、空冷サーバーと同じ電力フットプリントで、サーバーにさらに多くの SSD を搭載できるようになります。
200W の電力節約は、ストレージ密度の面で大きな効果があります。読み取り中心のワークロードの場合、この節約により、空冷サーバーと比較して、液冷サーバーでストレージ フットプリントを 12 台から 24 台に倍増できます。Solidigm D5-P5336 を使用すると、この 24 ベイ サーバーのストレージ容量は、液体ループのおかげで 737 TB から 1,474 TB に増加しました。ワークロードが書き込み中心の場合、サーバーに約 24 台の追加 SSD を装備できます。ただし、これらの数値は基本電力モードの場合であるため、書き込みパフォーマンスをいくらか最大限に削減してもかまわない場合は、パフォーマンスを低下させた書き込み中心のワークロードで、サーバーに XNUMX 台の SSD を簡単に搭載できます。
まとめ
Solidigm D5-P5336 SSD のテストを通じて、NVMe 電源状態の管理がパフォーマンスに劇的な影響を与えることなく、電力効率に大きく影響することがわかりました。エネルギー効率の最大化を目指すデータ センター オペレーターは、これらの電源状態を活用して、特に電力が貴重な AI 中心の環境で、ストレージ密度を高めたり、運用コストを削減したりできます。Solidigm の高密度 SSD は、特に最新の液体冷却技術により、テラバイト対ワットの優れた効率を提供し、この点で有利です。
調査結果から、電源状態をわずかに調整するだけでも大幅な電力節約が実現できることが明らかになりました。これは、電力の可用性が制限される環境では非常に重要です。サーバーの全体的な電力消費を最適化すると、ストレージ密度が向上し、より持続可能なデータセンターの運用がサポートされます。
最新のサーバーは限界に達しており、特に AI 駆動型のワークロードでは、電力管理がますます重要になっています。液体冷却と効率的な SSD 管理オプションを組み合わせることで、電力予算を超過することなくパフォーマンスとストレージ密度を拡張したいと考えているデータセンターに前進の道が開かれます。
これらのテクノロジーの完全なデモは、OCP 2024 でライブでご覧いただけます。液体冷却と Solidigm の SSD が、現代のデータ センターのエネルギー効率の基盤となる仕組みをご紹介します。
このレポートは Solidigm によって後援されています。このレポートで表明されているすべての見解や意見は、検討中の製品に対する当社の公平な見解に基づいています。
StorageReview と連携する
ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード