StorageReview.com

2Uで300GB/秒:Dell PowerEdge R7725xdがストレージパフォーマンスの期待を一新

Enterprise  ◇  サーバー

サーバーの中には既存のものを拡張するものもあれば、期待を一新するものもあります。Dell PowerEdge R7725xdは後者のカテゴリーに属します。最近実施したテストでは、Micron 9550 PRO PCIe Gen5 NVMe SSD 24台と200GbE NIC 2基を搭載したこの2Uサーバーは、これまで測定したどのシステムよりも高い物理ストレージスループットを達成しました。内部的には、NVMeプール全体で300GB/秒以上のスループットを維持しました。ネットワーク経由では、標準RDMAを使用して160GB/秒を実現し、複雑さは一切ありませんでした。

デル PowerEdge R7725xd

これは単なる高速ストレージサーバーではありません。データ集約型コンピューティングのアーキテクチャを変革するシステムです。現代のAIトレーニングおよび推論パイプラインは、GPUの処理能力ではなく、データのステージング、ストリーミング、シャッフル、チェックポイント設定の速度によって制約を受けることがよくあります。ストレージが追いつかなければ、大規模なGPUノードはアイドル状態になります。チームは、キャッシュ、オーバーサイジング、複雑な階層化を用いてこれらの制約に対処し、アクセラレータがコストに見合うだけの速度でデータを受信できるようにしています。

Dell PowerEdge R7725xdは、ボトルネックを発生源で解決します。このサーバーは24ベイのU.2バックプレーンを基盤とし、各ドライブは専用のPCIe Gen5 x4リンクを介してAMD EPYC CPUコンプレックスに直接接続されます。帯域幅のファンアウトはなく、同時実行性を低減するミッドプレーンエクスパンダーも使用されていません。ハードウェアは競合なくスループットを集約するように設計されているため、パフォーマンスはスムーズに拡張されます。従来の2ソケット構成では、CPUはソケット間通信のために4つのXGMIリンクで接続されます。 R7725xd では、これらのリンクの 1 つが、CPU ごとに追加の 16 レーンの PCIe Gen5 に再利用され、サーバーには合計 160 レーンの PCIe Gen5 (フロント SSD 用に 96 レーン、4 つのリア PCIe スロット用に 64 レーン) が提供されます。持続的な書き込みワークロードと高い耐久性を実現するように設計された Micron の 9550 PRO SSD と組み合わせると、システムは、チェックポイントを集中的に使用するワークロードと継続的なストリーミング ワークロードをサポートできる高スループットのデータ エンジンになります。

重ねて ピーク:AIO このアーキテクチャを基盤として、並列送信パスを活用し、同時実行性の向上に伴う効率性を維持しました。その結果、ピークパフォーマンスだけでなく、負荷下でも安定したパフォーマンスを実現しました。このプラットフォームは、前処理、トレーニング、変換のためのローカル実行ノードとして動作することも、ネットワーク経由で複数のGPUシステムに高帯域幅のストレージを提供することもできます。さらに冒険心があれば、両方を同時に実行することも可能です。

主要なポイント(要点)

  • 単一ノードで前例のないスループット: R7725xd は、300 GB/秒を超える内部帯域幅と NVMe-oF RDMA 経由で 160 GB/秒を維持し、2U シャーシ内のマルチノード ストレージ クラスターに匹敵します。
  • 真の Gen5 アーキテクチャ、スイッチなし、ファンアウトなし: 24 個の Micron 9550 PRO SSD はすべて、CPU 複合体から専用の x4 PCIe Gen5 レーンを直接受信し、競合のないライン レートのスケーリングを可能にします。
  • AMD EPYC 9005シリーズ搭載: デュアル AMD EPYC 9575F プロセッサは、持続的な高同時実行 I/O に必要なレーン数、メモリ帯域幅、および NUMA トポロジを提供します。
  • AI、分析、チェックポイントを多用するワークロード向けに設計: このシステムは、最新の GPU パイプラインを停止させる I/O ボトルネックを解消し、継続的な高帯域幅のデータ配信を可能にします。
  • PEAK:AIO は完全な並列処理を実現します: PEAK:AIO のソフトウェア スタックは、負荷がかかってもキュー構造を飽和状態に保ち、魅力的な 1 GB あたりのコスト比率でエンタープライズ パフォーマンスを実現します。

NVMeスループットに特化した設計

最新世代のサーバーでは、Dellはストレージ密度の高いサーバー構成におけるPCIeスイッチの使用を廃止しました。PowerEdge R770やR7725などのモデルは、PCIe Gen5 x4ベイを搭載し、最大16台のSSD構成をサポートします。また、より大規模なストレージバックプレーン構成では、x2ベイにスイッチを切り替えます。PowerEdge R760などの前世代のサーバーでは、24ベイNVMe構成にPCIeスイッチが搭載されていました。PCIeスイッチによる複雑さを軽減し、構築を簡素化するために、新しいサーバーではストレージ密度の高い構成においてPCIeレーン数を削減する戦略を採用しました。しかし、R7725xdが登場するまでは、それは変わりませんでした。

標準のR7725とR7725xdの違いは、プラットフォームがPCIeルートコンプレックスのリソースをどのように割り当てるかにあります。ベースモデルのR7725は、PCIeレーンをストレージ、GPU拡張、汎用I/Oに分配します。「xd」バリアントでは、そのリソース割り当てを再配分し、NVMeサブシステムがPCIe帯域幅の主な消費源となります。24個のU.2ベイはCPUのPCIe Gen5ルートに直接接続され、各SSDはPCIeスイッチやリタイマーツリーを介して公開される共有アップリンクではなく、独自のx4エンドポイントを受け取ります。これにより、各ドライブは独立したキュー構造と、メモリコントローラに戻る独立したDMAパスを持ちます。

バックプレーンとライザーのトポロジーは、このコミットメントを反映しています。デルは、NVMeコネクタとPCIeスロットを両方のAMD EPYCソケットにグループ化することで、各プロセッサーがドライブセットの一部を直接所有できるようにしています。実際には、これにより2つの対称NVMeドメインが作成され、それぞれがローカルレイテンシ特性と完全な読み取り/書き込み同時実行性を備えています。4枚のBroadcomデュアルポート200GbE NICをアドインカードとしてインストールしたところ、スロット配置により、各NICは対応するNVMeグループにアラインされたPCIeドメインに配置されました。NVMe-over-RDMAでは、これはネットワークトラフィックが関連するドライブI/Oを処理するソケットにローカルにとどまることを意味しており、通常はレイテンシを増加させ、負荷時に帯域幅を消費するソケット間のInfinity Fabricホップを回避します。

熱挙動も持続的なスループットをサポートします。U.2は、各デバイスに明確なエアフローチャネルと予測可能なヒートシンク面積を提供するため、高密度Gen5構成でも有利です。R7725xdの高静圧ファンモジュールとシャーシダクトは、24ベイ全体にわたって一貫したエアフローを維持し、ドライブ全体の書き込みワークロードをスロットリングなしで継続的に実行できます。機械設計は電気設計を補完し、プラットフォームは負荷時に24台のGen5デバイスを同時に冷却できるように設計されているため、各ドライブはフルレートのパフォーマンスを維持できます。

ルートコンプレックス・アライメント、一貫性のあるNUMA(Non-Uniform Memory Access)レーンレイアウト、ソケット対応NIC配置、そして熱的に安定したU.2パッケージングの組み合わせにより、システムは大規模なラインレートI/Oを実現します。このアーキテクチャはボトルネックを回避し、パフォーマンスを最適化します。

Dell PowerEdge R7725xd iDRAC 10 の概要

この世代のR7725xdは、私たちが評価した他の多くの第17世代プラットフォームと同様に、Dellの新しいiDRAC 10プラットフォームを搭載しており、リモート管理、ヘルスモニタリング、アウトオブバンド制御の中心として機能します。ダッシュボードビューでは、システム全体のヘルス、ストレージの状態、最近のアクティビティの概要をすぐに確認できます。テストユニットでは、システムとストレージのヘルスレポートが緑色で表示され、サーバーが正常に動作していることが確認できます。モデル、ホスト名、BIOSバージョン、iDRACファームウェアレベル、IPアドレス、ライセンス情報などの主要なシステム詳細は、インターフェースの右側に表示されます。

ダッシュボードには、完了、保留中、進行中の操作を表示するタスクサマリーパネルも含まれています。その下には、シャーシ侵入イベントや電源メッセージなどの最近のログが一覧表示されており、より深いメニューに移動することなく、ハードウェアの状態変化を迅速に把握できます。右下隅には仮想コンソールパネルがあり、KVMをリモートから完全に制御できます。

iDRAC 10のストレージセクションでは、R7725xdに搭載されているすべての物理ディスクの完全な概要が表示されます。サマリーパネルには、接続されているすべてのドライブの概算数と、ドライブの状態を示す円グラフが表示されます。この構成では、24台のNVMe SSDがアクティブで準備完了状態にあり、システムにはプライマリのフロントNVMeバンクとは別に、2台のブートデバイスが追加で存在しています。

右側の「ディスクの概要」パネルでは、物理ディスクとそれに関連付けられた仮想ディスクが分類されます。R7725xdは従来のRAIDコントローラーを使用せず、ダイレクトNVMeアーキテクチャを採用しているため、すべてのドライブは非RAIDとして表示され、個別にアドレス指定可能です。これは、大規模なNVMeプールとSDSプラットフォーム向けのシステム設計に準拠しています。

ステータスサマリーの下にある「最近記録されたストレージイベント」エリアには、各PCIe SSDの挿入ログがベイとスロットごとに表示されます。この記録により、すべてのドライブベイで適切な検出が行われていることが確認され、装着、ケーブル接続、ホットスワップに関する問題を特定するのに役立ちます。大規模な導入環境では、これらのログはドライブのプロビジョニングを追跡したり、容量が想定どおりに設定されていることを確認したりするのに役立ちます。

最後のスクリーンショットは、iDRAC10内のNVMeデバイスの詳細ビューを示しています。システムにインストールされている各NVMeドライブのステータス、容量、ベイの位置が一覧表示されます。個々のドライブを選択すると、その特性の詳細な内訳が表示されます。

この例では、ドライブ情報パネルに、完全なモデル文字列、デバイスプロトコル、フォームファクター、ネゴシエートされたPCIe設定が表示されています。NVMeデバイスは、ネゴシエートされたx4接続で32GT/sのリンク速度で動作しており、ドライブがシステムのPCIe Gen5バックプレーン上で全帯域幅で動作していることが確認できます。情報セクションには、耐久性率、利用可能なスペアのステータス、プロトコルタイプも表示され、管理者がドライブの健全性とライフサイクルの予測を監視するのに役立ちます。

このきめ細かなドライブ レポートは、リンク幅、ネゴシエートされた速度、メディアの健全性がワークロードの動作とストレージ パフォーマンスに直接影響する高密度 NVMe 構成で役立ちます。

全体として、iDRAC 10 インターフェイスは、R7725xd の NVMe ストレージ アーキテクチャのハードウェア中心の明確なビューを提供し、リンクの健全性、ドライブの状態、システムの整合性を一目で簡単に検証できます。

Dell PowerEdge R7725xd のパフォーマンス

テスト前に、システムはバランスの取れた高性能構成で構築されました。システムは、それぞれ64個の高周波数コアを備えたAMD EPYC 9575Fプロセッサを2基搭載し、6400 MT/sで動作する32GB DDR5 DIMMを24枚搭載しています。ストレージは、シャーシ全体に15.36TBのMicron 9550 PRO U.2 NVMe SSDを24台搭載し、それぞれ専用のPCIe Gen5 x4リンクで接続されています。これにより、総物理容量は368.64TBとなり、Micron 9550 PROドライブは最大14,000MB/sのシーケンシャル読み取り速度と最大10,000MB/sのシーケンシャル書き込み速度を実現します。ネットワークは、合計 8 つの 200Gb ポートを提供する 4 つの Broadcom BCM57608 アダプタと、2 つの追加の 10 ギガビット ポートを提供する BCM57412 OCP NIC によって処理されます。

Dell PowerEdge R7725XD フロントベイ

テストシステムの仕様

  • CPU: AMD EPYC 9575F 64コア高周波数プロセッサ×2
  • メモリ: 24x 32GB DDR5 @ 6400MT/s
  • ストレージ: 24x 15.36TB Micron 9550 PRO U.2ドライブ(それぞれ4x PCIe Gen5レーンで接続)。現在最大128TBのドライブをサポートし、将来的にはさらに大容量のドライブもサポートされる予定です。
  • ネットワーク: 4x Broadcom BCM57608 2x200G NIC、1x BCM57412 2x10Gb OCP NIC
  • スイッチ: デル パワースイッチ Z9664

FIOパフォーマンスベンチマーク

PowerEdge R7725xdのストレージパフォーマンスを測定するために、業界標準の指標とFIOツールを使用しました。このセクションでは、以下のFIOベンチマークに焦点を当てます。

  • ランダム4K – 1M
  • シーケンシャル4K – 1M

FIO – ローカル – 帯域幅

Dell PowerEdge R7725xd内部の24基のPCIe Gen5 NVMeドライブへのローカルアクセスをテストしたところ、すべてのドライブがフルx4レーンPCIe Gen5リンクでCPUに接続されているプラ​​ットフォームに期待されるパフォーマンスをまさに実現しました。ネットワーク層を介さず、これはDellのGen5ストレージレイアウトとAMD EPYCプラットフォームのPCIe帯域幅が制限なく動作している純粋な内部スループットです。

シーケンシャルリードは4Kブロックで184GB/秒から始まり、ブロックサイズの増加に伴って急速に拡張されます。512Kから1Mまで、サーバーは312~314GB/秒の安定した速度を維持します。これは、システムがコントローラーステージのボトルネックを発生することなく、24×4 Gen5レーンすべてを統合して持続的なリード帯域幅を実現できることを強く示しています。

シーケンシャル書き込みは異なる曲線を描きますが、予想範囲内にしっかりと収まっています。149GB/秒から始まり、100GB/秒台半ばまで上昇し、1万回書き込み時には182GB/秒に達します。これは、Micron 9550 PRO SSDの書き込み挙動と、多数の独立したデバイス間で高並列にNVMe書き込みを行うことに伴うオーバーヘッドと一致しています。

ランダム読み取り性能も注目すべき点の一つです。最小ブロックサイズでは約300GB/秒の速度を達成し、中規模ではわずかに低下しますが、ブロックサイズが大きくなるにつれて200GB/秒台後半から300GB/秒台前半まで回復します。1MBではランダム読み取りは最大318GB/秒に達し、このプラットフォームが24台のドライブ全体に混合操作を均等に分散できる能力を示しています。

ランダム書き込みの速度は低くなりますが、これは広範なNVMeセットに分散されたメタデータおよび書き込み割り当てタスクで典型的に見られる現象です。結果はテストの大部分で140~160GB/秒の範囲に留まり、1Mでは100GB/秒をわずかに下回る速度に落ち着きました。

FIO – ローカル – IOPS

IOPS 面を調べると、R7725xd は堅牢な小ブロック パフォーマンスを示し、リクエスト レートは数千万に達しますが、その後、ブロック サイズが大きくなると、ワークロードは帯域幅主導のプロファイルに移行します。

4Kでは、読み取りは44.9万IOPS、書き込みは36.3万IOPSに達しました。ランダム読み取りはさらに高い71.4万IOPSに達し、システムがハイキューワークロードをすべてのドライブに効率的に分散する能力を示しています。これらの値はブロックサイズが大きくなるにつれて自然に減少しますが、8K、16K、32Kの範囲では一貫した推移を示しています。

16Kブロックと32Kブロックでは、読み取りはそれぞれ17.4万IOPSと8.35万IOPSに落ち着き、ランダム読み取りもそれぞれ16.5万IOPSと8.15万IOPSとほぼ同水準です。書き込みは予想通りのパターンを示し、シーケンシャルアクセスとランダムアクセスの両方のパターンで低下傾向にありますが、安定しています。

64K以上になると、テストは純粋なIOPSから、より帯域幅に制約されたシナリオへと移行します。IOPSは数百万単位から数十万単位に落ち着くまでになります。ブロックサイズが1MBの場合、読み取りIOPSは約30万、書き込みIOPSは約17万4千、ランダム操作もほぼ同じ値で終了します。

全体的に、ローカル IOPS の結果は、転送が増加し、帯域幅が主要な要素になったときに予測可能なスケーリングを実現しながら、小さなブロック全体で非常に高いキュー深度のワークロードを維持するシステムの能力を明確に示しています。

PEAK:AIO: Dell PowerEdge R7725xdがこのワークロードに最適な理由

PEAK:AIOは、AIトレーニング、推論パイプライン、金融モデリング、リアルタイム分析など、大規模データセットへの極めて高速かつ低レイテンシのアクセスが求められる環境向けに設計されています。このプラットフォームは、高密度NVMeストレージ、バランスの取れたPCIe帯域幅、そして大規模環境でも予測可能なレイテンシを基盤としています。これらの要件を満たすには、基盤となるハードウェアが持続的なスループットを提供し、同時に高負荷環境においても一貫性と再現性のあるパフォーマンスを維持する必要があります。

Dell PowerEdge R7725xdは、まさにこの点でPEAK:AIOと相性抜群です。システムのアーキテクチャはPCIe Gen5のリソースを最大限に活用するように設計されており、従来のRAIDコントローラーに依存せずに、フロントマウントの24個のU.2 NVMeベイの全帯域幅をCPUに直接提供します。このレイアウトにより、PEAK:AIOは最新のNVMeベースのデータパイプラインに期待される並列性とレイテンシプロファイルを実現しています。システム構成では、NVMe SSDを2つのRAID0グループに分割しています。

Dell PowerEdge R7225xd が取り出されました

テストシナリオでは、R7725xdに接続された2台のクライアントシステムを使用し、それぞれにBroadcom BCM57608 2x 200G NICを搭載しました。これにより、各クライアントに合計4つの200Gアップリンクが接続され、R7725xdはPEAK:AIOの実稼働環境を模倣した現実的な高性能構成を実現しました。このレベルのネットワーク帯域幅により、NIC層でボトルネックが発生することなく、NVMeサブシステム、PCIeトポロジ、CPUインターコネクトに十分な負荷をかける余裕が得られました。

その結果、PEAK:AIOのワークロードに効果的に適合するプラットフォームが実現しました。R7725xdは、高密度NVMe容量、PCIe Gen5スループット、並列処理を可能にするデュアルAMD EPYC 9005プロセッサー、そしてクライアントあたり数百ギガビットのマルチクライアントデータ取り込みをサポートするネットワーク機能を備えています。これらすべての特性が、PEAK:AIOのパフォーマンス期待値を実現するための基盤となっています。

ピーク:AIO – NVMe-oF RDMA – 帯域幅

PowerEdge R7725xd の PEAK:AIO で NVMe-oF RDMA 帯域幅の結果を検証したところ、全体的な傾向は、これだけの PCIe およびネットワーク帯域幅を備えたシステムから期待されるものと全く同じでした。ブロックサイズが大きくなるにつれて、スループットは急速に上昇し、プラットフォームの実用的な限界付近で横ばいになります。

ブロックサイズが小さい場合、パフォーマンスは読み取りと書き込みの両方で20GB/秒台半ばから始まります。これは、4Kおよび8K転送ではスループットよりもIOPSパスがはるかに負荷されるため、正常な値です。16Kおよび32Kブロックに入ると、パイプラインが開きます。読み取りは32Kで約154GB/秒に跳ね上がり、その後160GB/秒台まで上昇します。これは、4つの200Gbpsリンクを介したデュアルクライアント構成で期待される速度です。

ランダムリード性能はシーケンシャルリード性能をほぼ完璧に反映しています。PEAK:AIOはコマンドキューへの供給を的確に行っているため、ランダムリード帯域幅はシーケンシャルリード帯域幅とほぼ一致し、32Kから1Mまで約159~161GB/秒で安定しています。これは、ストレージスタックが混合アクセスパターンでもボトルネックになっていないこと、そしてR7725xdのPCIeトポロジが24台のGen5 NVMeドライブに負荷を均等に分散していることを示しています。

書き込みパフォーマンスも同様の曲線を描きますが、読み取りよりもわずかに低い値でピークに達します。シーケンシャル書き込みは中サイズブロ​​ックでは140~148GB/秒の範囲で推移し、128KBで約117GB/秒まで低下しますが、ブロックサイズが大きくなるにつれて回復します。ランダム書き込みは異なる挙動を示し、110~117GB/秒付近で平坦化しますが、これは追加のオーバーヘッドが発生する混合キューワークロードでは正常な値です。

このセクションの重要なポイントは、R7725xdが、複数のクライアントがシステムを限界まで稼働させた場合でも、NVMe-oF経由で極めて高い帯域幅を問題なく維持できるということです。ブロックサイズが32K以上に達すると、サーバーは利用可能なネットワーク帯域幅とストレージ帯域幅を常に飽和状態にします。これはまさにPEAK:AIOが実現するように設計されたパフォーマンスであり、これらの結果は、プラットフォームが実環境下で拡張可能であることを強く裏付けています。

ピークAIO – NVMe-oF RDMA IOPS

IOPSに関しては、PowerEdge R7725xdは小さなブロックで強力なパフォーマンスを示していますが、当初は予想よりも低い数値が観測されました。この問題は、将来的にネットワークドライバのサポートを改善することで解決される予定です。それを踏まえても、全体的なスケーリング傾向は、ブロックサイズが増加する際のNVMe-oF RDMAの典型的な動作と全く同じです。

最小ブロックサイズでは、システムはシーケンシャルワークロードとランダムワークロードの両方で6万IOPS以上を実現できます。読み取り、書き込み、ランダム読み取り、ランダム書き込みはすべて4Kと8Kでほぼ同じ範囲に収まっており、フロントエンドクライアント、PCIeインフラストラクチャ、そしてNVMeドライブ自体がリクエストレートに問題なく対応していることを示しています。

ブロックサイズが大きくなるにつれて、IOPSの低下が始まります。32Kでは、読み取りは約4.7万IOPSですが、書き込みは約4.4万IOPSとやや遅れています。ランダム書き込みはここで最も大きな影響を受け、約3.3万IOPSまで低下します。これは、混合アクセスパターンによって発生する追加のキューとCPUオーバーヘッドと一致しています。

ブロックサイズが大きくなるにつれて、IOPSは予測可能な直線的な減少を続けます。256Kおよび512Kの転送に達すると、スループットが主要な指標となり、IOPSは自然に数十万台半ばまで低下します。1MBのブロックサイズでは、すべてのワークロードが140K~153K IOPSに収束し、これは前のセクションで見た帯域幅の数値と一致しています。

GPUDirect ストレージパフォーマンス

R7725xdで実施したテストの一つに、Magnum IO GPUDirect Storage(GDS)テストがあります。GDSはNVIDIAが開発した機能で、NVMeドライブやその他の高速ストレージデバイスに保存されたデータへのアクセス時に、GPUがCPUをバイパスできるようにします。GDSは、CPUとシステムメモリを経由する代わりに、GPUとストレージデバイス間の直接通信を可能にするため、レイテンシが大幅に削減され、データスループットが向上します。

GPUDirectストレージの仕組み

従来、GPUがNVMeドライブに保存されたデータを処理する場合、データはGPUに到達する前にCPUとシステムメモリを経由する必要があります。このプロセスはCPUを介在させることでボトルネックを引き起こし、レイテンシの増加や貴重なシステムリソースの消費につながります。GPUDirect Storageは、GPUがPCIeバスを介してストレージデバイスから直接データにアクセスできるようにすることで、この非効率性を解消します。この直接的なパスにより、データ移動のオーバーヘッドが削減され、より高速で効率的なデータ転送が可能になります。

AIワークロード、特にディープラーニングを含むワークロードは、膨大なデータ処理を必要とします。大規模なニューラルネットワークのトレーニングにはテラバイト単位のデータ処理が必要であり、データ転送の遅延はGPUの活用率低下やトレーニング時間の長期化につながる可能性があります。GPUDirectストレージは、データがGPUに可能な限り迅速に転送されることで、アイドル時間を最小限に抑え、計算効率を最大化することで、この課題に対処します。

さらに、GDS は、ビデオ処理、自然言語処理、リアルタイム推論など、大規模なデータセットのストリーミングを伴うワークロードに特に役立ちます。CPU への依存度を下げることで、GDS はデータの移動を高速化し、CPU リソースを他のタスクに解放して、システム全体のパフォーマンスをさらに向上させます。

GPUDirectとNVMe-oF(TCP/RDMA)は、帯域幅の限界を超えて、超低レイテンシI/Oを実現します。これにより、GPUがデータ不足に陥る心配がなくなり、リアルタイムAI推論、分析パイプライン、ビデオリプレイに最適なシステムとなります。

GDSIO シーケンシャル読み取り

GDSIOを使用した1クライアントでPEAK:AIOを検証したところ、ブロックサイズとスレッド数の増加に伴い、読み取りスループットは明確なスケーリングパターンを示しました。この1クライアントは2つの400Gリンクで接続されていたため、その総スループットは90GB/秒に制限されていました。

ブロックサイズが最小でスレッド数が少ない場合、パフォーマンスは控えめで、4K の読み取りは単一スレッドで約 189 MiB/秒から始まります。スレッドの並列性を高めると、システムは即座に応答し、4 スレッドで 691 MiB/秒に達し、ブロックサイズが大きくなるにつれて数 GiB/秒の範囲に達します。

中程度のブロックサイズでは、スレッド数に対するスループットの感度が最も高くなります。32Kでは、スループットは1スレッドで1.3GiB/秒ですが、64スレッドになると20GiB/秒近くまで向上し、それ以上になるとわずかに低下します。64Kと128Kでも同様のパターンが見られ、並列度が低い場合は1桁台前半のGiB/秒ですが、ワークロードのスケールに応じて30GiB/秒を超えるまで変化します。

ブロックサイズが大きくなると、スループットは横ばいになり始め、システムが単一クライアントのパフォーマンス上限に近づきます。1MiBでは、パフォーマンスは1スレッドで11GiB/秒、スレッド数が多い場合は約88GiB/秒まで上昇します。5MiBと10MiBの転送でも同様の横ばい傾向を示し、テストが64、128、256スレッドのいずれで実行されているかにかかわらず、約89~90GiB/秒で最高値に達します。

GDSIO シーケンシャル書き込み

書き込み側では、スケーリング挙動は読み取りと同様のパターンを辿りますが、ほとんどのブロックサイズでパフォーマンスがわずかに低下します。これはシーケンシャル書き込みワークロードでは予想されることです。最小ブロックサイズでは、スループットは4Kの単一スレッドで165MiB/秒から始まり、並列処理が増えるにつれて着実に上昇します。4スレッドでは619MiB/秒をわずかに上回り、8スレッドでは1GiB/秒を超えます。

ミッドレンジのブロックサイズでは、スレッド数の増加に伴い、スループットの向上がより顕著になります。32Kでは、スループットは1GiB/秒弱から始まり、スレッド数の増加に伴い21GiB/秒以上にまで向上します。64Kと128Kの範囲でもこの傾向は続き、ワークロードの並列化が進むにつれて、1桁台前半から30GiB/秒半ば、そして50GiB/秒へと向上します。

より大きな転送では、システムは自然な書き込みスループットの上限に落ち着きます。1MiBでは、パフォーマンスは単一スレッドで13.3GiB/秒から、高スレッド数では90GiB/秒弱まで上昇します。5MiBと10MiBのテストでも同様のパターンが見られ、システムが64、128、256スレッドのいずれで動作しているかにかかわらず、結果は約90GiB/秒でピークに達します。

Gen5時代のパフォーマンスの再定義

Dell PowerEdge R7725xdは単なるストレージサーバーではありません。ラック内での帯域幅の提供方法に革新をもたらしました。PCIeスイッチを廃止し、すべてのNVMeドライブにCPUへの直接パスを提供することで、Dellはスループットがスムーズに拡張され、発熱が予測可能で、同時実行性が課題ではなく強みとなるシステムを実現しました。

Micronの9550 PRO SSDとPEAK:AIOのパラレルI/Oソフトウェアを組み合わせることで、R7725xdは高密度NVMeシャーシから真のデータエンジンへと変貌を遂げます。ローカルPCIeファブリックを飽和状態にまで拡張したり、RDMA経由でラインレートでGPUにデータを送信したり、コンピューティングとストレージの両方の機能を同時に提供したり、これらすべてを2Uの筐体で実現します。

Dell PowerEdge R7225xd ヒーロー

デル PowerEdge R7225xd

実用的には、この構成はローカルスループット300GB/秒以上、ネットワーク経由スループット160GB/秒以上を実現し、マルチノードストレージクラスターに匹敵するパフォーマンスを、わずかな複雑さとコストで実現します。これは、シリコンからソフトウェアに至るまで、スタックのあらゆるレイヤーが効率性と持続的な帯域幅を念頭に置いて調整された場合に何が起こるかを示す好例です。

R7725xdは、Gen5時代のシングルノードストレージ性能における新たなベンチマークを確立しました。次世代AIパイプライン、高速分析、あるいはチェックポイントを多用するトレーニング環境を構築する組織にとって、ボトルネックをシステムから完全に排除することで実現可能な可能性を垣間見ることができるでしょう。

R7725xd 製品ページ

このレポートは、Dell Technologies の提供により提供されています。このレポートで表明されているすべての見解や意見は、検討中の製品に対する当社の公平な見解に基づいています。

StorageReview と連携する

ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード

ケビン・オブライエン

StorageReview Lab 内で製品を評価し、業界リーダーと協力して新しいテスト環境を開発します。家では家族を育てています。