NVIDIA Spectrum-X には、衝突の流れを抑制し、帯域幅の使用率を最適化する適応型ルーティングが含まれています。
AI ファクトリーが効率的に運用するには、高性能コンピューティング ファブリック以上のものが必要です。East-West ネットワークは GPU の接続に重要な役割を果たしますが、高速ストレージ アレイのリンクを担うストレージ ファブリックも同様に重要です。ストレージのパフォーマンスは、トレーニング チェックポイントや、検索拡張生成 (RAG) などの推論手法など、AI ライフサイクルの複数の段階に大きな影響を与えます。これらの要求に対応するため、NVIDIA とそのストレージ エコシステムは、NVIDIA Spectrum-X ネットワーク プラットフォームを拡張してストレージ ファブリックのパフォーマンスを強化し、AI の洞察を得るまでの時間を短縮しました。
AI クラスターにおけるネットワーク衝突の理解
ネットワーク衝突は、複数のデータ パケットが同じネットワーク パスを同時に通過しようとすると発生し、干渉、遅延、場合によっては再送信が必要になります。大規模な AI クラスターでは、GPU が完全にロードされている場合や、データ集約型の操作によるトラフィックが大量にある場合に、このような衝突が発生する可能性が高くなります。
GPUが複雑な計算を同時に処理すると、ネットワークリソースが飽和状態になり、通信のボトルネックが発生する可能性があります。Spectrum-Xは、トラフィックを自動的かつ動的に再ルーティングし、輻輳を管理することでこれらの問題に対処するように設計されており、MetaのEnhanced ECMPなどの実装を必要とせずに重要なデータフローが中断されないようにします。 LLAMA 3 論文.
Spectrum-X によるストレージ パフォーマンスの最適化
NVIDIA Spectrum-X は、フローの衝突を軽減し、帯域幅の使用率を最適化する適応型ルーティング機能を導入しています。AI コンピューティングおよびストレージ ファブリックで広く使用されている Ethernet ネットワーク プロトコルである RoCE v2 と比較して、Spectrum-X は優れたストレージ パフォーマンスを実現します。テストでは、読み取り帯域幅が最大 48% 向上し、書き込み帯域幅が 41% 増加することが実証されています。これらの進歩により、AI ワークロードの実行が高速化され、トレーニング ジョブの完了時間が短縮され、推論タスクのトークン間の遅延が最小限に抑えられます。
AI ワークロードの複雑さが増すにつれて、ストレージ ソリューションもそれに応じて進化する必要があります。DDN、VAST Data、WEKA などの大手ストレージ プロバイダーは、NVIDIA と提携して Spectrum-X を自社のストレージ ソリューションに統合しています。このコラボレーションにより、AI ストレージ ファブリックは最先端のネットワーク機能を活用し、パフォーマンスとスケーラビリティを強化できます。
イスラエル1スーパーコンピュータ:Spectrum-Xの影響を検証
NVIDIA は、現実のシナリオで Spectrum-X のパフォーマンスを最適化するためのテストベッドとして、Israel-1 生成 AI スーパーコンピューターを構築しました。Israel-1 チームは、Spectrum-X がストレージ ネットワークのパフォーマンスに与える影響を評価するために、広範なベンチマークを実施しました。Flexible I/O Tester (FIO) ベンチマークを使用して、標準の RoCE v2 ネットワーク構成と、Spectrum-X のアダプティブ ルーティングおよび輻輳制御を有効にした構成を比較しました。
テストは 40 から 800 の GPU 構成に及び、Spectrum-X の優れたパフォーマンスが一貫して実証されました。読み取り帯域幅は 20% から 48% 向上し、書き込み帯域幅は 9% から 41% 向上しました。これらの結果は、パートナー エコシステム ソリューションで確認されたパフォーマンス向上と密接に一致しており、AI ストレージ ファブリックにおけるこのテクノロジーの有効性をさらに検証しています。
AIパフォーマンスにおけるストレージネットワークの役割
ストレージネットワークの効率はAI運用にとって重要です。モデルのトレーニングは数日、数週間、あるいは数か月かかることが多く、定期的な チェックポインティング システム障害によるデータ損失を防ぐため。大規模な AI モデルがテラバイト規模のチェックポイント状態に達すると、効率的なストレージ ネットワーク管理によってシームレスなトレーニング継続性が確保されます。
RAG ベースの推論ワークロードでは、高性能ストレージ ファブリックの重要性がさらに強調されます。LLM と動的知識ベースを組み合わせることで、RAG はモデルの再トレーニングを必要とせずに応答精度を向上させます。通常、大規模なベクター データベースに保存されるこれらの知識ベースでは、特に大量のクエリを処理するマルチテナント生成 AI 環境では、最適な推論パフォーマンスを維持するために低レイテンシのストレージ アクセスが必要です。
適応型ルーティング、輻輳制御をストレージに適用する
Spectrum-X は、ストレージ ファブリックのパフォーマンスを向上させるために、InfiniBand から適応した主要なイーサネット ネットワークのイノベーションを導入しています。
- 適応型ルーティングSpectrum-X は、チェックポイント作成時やデータ集約型操作時にネットワーク トラフィックを動的に分散して、エレファント フローの衝突を防止します。Spectrum-4 イーサネット スイッチは、リアルタイムの輻輳データを分析し、各パケットに対して最も輻輳が少ないパスを選択します。順序が乱れたパケットの再送信が必要となる従来のイーサネットとは異なり、Spectrum-X は SuperNIC と DPU を使用して送信先でパケットの順序を変更し、シームレスな操作と帯域幅の有効利用率の向上を実現します。
- 輻輳制御: チェックポイント その他の AI ストレージ操作では、複数のクライアントが単一のストレージ ノードに書き込もうとする、多対 1 の輻輳が頻繁に発生します。Spectrum-X は、ハードウェア ベースのテレメトリを使用してデータ注入レートを調整することでこれを緩和し、ネットワーク パフォーマンスを低下させる可能性のある輻輳のホットスポットを防止します。
AI ストレージ ファブリックの回復力の確保
大規模な AI 工場には、スイッチ、ケーブル、トランシーバーの広範なネットワークが組み込まれているため、パフォーマンスを維持するには回復力が重要な要素となります。Spectrum-X は、グローバル アダプティブ ルーティングを採用して、リンク障害時にトラフィックを迅速に再ルーティングし、中断を最小限に抑え、ストレージ ファブリックの使用率を最適に保ちます。
NVIDIA AI スタックとのシームレスな統合
Spectrum-X のハードウェア革新に加えて、NVIDIA は AI ストレージ ワークフローを加速するソフトウェア ソリューションを提供しています。これには次のものが含まれます。
- NVIDIA エア: スイッチ、SuperNIC、ストレージをモデル化し、導入と運用を効率化するクラウドベースのシミュレーション ツール。
- NVIDIA キュムラス Linux: 自動化と API サポートが組み込まれており、大規模で効率的な管理が可能なネットワーク オペレーティング システムです。
- NVIDIA DOCA: 強化されたプログラミング性とストレージ パフォーマンスを提供する SuperNIC および DPU 用の SDK。
- NVIDIA ネットQ: スイッチテレメトリと統合して可視性と診断を強化するリアルタイムのネットワーク検証ツール。
- NVIDIA GPUダイレクト ストレージ: ストレージから GPU へのメモリ経路を最適化し、データ スループットを向上させる直接データ転送テクノロジ。
NVIDIA とそのパートナーは、Spectrum-X をストレージ ネットワークに統合することで、AI インフラストラクチャのパフォーマンスを再定義しています。アダプティブ ネットワーキング、輻輳制御、ソフトウェア最適化の組み合わせにより、AI ファクトリーを効率的に拡張し、より迅速な洞察と運用効率の向上を実現できます。
StorageReview と連携する
ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード