NVIDIA は、驚異的な 100,000 万個の NVIDIA Hopper Tensor Core GPU を誇る xAI の Colossus スーパーコンピューターが、テネシー州メンフィスで完全に稼働していることを明らかにしました。
NVIDIAは、100,000万基のNVIDIA Hopper Tensor Core GPUを搭載したxAIのColossusスーパーコンピューターが、テネシー州メンフィスで完全に稼働していることを明らかにしました。この成果は、 NVIDIA の Spectrum-X™ ハイパースケールのマルチテナント AI データセンターに堅牢なパフォーマンスを提供するように設計されたイーサネット ネットワーキング プラットフォームです。Spectrum-X は、RDMA ネットワーキングを備えた標準ベースのイーサネットを使用して、これらの大規模環境内での効率的な通信と最適化されたデータ処理を保証します。
世界最大の AI スーパーコンピューターである Colossus は現在、X Premium 加入者向けのチャットボット機能を含む xAI の Grok 言語モデル ファミリーのトレーニングに使用されています。xAI はさらに Colossus を 200,000 台の NVIDIA Hopper GPU に拡張し、最高の AI コンピューティング リソースとしての地位を強化する計画を立てています。xAI と NVIDIA は、この施設と高度なコンピューティング インフラストラクチャを記録的な 122 日で構築しましたが、同様のプロジェクトは通常数か月から数年かかります。Colossus は、最初のラック設置から 19 日以内にトレーニング運用を開始しました。
Colossus は、Spectrum-X の輻輳制御とフロー処理の恩恵を受け、大規模モデルのトレーニング中に優れたネットワーク パフォーマンスを実現しています。その結果、フロー衝突による遅延の低下やパケット損失がゼロとなり、データ スループット レートが 95% に維持されています。これは、通常、データ スループットが 60% しかなく、フロー衝突が頻繁に発生する従来のイーサネットに比べて大幅に改善されています。
NVIDIA の Spectrum-X 実装の進歩は、この大規模な GPU クラスターのネットワーク輻輳を処理する方法にあります。従来のイーサネット ネットワークでは、数千の GPU が同時に通信すると「インキャスト」問題が発生し、パケットのドロップやパフォーマンスの大幅な低下につながります。InfiniBand は従来、組み込みの Priority Flow Control (PFC) とハードウェア レベルの輻輳管理でこの問題を解決していましたが、Spectrum-X は輻輳制御メカニズムを強化した RoCE v2 を使用して同様の結果を達成しています。これにより、xAI は標準のイーサネット インフラストラクチャのコスト メリットと柔軟性を活用しながら、InfiniBand のようなパフォーマンス特性を維持できます。
Spectrum-X のアダプティブ ルーティングとダイレクト データ配置機能により、分散 AI トレーニング ワークロードに典型的な大規模な東西トラフィック パターンを処理できる、回復力のあるネットワーク ファブリックが作成されます。その結果、100,000 個の GPU すべてが集合的な操作にアクティブに参加している場合でも、一貫した低レイテンシと高スループットを維持するシステムが実現します。
NVIDIA のネットワーク担当シニア バイスプレジデントであるギラッド シャイナー氏は、「AI はミッション クリティカル」であり、パフォーマンス、セキュリティ、スケーラビリティ、コスト効率の組み合わせが必要であると強調しました。同氏は、NVIDIA の Spectrum-X プラットフォームによって、xAI などの企業が AI ワークロードの処理、分析、実行を加速し、AI ソリューションの開発と展開を迅速化できることを強調しました。
xAI の広報担当者は、NVIDIA の Hopper GPU と Spectrum-X テクノロジを評価し、システムの規模とパフォーマンスが、イーサネット標準に基づいて最適化された AI「ファクトリー」を実現する上で非常に重要であると述べました。
Spectrum-X の中心となるのは、Spectrum-5600 スイッチ ASIC により最大 800Gb/s の速度をサポートする Spectrum SN4 イーサネット スイッチです。xAI は、このスイッチを NVIDIA の BlueField-3® SuperNIC と戦略的に組み合わせ、これまで InfiniBand でしか実現できなかったパフォーマンス レベルを実現しました。Spectrum-X イーサネット ネットワーキングは、ダイレクト データ配置によるアダプティブ ルーティング、高度な輻輳制御、AI ファブリックの可視性とパフォーマンス分離の向上などの機能を導入し、マルチテナント AI 環境やエンタープライズ レベルの AI 展開の厳しい要件を満たします。
StorageReview と連携する
ニュースレター | YouTube |ポッドキャスト iTunes/Spotifyは | Instagram | Twitter | TikTok | RSSフィード