首頁 企業AI NVIDIA Spectrum-X 網路為 xAI 的 Colossus 超級電腦提供支援

NVIDIA Spectrum-X 網路為 xAI 的 Colossus 超級電腦提供支援

by 哈羅德弗里茨

NVIDIA 透露,xAI 的 Colossus 超級電腦擁有 100,000 個 NVIDIA Hopper Tensor Core GPU,現已在田納西州孟菲斯全面投入運作。

NVIDIA 透露,xAI 的 Colossus 超級電腦擁有 100,000 個 NVIDIA Hopper Tensor Core GPU,現已在田納西州孟菲斯全面投入運作。這項成就是透過 NVIDIA 的 Spectrum-X™ 乙太網路平台,旨在為超大規模、多租戶人工智慧資料中心提供強大的效能。 Spectrum-X 使用基於標準的乙太網路和 RDMA 網路來確保這些大規模環境中的高效通訊和最佳化的資料處理。

Colossus 超級電腦交換機

作為世界上最大的人工智慧超級計算機,Colossus 目前為 xAI 的 Grok 語言模型系列的訓練提供支持,其中包括為 X Premium 訂閱者提供的聊天機器人功能。 xAI 還計劃將 Colossus 擴展到 200,000 個 NVIDIA Hopper GPU,以鞏固其作為首要 AI 運算資源的地位。 xAI 和 NVIDIA 在創紀錄的 122 天內建造了該設施和先進的運算基礎設施,而類似的專案通常需要幾個月到幾年的時間。 Colossus 在初始機架安裝後 19 天內開始訓練作業。

受惠於 Spectrum-X 的擁塞控制和流量處理,Colossus 在訓練大型模型時實現了卓越的網路效能。這使得系統能夠實現零延遲降級或因流衝突導致的資料包遺失,並保持 95% 的資料吞吐率,這比傳統乙太網路的資料吞吐率通常只有 60% 和頻繁的流衝突有顯著改善。

NVIDIA Spectrum-X 實作的進步在於其處理大型 GPU 叢集中網路擁塞的方法。當數千個 GPU 同時通訊時,傳統乙太網路會遇到「incast」問題,導致封包遺失和效能顯著下降。雖然 InfiniBand 傳統上透過其內建的優先流量控制 (PFC) 和硬體級擁塞管理解決了這個問題,但 Spectrum-X 使用具有增強擁塞控制機制的 RoCE v2 實現了類似的結果。這使得 xAI 能夠保持類似 InfiniBand 的性能特徵,同時利用標準乙太網路基礎設施的成本優勢和靈活性。

Spectrum-X 的自適應路由和直接資料放置功能創建了一個彈性網路結構,可以處理分散式 AI 訓練工作負載中典型的大規模東西向流量模式。結果是,即使所有 100,000 個 GPU 都積極參與集體操作,系統也能保持一致的低延遲和高吞吐量。

NVIDIA 網路高級副總裁 Gilad Shainer 強調,“AI 是關鍵任務”,需要效能、安全性、可擴展性和成本效益的結合。他強調了 NVIDIA Spectrum-X 平台如何幫助 xAI 等公司加速 AI 工作負載的處理、分析和執行,從而加快 AI 解決方案的開發和部署。

xAI 發言人認可了 NVIDIA 的 Hopper GPU 和 Spectrum-X 技術,並指出該系統的規模和性能對於實現基於乙太網路標準的最佳化 AI「工廠」至關重要。

Spectrum-X 的核心是 Spectrum SN5600 乙太網路交換機,它透過 Spectrum-800 交換器 ASIC 支援高達 4Gb/s 的速度。 xAI 策略性地將這款交換器與 NVIDIA 的 BlueField-3® SuperNIC 配對,實現了先前 InfiniBand 獨有的效能水準。 Spectrum-X 乙太網路網路引入了具有直接資料放置的自適應路由、複雜的擁塞控制以及改進的 AI 結構可見性和效能隔離等功能,滿足多租戶 AI 環境和企業級 AI 部署的嚴格要求。

參與 StorageReview

電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱