用於生成 AI 的 NVIDIA DGX GH200 AI 超級計算機發布

by 哈羅德弗里茨 2023 年 5 月 29 日

寫哈羅德弗里茨 2023 年 5 月 29 日

NVIDIA 的 Jensen Huang 本週在台灣舉行的 Computex 2023 上發表了主題演講，發布了新產品，重點是支持開髮用於生成 AI 應用程序、數據分析和推薦系統的下一代模型。這英偉達 DGX 由 NVIDIA GH200 Grace Hopper Superchips 和 NVIDIA NVLink 開關係統提供支持的超級計算機佔據了中心舞台。

英偉達 DGX GH200 使用 NVLink 互連技術和 NVLink 開關係統，將 256 個 GH200 超級芯片組合為單個 GPU，提供 1 exaflop 的性能和 144 TB 的共享內存。這幾乎是單個 NVIDIA DGX A500 系統內存的 100 倍！

NVLink 技術大規模擴展 AI

GH200 超級芯片結合了基於 Arm 的 NVIDIA Grace CPU 和 NVIDIA H100 Tensor Core GPU，使用 NVLink-C2C 芯片互連，無需傳統的 CPU 到 GPU PCIe 連接。與最新的 PCIe 技術相比，GPU 和 CPU 之間的帶寬增加了 7 倍，互連功耗降低了 5 倍以上，並為 DGX GH600 超級計算機提供了 200GB Hopper 架構 GPU 構建塊。

這是第一台將 Grace Hopper 超級芯片與 NVLink 開關係統配對的超級計算機。這種新的互連使 DGX GH200 系統中的所有 GPU 能夠作為一個 GPU 工作，而八個 GPU 限制與 NVLink 結合作為單個 GPU 而不會影響性能。 DGX GH200 架構提供比上一代多 10 倍的帶寬，提供大型 AI 超級計算機的強大功能，同時只需對單個 GPU 進行編程即可。

人工智能先驅獲得新的研究工具

預計最先訪問新超級計算機的將是 Google Cloud、Meta 和 Microsoft，使他們能夠探索其生成 AI 工作負載的能力。 NVIDIA 打算將 DGX GH200 設計作為藍圖提供給雲服務提供商和其他超大規模提供商，以便他們可以根據自己的基礎設施對其進行定制。

NVIDIA 研究人員和開發團隊將可以使用配備四個 DGX GH200 系統的全新 NVIDIA Helios 超級計算機。 Helios 將包含 1,024 個 Grace Hopper 超級芯片，預計將於今年年底上線。 Helios 超級計算機中的每個系統都將與 NVIDIA Quantum-2 InfiniBand 網絡互連，帶寬數據吞吐量高達 400Gb/s，用於訓練大型 AI 模型。

集成和專用

DGX GH200 超級計算機將包括 NVIDIA 軟件，該軟件提供交鑰匙的全堆棧解決方案，支持最大的人工智能和數據分析工作負載。 NVIDIA 基本命令軟件提供人工智能工作流管理、企業級集群管理、加速計算、存儲和網絡基礎設施的庫，以及為運行人工智能工作負載而優化的系統軟件。 NVIDIA 人工智能企業軟件將包括提供 100 多個框架、再訓練模型和開發工具，以簡化生產 AI 的開發和部署，包括生成 AI、計算機視覺、語音 AI 等。

庫存情況

NVIDIA DGX GH200 超級計算機預計將於今年年底上市。

參與 StorageReview

哈羅德弗里茨

自 IBM 創建 Selectric 以來，我一直在科技行業工作。不過，我的背景是寫作。因此，我決定退出售前業務，回歸本源，從事一些寫作工作，但仍從事技術工作。

以前的帖子

面向系統製造商的 NVIDIA MGX 服務器規範發布

下一篇文章