首頁 企業 NVIDIA GTC 2024 主題演講亮點 – 第一天 Megapost

NVIDIA GTC 2024 主題演講亮點 – 第一天 Megapost

by 喬丹拉努斯
dgx GB200 節點

NVIDIA GTC 2024 來了;多年來第一次親自回來。喬丹在活動現場帶來了有關領先人工智慧活動的所有最新新聞和分析。

NVIDIA 的 GPU 技術大會 (GTC) 多年來一直以虛擬方式舉辦,如今再次以現場形式舉行。對於創新者、研究人員、科學家和技術愛好者來說,這是一個精彩的活動,可以看到這家科技巨頭的最新技術。今年的 NVIDIA GTC 2024 備受科技界期待,展現了人工智慧、深度學習、自動駕駛汽車和全新 Blackwell 架構的最新突破。

以下是 NVIDIA 執行長黃仁勳週一主題演講的要點。它圍繞著 NVIDIA 的新 Blackwell 架構、網路、量子運算進步和軟體堆疊更新。

英偉達布萊克威爾

準備重新定義加速運算的六項突破性技術是 Blackwell 創新的核心。從增強資料處理到革新藥物設計等,NVIDIA 正在製定新標準。亞馬遜和微軟等備受矚目的採用者已經在排隊等待 Blackwell 的變革潛力。

讓我們深入了解 NVIDIA 所實現的工程奇蹟。 Blackwell GPU 在兩個晶片上封裝了多達 208 億個晶體管,這是透過利用兩個掩模版極限 4NP TSMC 製程來實現的。這種方法挑戰了半導體製造的界限,並引入了一種將晶片與超快的 10TB/s 接口連接的新穎方法。這種向小晶片設計的轉變反映了 NVIDIA 突破傳統界限的雄心。

規範 H100 B100 B200
最長記憶體 80GB HBM3 192GB HBM3e 192GB HBM3e
內存帶寬 3.35TB/秒 8TB/秒 8TB/秒
FP4 - 14 浮點數 18 PFlops
FP6 - 7 浮點數 9 浮點數
FP8/INT8 3.958 PFLOPS/POPS 7 PFLOPS/POPS 9 PFLOPS/POPS
FP16/BF16 1979 TFLOPS 3.5 浮點數 4.5 浮點數
TF32 989 TFLOPS 1.8 浮點數 2.2 浮點數
FP64 67 TFLOPS 30 TFLOPS 40 TFLOPS
最大功耗 700W 700W 1000W

注意:這裡的所有數字都代表稀疏矩陣計算的效能。

這不僅僅是封裝更多晶體管的問題。 FP4 和 FP6 運算能力的引入將高效模型訓練提升到了一個新的水平,儘管模型性能略有犧牲。這種權衡是該平台的一個微妙的方面,反映了效率和精度之間複雜的平衡行為。

Blackwell 中的第二代 Transformer 引擎在使用 FP4 時實現了運算、頻寬和模型大小功能的飛躍,帶來了對人工智慧未來發展至關重要的改進。此外,整合 PCIe Gen6 和新的 HBM3e 記憶體技術可大幅提升頻寬,與第五代 NVLink 結合使用時,頻寬將比上一代翻倍,達到驚人的 1.8TB/s。

其中一個更有趣的引入是 RAS 引擎,它增強了大規模 AI 部署的可靠性、可用性和可維護性。這項創新可以顯著提高模型觸發器利用率,解決擴展人工智慧應用的關鍵挑戰之一。

透過 Blackwell,NVIDIA 帶來了新的機密運算功能,包括業界首款支援可信任執行環境 (TEE)-I/O 的 GPU,將 TEE 從 CPU 擴展到 GPU。這確保了私人資料的安全和快速處理,這對於訓練生成人工智慧至關重要。這項創新對於處理隱私法規或專有資訊的產業尤其重要。 NVIDIA Blackwell 的機密運算可在不影響效能的情況下提供無與倫比的安全性,並提供與未加密模式幾乎相同的吞吐量。這項進步不僅可以保護大型人工智慧模型的安全,還可以實現機密的人工智慧訓練和聯邦學習,從而保護人工智慧的智慧財產權。

NVIDIA Blackwell 中的解壓縮引擎標誌著資料分析和資料庫工作流程的重大飛躍。該引擎能夠以高達 800GB/s 的驚人速度解壓縮數據,顯著增強數據分析的性能並縮短獲得洞察的時間。與 8TB/s HBM3e 記憶體和高速 NVLink-C2C 互連配合,可加速資料庫查詢,讓 Blackwell 在查詢基準測試中比 CPU 快 18 倍,比之前的 NVIDIA GPU 快 6 倍。該技術支援最新的壓縮格式,使 NVIDIA Blackwell 成為資料分析和科學領域的強大力量,從而大幅加快端到端分析流程。

儘管取得了技術奇蹟,但 NVIDIA 聲稱將 LLM 推理營運成本和能源降低高達 25 倍的說法還是令人驚訝,特別是考慮到缺乏詳細的功耗數據。這一說法雖然值得注意,但可能會受益於進一步澄清以充分衡量其影響。

總而言之,NVIDIA 的 Blackwell 平台證明了該公司對突破人工智慧和運算可能性界限的不懈追求。憑藉其革命性的技術和雄心勃勃的目標,Blackwell 不僅邁出一步,而且實現了巨大的飛躍,有望推動各行業的各種進步。隨著我們深入研究這個加速運算和生成式 AI 的時代,NVIDIA 的創新可能會成為下一次工業革命的催化劑。

NVIDIA 布萊克韋爾 HGX

擁抱Blackwell架構,NVIDIA更新了HGX伺服器和基板系列。與先前型號相比的這一重大演變帶來了引人注目的變化,特別是降低了總擁有成本,同時顯著提高了性能。這個比較是驚人的——當將 FP8 與 FP4 進行比較時,性能顯著提高了 4.5 倍。即使將 FP8 與其前身匹配,性能也幾乎翻倍。這不僅與原始速度有關;還與原始速度有關。這是記憶體效率的飛躍,聚合記憶體頻寬激增了 8 倍。

規範 HGX H100 HGX H200 HGX B100 HGX B200
最長記憶體 640GB HBM3 1.1TB HBM3e 1.5TB HBM3e 1.5TB HBM3e
內存帶寬 7.2TB/秒 7.2TB/秒 8TB/秒 8 TB / s
FP4 - - 112 浮點數 144 浮點數
FP6 - - 56 浮點數 72 浮點數
FP8/INT8 32 PFLOPS/POPS 32 PFLOPS/POPS 56 PFLOPS/POPS 72 PFLOPS/POPS
FP16/BF16 16 浮點數 16 浮點數 28 浮點數 36 浮點數

NVIDIA Grace-Blackwell 超級晶片

深入探討 NVIDIA 最新發布的複雜內容,並著重於 Blackwell 平台武器庫的基石 GB200。隨著 NVIDIA 不斷突破高效能運算的極限,GB200 代表了其 GPU 產品的重大發展,將尖端技術與連接性和可擴展性方面的策略進步融為一體。 GB200 配備兩台 B200 GPU;此配置與上一代 GH200 不同,後者在 GPU 和 Grace CPU 之間採用一對一連接。這次,兩個 B200 GPU 透過 900GB/s 晶片到晶片 (C2C) 連結連接到同一個 Grace CPU。

規範 GH200 GB200
最長記憶體 144GB HBM3e 384GB HBM3e
內存帶寬 8TB/秒 16TB/秒(聚合)
FP4 - 40 浮點數
FP6 - 20 浮點數
FP8/INT8 3.958 PFLOPS/POPS 20 浮點數
FP16/BF16 1979 TFLOPS 10 浮點數
TF32 989 TFLOPS 5 浮點數
FP64 67 TFLOPS 90 TFLOPS
PCIe通道 4 個 PCIe 第 5 代 x16 2 個 PCIe 第 6 代 x16
最大功耗 1000W 2700W

# 注意:這裡的所有數字都代表稀疏矩陣計算的效能。

乍一看,保留上一代 900GB/s C2C 連結的決定似乎是一種限制。然而,這種設計選擇強調了一種經過深思熟慮的策略,可以利用現有技術,同時為新的可擴展性水平鋪平道路。 GB200 的架構允許其以 576TB/s 的速度與多達 1.8 個 GPU 進行通信,這要歸功於第五代 NVLink。這種層級的互連對於建立訓練和部署最大、最複雜的人工智慧模型所需的大規模平行運算環境至關重要。

NVIDIA 網路堆疊更新

將 GB200 與 NVIDIA 最新網路技術、Quantum-X800 InfiniBand 和 Spectrum-X800 乙太網路平台集成 提出了有關連接和頻寬的有趣問題。提及 800Gb/s 功能暗示 NVIDIA 正在探索 PCIe Gen6 可以帶來的優勢。 

GB200 配置及其雙 GPU 設定和進階網路選項代表了 NVIDIA 對 HPC 未來的願景。這個願景不僅涉及單一組件的原始功能,還涉及如何在連貫、可擴展的系統中協調這些組件。透過實現更高程度的互連性並保持運算能力和資料傳輸速率之間的平衡,NVIDIA 解決了人工智慧研究和開發中的一些最關鍵的挑戰,特別是在處理呈指數級增長的模型大小和計算需求方面。

NVIDIA 第五代 NVLink 與 NVLink 交換機

第五代 NVLink 標誌著高效能運算和人工智慧領域的一個重要里程碑。該技術增強了 GPU 之間的連接和通訊能力,這是人工智慧基礎模型快速發展的需求的關鍵方面。

第五代NVLink將其GPU連線能力提升至576個GPU,較先前的256個GPU的限制大幅增加。與先前的版本相比,此次擴展帶來了雙倍的頻寬,這對於日益複雜的基礎人工智慧模型的性能來說是一個關鍵的增強。

每個 Blackwell GPU 連結都有兩個高速差分對,與 Hopper GPU 類似,但它在每個方向上實現了每個連結 50GB/秒的有效頻寬。這些 GPU 配備 18 個第五代 NVLink 鏈路,提供驚人的 1.8 TB/s 總頻寬。該吞吐量是目前 PCIe Gen 14 的 5 倍以上。

另一個顯著的功能是 NVIDIA NVLink Switch,它在單一 130 GPU NVLink 域 (NVL72) 中支援 72TB/s GPU 頻寬,這對於模型並行性至關重要。透過新的 NVIDIA 可擴展分層聚合和縮減協定 (SHARP) FP8 支持,該交換器還使頻寬效率提高了四倍。

此外,NVIDIA統一結構管理器(UFM)透過為NVLink計算結構提供強大且經過驗證的管理來補充NVLink交換器。

機架中的百億億次計算

DGX GB200 NVL32 建立在其前身 GraceHopper GH200 NVL72 奠定的強大基礎之上,它不僅僅是升級版;這是擴展運算能力和效率的基石進步。 DGX GB200 NVL72 平台展示了全面的驚人進步。每個 DGX GB200 NVL72 系統包含 18 個 GB200 SuperChip 節點,每個節點包含 2 個 GB200。

該平台將 GPU 數量從 32 個增加到 72 個,CPU 數量從 32 個適度增加到 36 個。然而,記憶體的飛躍是引人注目的,從 19.5 TB 躍升至令人印象深刻的 30 TB。這種擴張不僅涉及更重要的數字,還涉及更多的數字。它是關於啟用新的運算能力梯隊,特別是在處理最複雜的人工智慧模型和模擬方面。

最令人瞠目結舌的升級之一是計算效能的飛躍。與 FP127 效能進行比較時,該平台從 1.4 PetaFLOPS 躍升至 4 ExaFLOPS,約提高了 11 倍。這項比較顯示 NVIDIA 致力於突破精度和速度的界限,特別是在人工智慧和機器學習領域。然而,即使將 FP8 與 FP8 進行比較,該平台也實現了 5.6 倍的成長,從 127PF 增加到 720PF,凸顯了效率和運算能力的顯著進步。

維持完全水冷系統的承諾與 NVIDIA 對永續性和性能優化的關注相呼應。這種方法提高了系統的運作效率,並符合更廣泛的行業趨勢,即更環保的資料中心技術。

由 NVIDIA GB200 Grace Blackwell Superchips 提供支援的 NVIDIA DGX SuperPOD

NVIDIA 也發表了下一代 AI 超級電腦 DGX SuperPOD,配備 8 個 NVIDIA GB200 NVL72 Grace Blackwell 系統。這項強大的設定專為處理萬億參數模型而設計,在其液冷、機架級架構中擁有 FP11.5 精度的 4 exaflops 人工智慧超級運算能力。每個 GB200 NVL72 系統都包含 36 個 NVIDIA GB200 超級晶片,在大型語言模型推理工作負載方面的性能比其 H30 前輩提高了 100 倍。 

NVIDIA 執行長黃仁勳表示,DGX SuperPOD 的目標是成為「人工智慧工業革命的工廠」。

dgx GB200 節點

量子模擬雲

NVIDIA 也推出了量子類比雲端服務,使研究人員能夠探索各個科學領域的量子運算。該服務基於開源 CUDA-Q 平台,為建立和測試量子演算法和應用程式提供了強大的工具和整合。與多倫多大學以及 Classiq 和 QC Ware 等公司的合作凸顯了 NVIDIA 加速量子計算創新的努力。

NVIDIA NIM 軟體堆疊

另一個重大公告是 NVIDIA NIM 軟體堆疊的推出,提供數十種企業級生成式 AI 微服務。這些服務允許企業在其平台上創建和部署自訂應用程序,優化流行 AI 模型的推理,並利用 NVIDIA CUDA-X 微服務來增強各種應用程式的開發。黃仁勳強調了這些微服務將跨產業的企業轉變為人工智慧驅動的實體的潛力。

OVX 計算系統

為了因應各產業生成式 AI 的快速成長,NVIDIA 推出了 OVX 運算系統,這是一種旨在簡化複雜 AI 和圖形密集工作負載的解決方案。認識到高效能儲存在 AI 部署中的關鍵作用,NVIDIA 與 DDN、 戴爾 PowerScale、NetApp、Pure Storage 和 WEKA。

新計畫標準化了合作夥伴驗證其儲存設備的流程,確保企業人工智慧工作負載的最佳效能和可擴展性。透過嚴格的 NVIDIA 測試,這些系統針對不同的參數進行了驗證,反映了 AI 應用的挑戰性要求。

此外,經過 NVIDIA 認證的 OVX 伺服器由 NVIDIA L40S GPU 提供支持,並整合了全面的軟體和網路解決方案,可提供靈活的架構來適應不同的資料中心環境。這種方法不僅可以加速資料所在的運算,還可以滿足生成式人工智慧的獨特需求,確保效率和成本效益。 NVIDIA OVX 伺服器配備了強大的 GPU,可提供增強的運算能力、高速儲存存取和低延遲網路。這對於聊天機器人和搜尋工具等需要大量資料處理的高要求應用程式尤其重要。

目前,經NVIDIA 認證的OVX 伺服器已由技嘉、慧與、聯想和Supermicro 等全球供應商提供和發貨,代表著處理複雜AI 工作負載方面的重大飛躍,有望實現企業級性能、安全性和可擴展性。

關閉的思考

此外,汽車、機器人、醫療保健和生成人工智慧領域也發布了公告。所有這些公告都展示了 NVIDIA 對創新的不懈追求,提供先進的工具和平台來推動跨多個領域的人工智慧和運算的未來。所有這些都技術含量很高並且具有許多複雜性,特別是在量子計算和軟體發布的情況下。隨著我們獲得有關每個新版本的更多信息,請繼續關注對公告的分析。

參與 StorageReview

電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱