在過去的二十年中,圖形處理單元 (GPU) 的格局經歷了巨大的變化,最近隨著人工智能的興起而發生了翻天覆地的變化。 這一演變的一個重要部分是允許多個 GPU 協同工作的技術的發展。 NVIDIA 是 GPU 領域的領跑者,憑藉兩項關鍵技術一直處於這場革命的最前沿:可擴展鏈路接口 (SLI) 和 NVIDIA NVLink。 本文追溯了從 SLI 到 NVLink 的歷程,重點介紹了 NVIDIA 如何不斷適應不斷變化的計算需求。
在過去的二十年中,圖形處理單元 (GPU) 的格局經歷了巨大的變化,最近隨著人工智能的興起而發生了翻天覆地的變化。 這一演變的一個重要部分是允許多個 GPU 協同工作的技術的發展。 NVIDIA 是 GPU 領域的領跑者,憑藉兩項關鍵技術一直處於這場革命的最前沿:可擴展鏈路接口 (SLI) 和 NVIDIA NVLink。 本文追溯了從 SLI 到 NVLink 的歷程,重點介紹了 NVIDIA 如何不斷適應不斷變化的計算需求。
SLI 的黎明
NVIDIA 在 2000 年代初推出了 SLI,最初是由 3dfx 為 Voodoo2 系列顯卡開發的,是 NVIDIA 為滿足視頻遊戲和消費者應用程序中對更高圖形保真度不斷增長的需求而做出的回應。 SLI 的核心使用一種稱為交替幀渲染 (AFR) 的技術,將渲染工作負載分配到多個 GPU 上。 每張卡都會繪製每隔一幀甚至每一幀的一部分,從而有效地使圖形處理能力加倍。 儘管 SLI 在當時具有革命性意義,但也存在局限性,包括延遲較高以及 GPU 之間的數據共享缺乏靈活性。
SLI 與 CrossFire:多 GPU 解決方案的競爭
雖然 NVIDIA 的 SLI 引領了多 GPU 配置的步伐,但它並非沒有競爭。 AMD 的交叉火力 是直接競爭對手,為多 GPU 設置提供類似的功能。 與 SLI 一樣,CrossFire 旨在通過交替幀渲染 (AFR) 和分割幀渲染 (SFR) 等技術來提高圖形性能。
然而,《穿越火線》有其自身的優勢和挑戰。 一般來說,可以使用的 GPU 組合更加靈活,允許混合使用不同的 AMD 卡。 缺點是,CrossFire 經常因其軟件堆棧而受到批評,一些用戶發現該軟件堆棧不如 NVIDIA SLI 可靠且配置更複雜。 儘管存在這些差異,但這兩種技術都致力於實現相同的目標:增強遊戲和消費者圖形體驗。 它們在處理更高級、數據密集型任務方面的局限性最終將為 NVLink 等下一代解決方案鋪平道路。
隨著 2010 年代的到來,計算領域開始發生巨大變化。 人工智能 (AI)、高性能計算 (HPC) 和大數據分析的興起需要更強大的多 GPU 解決方案。 很明顯,最初設計時考慮到遊戲和消費者工作負載的 SLI 不足以應對這些計算密集型任務。 NVIDIA 需要一個新的範例。
雙GPU卡時代:多GPU計算的獨特方法
雖然 SLI 和 CrossFire 等技術專注於連接多個獨立 GPU,但還有另一種不太常見的多 GPU 配置方法:雙 GPU 卡。 這些專用顯卡在單個 PCB(印刷電路板)上安裝了兩個 GPU 核心,有效地充當單張卡上的 SLI 或 CrossFire 設置。 NVIDIA GeForce GTX 690 和 AMD Radeon HD 6990 等卡是這種方法的流行示例。
雙 GPU 卡具有多項優勢。 他們通過將兩個 GPU 壓縮到一個卡槽中來節省空間,這使得它們對小型 PC 很有吸引力。 他們還無需將單獨的卡與外部連接器連接起來,從而簡化了設置。 然而,這些卡也並非沒有問題。 散熱是一個重大問題,通常需要先進的冷卻解決方案。 功耗也很高,需要強大的電源來穩定係統。
有趣的是,雙 GPU 卡是一種“兩全其美”的解決方案,將多 GPU 設置的原始功能與單卡的簡單性結合在一起。 然而,由於其高成本和相關的技術挑戰,它們經常被視為利基產品。 隨著 NVLink 等多 GPU 技術不斷發展以提供更高的帶寬和更低的延遲,對雙 GPU 卡的需求已經減少。 儘管如此,它們仍然是 GPU 發展史上引人入勝的篇章。
NVIDIA 的 Tesla GPU 系列是企業級計算的基石,特別是在數據中心和高性能計算集群中。 雖然大多數 Tesla GPU 都是單 GPU 卡,旨在實現最高性能和效率,但也有例外,例如 Tesla K80,它在單卡上配備雙 GPU。 這些多 GPU Tesla 卡針對高度並行計算進行了優化,是科學研究、機器學習和大數據分析的主要產品。 它們經過精心設計,可滿足這些應用的特定需求,提供高計算吞吐量、大內存容量以及糾錯碼 (ECC) 內存等高級功能。 雖然這些雙 GPU Tesla 卡不如單 GPU 同類產品常見,但它們在企業計算領域提供了一種強大但利基的解決方案。
NVLink 的出現
NVLink 是 2017 年隨 NVIDIA Volta 架構推出的技術。這項技術不僅僅是升級,而且是對 GPU 如何互連的根本性重新思考。 NVLink 提供了顯著更高的帶寬(最新版本高達 900 GB/s)、更低的延遲以及允許 GPU 之間更複雜和大量互連的網狀拓撲。 此外,NVLink 引入了統一內存的概念,支持連接的 GPU 之間的內存池,這對於需要大型數據集的任務來說是一個至關重要的功能。
NVLink 性能的演變
SLI 與 NVLink
乍一看,人們可能會認為 NVLink 是“類固醇上的 SLI”,但這過於簡單化了。 雖然這兩種技術都旨在鏈接多個 GPU,但 NVLink 的設計考慮了不同的受眾。 它專為科學研究、數據分析,尤其是人工智能和機器學習應用而設計。 更高的帶寬、更低的延遲和統一的內存使 NVLink 成為應對當今計算挑戰的更加靈活和強大的解決方案。
NVLink的技術骨幹
NVLink 代表了多 GPU 互連技術的邏輯演變,不僅在速度方面,而且在架構設計方面。 NVLink 的結構由可以雙向傳輸數據的高速數據通道組成。 與傳統的基於總線的系統不同,NVLink採用點對點連接,有效減少瓶頸並提高數據吞吐量。 最新的迭代提供高達 900 GB/s 的帶寬,比 SLI 的功能有了顯著增強。
配備 8 個 A5 GPU 的 HP Z4 Fury G6000
NVLink 與眾不同的關鍵功能之一是它支持網狀拓撲的能力。 與舊技術的菊花鍊或中心輻射型拓撲相比,網格設置允許 GPU 之間實現更通用且數量更多的連接。 這在數據中心和高性能計算應用程序中特別有用,在這些應用程序中,複雜的數據路由是常態。
統一內存是NVLink的另一個特點。 這允許 GPU 共享公共內存池,從而實現更高效的數據共享並減少在 GPU 之間複製數據的需要。 這對於機器學習和大數據分析等應用程序來說是一個巨大的推動,在這些應用程序中,大型數據集通常超過單個 GPU 的內存容量。
NVLink 還改善了延遲,這是任何高性能計算設置中的一個關鍵因素。 較低的延遲可確保 GPU 之間更快的數據傳輸和同步,從而實現更高效的並行計算。 這是通過 NVLink 的直接內存訪問 (DMA) 功能實現的,允許 GPU 直接讀寫彼此的內存,而不需要 CPU 的參與。
對人工智能和機器學習的影響
鑑於人工智能在現代計算中的重要性日益增加,NVLink 的優勢不僅是漸進式的,而且是變革性的。 在 AI 模型訓練和數據創建中,NVLink 可實現 GPU 之間更快的數據傳輸,從而實現更高效的並行處理。 這在處理大型訓練數據集時尤其有用,這是一個與人工智能模型訓練數據創建的新興領域密切相關的主題。
隨著量子模擬、實時分析和下一代人工智能算法等先進計算的需求不斷增長,我們可以期待 NVLink 的功能進一步增強。 無論是帶寬的增加還是促進 GPU 之間更好合作的新功能,NVLink 或其後繼者無疑仍將是滿足未來計算需求的核心。
從 SLI 到 NVLink 的過渡標誌著多 GPU 技術的一個重要里程碑。 它反映了 NVIDIA 對創新的承諾以及對不斷變化的計算環境的敏銳理解。 從遊戲到人工智能,從消費應用程序到數據中心,NVLink 在遊戲和 SLI 中的根源說明了需求如何孕育創新,推動技術在永無休止的改進週期中向前發展。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱