存儲評論網

NVIDIA 在 AI 基礎設施高峰會上公佈路線圖:從 Blackwell Ultra 到 Vera Rubin CPX 架構

AI  ◇  企業

AI Infra Summit 重點介紹了 AMD 和 NVIDIA 的 MLPerf 推理結果,以及 NVIDIA 的 2026 年 Vera Rubin 路線圖,特別是 Rubin CPX。

在 2025 年 AI 基礎設施高峰會上,NVIDIA 展示了兩個方面的發展勢頭:其 Blackwell Ultra 系統令人印象深刻的全新 MLPerf 推理結果,更重要的是,它為 2026 年 Vera Rubin 一代製定了詳細的路線圖,其中包括 Rubin CPX,這是一種專為大規模推理而構建的新型 GPU。

Blackwell Ultra 樹立了新的效能基準

NVIDIA 的 GB300 NVL72 機架級系統已在 MLPerf Inference v5.1 中取得了卓越的性能,展現了 Blackwell Ultra 平台在軟體不斷釋放其全部潛力的同時,架構的成熟度。 Llama 2 70B 基準測試清楚地展現了這一強大性能,該平台在離線場景下每 GPU 每秒可處理 12,934 個令牌,令人印象深刻。在線上服務測試中,其效能幾乎相同,為每秒 12,701 個令牌,充分證明了該架構在不同工作負載下的卓越效率。

全新引入的互動類別進一步證明了該平台已為實際應用做好準備。此類別對延遲提出了更嚴格的要求,包括低於 500 毫秒的首個令牌產生時間要求以及每個使用者每秒 33 個令牌的閾值。即使在如此嚴苛的服務品質要求下,Blackwell Ultra 仍保持了高吞吐量,每 GPU 每秒可交付 7,856 個代幣。在 DeepSeek-R1 推理基準測試中,該平台以每 GPU 每秒 5,842 個令牌的速度再次創下新的紀錄。

最終,這些結果表明硬體的性能超越了當前的軟體堆疊。隨著 TensorRT-LLM 和 NVIDIA Dynamo 等框架的不斷發展,Blackwell Ultra 的架構優勢(例如其增強的 NVFP4 運算路徑和每個 GPU 高達 288GB 的​​ HBM3e 容量)將得到充分釋放,其效能提升空間仍然龐大。

加速創新節奏:Vera Rubin 平台

NVIDIA 採取了每年一次的架構更新周期,以策略性地應對 AI 運算需求的指數級增長。為了遵循這一積極的時間表,NVIDIA 透露 Vera Rubin 世代架構已經完成流片,並計劃於 2026 年下半年投入企業部署。

Vera Rubin 架構引入了全面的平台更新,重點整合了全新的 Vera CPU 和 Rubin GPU。 Vera CPU 代表了過去三代 NVIDIA 系統的重大演進。 Vera CPU 擁有 88 個 ARM 核心,支援 176 個執行緒。這些處理器還將晶片間 (C2C) 鏈路頻寬翻倍至 1,800 GB/s,從而實現 CPU、GPU 及其共享記憶體資源之間更快的連結。

在互連層,第六代 NVLink 提供 3,600 GB/s 的雙向頻寬,是目前第五代 NVLink 交換器頻寬的兩倍。隨著模型規模不斷擴大,超越單一裝置的記憶體容量,這種增強的連接性變得尤為重要,這需要複雜的平行執行策略,從而實現最小的通訊延遲和節點間最大的吞吐量。

作為 NVLink 技術的補充,Spectrum-6 交換器採用共封裝光學元件 (CPO) 技術,可實現 102 TB/s 的交換容量。將光學組件直接整合到交換器封裝中,消除了傳統的電光轉換瓶頸,降低了延遲,同時顯著提高了能源效率——隨著 AI 工廠向千兆瓦級功耗擴展,這至關重要。

VR NVL144 系統仍將利用目前支援 Grace Hopper、Grace Blackwell 和 Grace Blackwell Ultra 部署的成熟 Oberon 機架平台。

架構命名法的演進:從封裝到晶片

NVIDIA 正在將其命名規則從基於封裝改為基於晶片數量。雖然這項變更可能存在爭議,但這是一個具有前瞻性的舉措,將提供更清晰的理解,尤其是在預計於 2026 年底推出的 Rubin Ultra GPU 的情況下,該系列 GPU 預計將採用四個光罩大小的晶片。

在 Rubin 世代中,NVIDIA 採用了一種基於晶片數量的命名法,能夠直接反映可用的運算資源。 NVL144 的名稱明確指的是 144 個 GPU 晶片,同時保持了 72 個封裝的物理配置,並提供了更精確的運算能力度量。這與目前一代 GB200 和 GB300 NVL72 系統類似,後者包含 72 個 GPU 封裝,每個封裝包含兩個 GPU 晶片,總共 144 個運算晶片。

解決情境處理挑戰

Rubin CPX 計畫於 2026 年底上市,這是 NVIDIA 針對 LLM 推理領域最迫切挑戰之一的架構性回應:在 token 生成的各個階段,計算模式之間存在根本性的不匹配。為了理解這項創新,我們需要探討 LLM 推理工作負載的獨特特性,以及目前同構 GPU 架構在滿足這些多樣化運算需求方面的限制。

大型語言模型推理包含兩個截然不同的計算階段,對硬體資源的需求也截然不同。預填階段處理初始輸入提示,計算鍵和值矩陣以供後續產生。此階段運算密集型,能夠有效利用現代 GPU 的海量浮點吞吐量。

解碼階段帶來了完全不同的運算挑戰。在解碼過程中,模型會自回歸地產生輸出標記,透過專注於先前的上下文,一次產生一個標記。每個新標記都需要注意力機制來處理整個序列歷史,計算其與所有先前標記的關係。這創建了一種獨特的計算模式,其中記憶體頻寬(而非計算吞吐量)成為主要瓶頸。用於儲存維護上下文所需中間表示的鍵值快取 (KV cache) 成為記憶體的主要消耗者。

KV 快取的擴展特性在生產環境中帶來了特殊的挑戰。對於像 Llama 3.1 405B 這樣處理擴充上下文的模型,每個序列的 KV 快取很容易消耗數十 GB 的資料。在批量推理場景中(這對於在生產環境中實現高吞吐量至關重要),KV 快取的總大小通常會超過模型權重本身的大小。由於大規模 NVL72 部署中可能存在較大的批量,KV 快取的大小可以達到數 TB。雖然這些資料必須以合理的延遲保持可訪問性,但並非所有 KV 快取存取都需要 HBM 記憶體的極高頻寬。許多注意力操作表現出適合分層記憶體架構的存取模式。

Rubin CPX:專為上下文處理而建構的架構

Rubin CPX 透過專門針對長上下文 LLM 推理的設計解決了這些架構不匹配的問題。該架構以 128GB GDDR7 記憶體為核心,為鍵值快取操作提供了龐大且經濟高效的記憶體池。 GDDR7 的頻寬特性雖然低於 HBM4,但足以滿足大多數注意力操作的需求,尤其是在與智慧型快取策略結合使用時。

透過 ConnectX-144 網路卡和交換晶片的 PCIe 鏈路,與 VR NVL9 CPX 機架中更廣泛的 Vera Rubin 平台集成,從而促進了在傳統 GPU 上進行計算密集型操作的混合執行模型。記憶體密集型上下文管理遷移到 CPX 處理器。

靈活的部署架構和配置選項

Vera Rubin 平台的模組化架構實現了靈活的部署,使企業能夠根據特定的工作負載特性優化配置。標準的 VR NVL144 機架配置包含 Vera Rubin GPU 和八個 ConnectX-9 網路卡,從而提供適用於各種 AI 工作負載的平衡架構。此配置可提供 3.6 ExaFLOPS 的 NVFP4 運算能力,比目前 GB3.3 NVL300 系統提升了 72 倍,同時也具備 1.4 PB/s 的 HBM4 頻寬(是目前世代的 2.5 倍)和 75 TB 的 HBM4 記憶體容量(是目前世代的 2 倍)和 XNUMX TB 的 HBMXNUMX 記憶體容量(是目前世代的 XNUMX 倍)。

對於需要優化推理和長上下文強化學習後訓練的組織,可以使用超高密度 VR NVL144 CPX 計算托盤。每個托盤包含四個 VR GPU 封裝,每個封裝包含八個 GPU 晶片,從而保持標準配置的運算密度,同時還添加了八個 Rubin CPX GPU。八個 ConnectX-9 NIC/交換器晶片確保了分散式推理所必需的無縫資料流。

此架構的模組化特性使其部署策略異常靈活。企業可以先部署標準的 VR NVL144 機架,然後隨著情境處理需求的成長,再使用專用的 Rubin CPX 機架進行擴充。這種方法使基礎設施能夠與模型功能同步演進,從而避免過度配置。

完整的 VR NVL144 CPX 配置為運算能力樹立了新的標竿。該系統可提供 8 ExaFLOPS 的 NVFP4 運算能力,比目前一代 GB7.5 NVL300 系統提升了 72 倍。如此強大的運算能力與 1.7 PB/s 的總記憶體頻寬結合,充分利用 HBM4 和 GDDR7 顯存,實現了目前系統三倍的記憶體吞吐量。總記憶體容量達到 100TB,提供的記憶體資源是當前世代平台的 2.5 倍。

NVIDIA 的目標是在 2026 年底實現這一目標。這將賦能全新類別的 AI 應用,並使百萬級令牌上下文視窗真正應用於生產環境,從而使 AI 系統能夠一次處理整個程式碼庫或冗長的文件。這些創新還能幫助企業支援更大的批量處理規模,從而降低推理成本,並實現更優化的營運成本 (OPEX) 計算。

千兆瓦級基礎建設藍圖

除了單一系統創新之外,NVIDIA 還發布了針對千兆瓦級 AI 工廠的參考架構。這些藍圖由 NVIDIA 與 Jacobs、施耐德電氣、西門子能源和 Vertiv 等基礎設施合作夥伴合作開發,涵蓋了從發電到運算交付的完整基礎設施堆疊。這些參考設計表明,下一代 AI 部署需要進行整體最佳化,而這遠遠超出了運算元件本身的範疇。

這些架構藍圖利用 NVIDIA Omniverse 數位孿生技術,在實體部署之前進行全面的設施模擬。企業可以在統一的模擬中對配電、冷卻系統和運算工作負載進行建模,從而在部署實體基礎設施之前識別並解決瓶頸問題。

結語

NVIDIA 繼續引領 AI 基礎設施領域,其前瞻性的、以開發者為中心的方法直接解決了組織和 AI 實驗室面臨的痛點。從通用加速到特定工作負載架構的轉變,例如 Rubin CPX 針對情境處理的定向方法,顯示未來的 AI 系統將越來越多地包含針對 AI 工作流程各個階段進行最佳化的異質運算資源。這種架構演進要求規劃多年 AI 基礎設施投資的組織不僅要考慮原始運算吞吐量,還要考慮硬體功能與不斷發展的模型架構之間的協調性。

從 Blackwell Ultra 到 Vera Rubin,再到 Rubin CPX,在如此短的時間內,創新節奏的加速令人印象深刻。如此快速的步伐要求企業設計出能夠整合新興架構範式的系統,從而避免前幾代資料中心基礎架構所特有的鎖定效應。為了應對這項挑戰,NVIDIA 的 AI Factory 參考設計和 Omniverse 數位孿生提供了必要的藍圖和模擬工具,以確保這些關鍵投資面向未來。隨著 AI 模型繼續向萬億參數規模和百萬令牌上下文發展,在 AI 基礎設施高峰會上發布的架構創新為運算的未來奠定了重要基礎。它們建構了定義未來十年企業 AI 能力的框架和技術。

參考文章: Nvidia GTC25新聞

所有幻燈片和圖片均來自 Nvidia

參與 StorageReview

電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS訂閱

迪維揚什·賈恩

機器學習工程師、家庭實驗室愛好者和技術發燒友。在 Storage Review,我負責人工智慧和新興工作負載測試,旨在提供實用見解和效能分析。