NVIDIA 利用 SC22 發佈公告,強調新一波 HPC 創新浪潮能夠實現突破性科學發現。 NVIDIA 重點介紹了 Quantum-2、Omniverse、邊緣 HPC 和數字孿生模擬。 這是 NVIDIA 編譯。
NVIDIA 利用 SC22 發佈公告,強調新一波 HPC 創新浪潮能夠實現突破性科學發現。 NVIDIA 重點介紹了 Quantum-2、Omniverse、邊緣 HPC 和數字孿生模擬。 這是 NVIDIA 編譯。
首先是宣布其下一代產品已被廣泛採用 H100 張量核心 GPU Quantum-2 InfiniBand,包括 Microsoft Azure 雲上的新產品和 50 多個用於加速科學發現的新合作夥伴系統。
NVIDIA 發布了對其 cuQuantum、CUDA 和 BlueField DOCA 加速庫的重大更新,並宣佈在 NVIDIA A100 和 H100 驅動的系統上支持其 Omniverse 仿真平台。 H100、Quantum-2 和庫更新都是 NVIDIA HPC 平台的一部分。 HPC 平台包括一個完整的技術堆棧,包括 CPU、GPU、DPU、系統、網絡以及範圍廣泛的 AI 和 HPC 軟件,使研究人員能夠有效地加速他們在強大系統、本地或云端的工作。
Azure 為 HPC 工作負載提供 NVIDIA Quantum-2
微軟 Azure 採用 Quantum-2 InfiniBand 網絡平台是在 NVIDIA Quantum-2 在 XNUMX 月的 GTC 上宣布全面上市之後。
搭載 H100、NVIDIA AI 的全新服務器
華碩、Atos、戴爾、HPE、聯想和 Supermicro 只是宣布採用 H100 服務器的 NVIDIA 合作夥伴中的幾個。 每個 H100 PCIe GPU 都包含 NVIDIA AI Enterprise 的五年許可。 這確保組織能夠訪問構建 H100 加速 AI 解決方案所需的 AI 框架和工具,從醫學成像到天氣模型再到安全警報系統等等。
在新系統浪潮中,戴爾 PowerEdge XE9680 也在 SC22 期間發布,它可以處理要求最苛刻的人工智能和高性能工作負載。 這是戴爾首款基於 NVIDIA HGX 平台的八路系統,專為模擬、數據分析和人工智能的融合而構建。
PowerEdge XE8640 是戴爾全新的 HGX H100 系統,配備四個 Hopper GPU,使企業能夠開發、訓練和部署人工智能和機器學習模型。 XE4 是一個 8640U 機架系統,通過多達四個 PCIe Gen5 插槽、NVIDIA 多實例 GPU (MIG) 技術和 NVIDIA GPU直存 支持。
加速庫的主要更新
為了幫助促進科學發現,NVIDIA 發布了對其 CUDA、cuQuantum 和 DOCA 加速庫的重大更新,包括:
- NVIDIA CUDA 庫現在包含一個多節點、多 GPU Eigensolver,可為領先的 HPC 應用程序(例如用於第一性原理量子力學計算的軟件包 VASP)實現前所未有的規模和性能。
- 用於加速量子計算工作流程的 NVIDIA cuQuantum 軟件開發套件現在支持近似張量網絡方法。 這使研究人員能夠模擬數万個量子位,並使用 cuQuantum Appliance 以無與倫比的性能自動啟用多節點、多 GPU 以支持量子模擬。
- NVIDIA DOCA 是用於 NVIDIA BlueField DPU 的開放雲 SDK 和加速框架,包括高級可編程性、安全性和功能,以支持新的存儲用例。
這些庫使研究人員能夠跨多個服務器進行擴展,並為它們配備性能提升以推動科學發現。 NVIDIA HPC 加速庫可在領先的雲平台 AWS、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 上使用。
Omniverse 面向科學家的開放門戶
接下來,NVIDIA 宣布 NVIDIA Omniverse 現在連接到領先的科學計算可視化軟件,並支持在由 NVIDIA A100 和 H100 Tensor Core GPU 提供支持的系統上進行新的批量渲染工作負載。
NVIDIA 還為高性能計算社區推出了實時科學和工業數字雙胞胎,由 NVIDIA OVX 和 Omniverse Cloud 支持,NVIDIA OVX 是一種計算系統,旨在為大規模 Omniverse 數字雙胞胎提供支持,軟件和基礎設施即服務- 服務提供。
Omniverse 現在支持 AI 和 HPC 研究人員、科學家和工程師可以在他們現有的 A100 或 H100 系統上運行的批處理工作負載。
NVIDIA 還推出了與流行科學計算工具的連接,例如 Kitware 的 ParaView,一種可視化應用程序; 用於體積渲染的 NVIDIA IndeX; NVIDIA Modulus 用於開發物理機器學習模型; 和用於大規模稀疏體積數據表示的 NeuraVDB。
使用 Omniverse 和混合雲工作負載,科學計算客戶可以連接遺留模擬和可視化管道,以實現與其模型和數據集的分佈式、完全交互、真正的實時交互。 阿貢國家實驗室、洛克希德馬丁和普林斯頓等離子體物理實驗室等 NVIDIA 客戶已經看到 Omniverse 對 HPC 工作負載的好處。
Omniverse 得到了全球科學領袖的支持。
阿貢國家實驗室正在其搭載 A100 的 Polaris 超級計算機上使用 NVIDIA Omniverse 來連接其傳統可視化工具,這是為未來數字孿生開發基礎的第一步。
美國能源部等離子體物理和聚變科學國家實驗室普林斯頓等離子體物理實驗室 (PPPL) 正在使用 Omniverse 連接和加速最先進的合成實時 HPC 模擬器,以對聚變設備和控制進行建模系統,並最終改進實驗的操作,以獲得新的商業上可行的清潔能源。
為了配合 NVIDIA 加速氣候研究的 Earth-2 計劃,航空航天領導者洛克希德馬丁公司最近開始使用 NVIDIA Omniverse 為美國國家海洋和大氣管理局 (NOAA) 提供更好的全球環境和態勢感知,並開發交互式氣候研究管道。
庫存情況
這些新功能現已在 NVIDIA Omniverse 中得到支持,可供開發人員和企業使用。
NVIDIA 平台解決邊緣 HPC 問題
遠距離共享工作的大學和企業需要一種通用語言和安全管道,以使從顯微鏡和傳感器到服務器和校園網絡的每台設備都能查看和理解傳輸的數據。 需要存儲、傳輸和分析的數據量不斷增加只會加劇挑戰。
NVIDIA 正在通過引入一個高性能計算平台來解決這個問題,該平台結合了邊緣計算和 AI,以捕獲和整合來自科學邊緣儀器的流數據,從而使設備能夠遠距離相互通信。
該平台由三個主要組件組成,NVIDIA Holoscan、MetroX-3 和 NVIDIA BlueField-3 DPU。 NVIDIA Holoscan 是一個軟件開發工具包,數據科學家和領域專家可以使用它為流式傳輸數據的傳感器構建 GPU 加速管道。 MetroX-3 是一種新的長途系統,可擴展 NVIDIA Quantum-2 InfiniBand 平台的連接性。 NVIDIA BlueField-3 DPU 提供安全、智能的數據遷移。
研究人員可以使用新的 NVIDIA 高性能計算邊緣計算平台來安全地交流和協作解決問題,並將他們不同的設備和算法整合在一起,作為一台大型超級計算機運行。
用於邊緣 HPC 的全息掃描
在包括 NVIDIA IGX、HGX 和 DGX 系統在內的 GPU 計算平台的加速下,NVIDIA Holoscan 提供了處理全球科學儀器生成的海量數據流所需的極致性能。
NVIDIA Holoscan for HPC 包括適用於 C++ 和 Python 的新 API,HPC 研究人員可以使用這些 API 構建傳感器數據處理工作流,這些工作流對於非圖像格式足夠靈活,並且具有足夠的可擴展性以將原始數據轉化為實時洞察。
Holoscan 還管理內存分配以確保零拷貝數據交換,因此開發人員可以專注於工作流邏輯,而不必擔心管理文件和內存 I/O。
Holoscan 的新功能將於下個月面向所有 HPC 開發人員開放。
MetroX-3 走得更遠
NVIDIA MetroX-3 遠程系統將於下月面市,將 NVIDIA Quantum-2 InfiniBand 平台的最新雲原生功能從邊緣擴展到 HPC 數據中心核心。 它使站點之間的 GPU 能夠通過最遠 25 英里(40 公里)外的 InfiniBand 網絡安全地共享數據。
利用本機遠程直接內存訪問,用戶可以輕鬆地將數據和計算作業從一個 InfiniBand 連接的微型集群遷移到主數據中心,或者組合地理上分散的計算集群以獲得更高的整體性能和可擴展性。
數據中心運營商可以使用 NVIDIA Unified Fabric Manager 來管理他們的 MetroX-3 系統,從而跨所有 InfiniBand 連接的數據中心網絡進行配置、監控和操作。
用於安全、高效 HPC 的 BlueField
NVIDIA BlueField DPU 卸載、加速和隔離高級網絡、存儲和安全服務,以提高現代 HPC 的性能和效率。
NVIDIA 為 HPC 數據中心運營商帶來數字孿生模擬
仿真和數字孿生可以幫助數據中心設計師、建造者和運營商創建高效和高性能的設施。 NVIDIA Omniverse 仿真平台有助於簡化協作虛擬設計的過程。
Omniverse 現在讓數據中心運營商可以聚合來自其核心第三方計算機輔助設計、模擬和監控應用程序的實時輸入,以便他們可以實時查看和使用完整的數據集。
SC22 Omniverse 演示展示了 Omniverse 如何讓用戶利用連接到實時監控和 AI 的加速計算、模擬和操作數字孿生的力量。 這使團隊能夠簡化設施設計,加快建設和部署,並優化正在進行的運營。
該演示還重點介紹了 NVIDIA Air,這是一個旨在與 Omniverse 一起模擬網絡的數據中心模擬平台。 借助 NVIDIA Air,團隊可以對整個網絡堆棧進行建模,從而允許他們在啟動之前自動化和驗證網絡硬件和軟件。
創建數字孿生以提升設計和仿真
在規劃和構建 NVIDIA 最新的人工智能超級計算機之一時,從 Autodesk Revit、PTC Creo 和 Trimble SketchUp 等第三方行業工具收集了多個工程 CAD 數據集。 這使設計師和工程師能夠完全保真地查看基於通用場景描述的模型,並且他們可以實時協作迭代設計。
PATCH MANAGER 是一種企業軟件應用程序,用於規劃網絡域中的佈線、資產和物理層點對點連接。 通過 PATCH MANAGER 連接到 Omniverse,端口到端口連接、機架和節點佈局以及佈線的複雜拓撲可以直接集成到實時模型中。 這使數據中心工程師能夠查看模型及其依賴項的完整視圖。
為了預測氣流和熱傳遞,工程師們使用了 Cadence 6SigmaDCX,一款用於計算流體動力學的軟件。 工程師還可以使用經過 NVIDIA Modulus 訓練的 AI 代理進行近乎實時的“假設”分析。 這讓團隊可以模擬複雜的熱量和冷卻的變化,並且他們可以立即看到結果。
借助 NVIDIA Air,可以模擬和預驗證準確的網絡拓撲結構(包括協議、監控和自動化)。
數據中心建成後,其傳感器、控制系統和遙測技術可以連接到 Omniverse 內部的數字雙胞胎,從而實現對運營的實時監控。
工程師可以通過完美同步的數字雙胞胎來模擬常見的危險,例如功率峰值或冷卻系統故障。 運營商可以從 AI 推薦的更改中受益,這些更改針對關鍵優先事項進行了優化,例如提高能源效率和減少碳足跡。 數字孿生還允許他們在部署到物理數據中心之前測試和驗證軟件和組件升級。
參與 StorageReview
電子報 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | 的TikTok | RSS訂閱