NVIDIA 利用 SC22 发布公告,强调新一波 HPC 创新浪潮能够实现突破性科学发现。 NVIDIA 重点介绍了 Quantum-2、Omniverse、边缘 HPC 和数字孪生模拟。 这是 NVIDIA 编译。
NVIDIA 利用 SC22 发布公告,强调新一波 HPC 创新浪潮能够实现突破性科学发现。 NVIDIA 重点介绍了 Quantum-2、Omniverse、边缘 HPC 和数字孪生模拟。 这是 NVIDIA 编译。
首先是宣布其下一代产品已被广泛采用 H100 张量核心 GPU 和 Quantum-2 InfiniBand,包括 Microsoft Azure 云上的新产品和 50 多个用于加速科学发现的新合作伙伴系统。
NVIDIA 发布了对其 cuQuantum、CUDA 和 BlueField DOCA 加速库的重大更新,并宣布在 NVIDIA A100 和 H100 驱动的系统上支持其 Omniverse 仿真平台。 H100、Quantum-2 和库更新都是 NVIDIA HPC 平台的一部分。 HPC 平台包括一个完整的技术堆栈,包括 CPU、GPU、DPU、系统、网络以及范围广泛的 AI 和 HPC 软件,使研究人员能够有效地加速他们在强大系统、本地或云端的工作。
Azure 为 HPC 工作负载提供 NVIDIA Quantum-2
微软 Azure 采用 Quantum-2 InfiniBand 网络平台是在 NVIDIA Quantum-2 在 XNUMX 月的 GTC 上宣布全面上市之后。
搭载 H100、NVIDIA AI 的全新服务器
华硕、Atos、戴尔、HPE、联想和 Supermicro 只是宣布采用 H100 服务器的 NVIDIA 合作伙伴中的几个。 每个 H100 PCIe GPU 都包含 NVIDIA AI Enterprise 的五年许可。 这确保组织能够访问构建 H100 加速 AI 解决方案所需的 AI 框架和工具,从医学成像到天气模型再到安全警报系统等等。
在新系统浪潮中,戴尔 PowerEdge XE9680 也在 SC22 期间发布,它可以处理要求最苛刻的 AI 和高性能工作负载。 这是戴尔首款基于 NVIDIA HGX 平台的八路系统,专为模拟、数据分析和人工智能的融合而构建。
PowerEdge XE8640 是戴尔全新的 HGX H100 系统,配备四个 Hopper GPU,使企业能够开发、训练和部署人工智能和机器学习模型。 XE4 是一个 8640U 机架系统,通过多达四个 PCIe Gen5 插槽、NVIDIA 多实例 GPU (MIG) 技术和 NVIDIA GPU直存 支持。
加速库的主要更新
为了帮助促进科学发现,NVIDIA 发布了对其 CUDA、cuQuantum 和 DOCA 加速库的重大更新,包括:
- NVIDIA CUDA 库现在包含一个多节点、多 GPU Eigensolver,可为领先的 HPC 应用程序(例如用于第一性原理量子力学计算的软件包 VASP)实现前所未有的规模和性能。
- 用于加速量子计算工作流程的 NVIDIA cuQuantum 软件开发套件现在支持近似张量网络方法。 这使研究人员能够模拟数万个量子位,并使用 cuQuantum Appliance 自动启用多节点、多 GPU 支持量子模拟,具有无与伦比的性能。
- NVIDIA DOCA 是用于 NVIDIA BlueField DPU 的开放云 SDK 和加速框架,包括高级可编程性、安全性和功能,以支持新的存储用例。
这些库使研究人员能够跨多个服务器进行扩展,并为它们配备性能提升以推动科学发现。 NVIDIA HPC 加速库可在领先的云平台 AWS、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 上使用。
Omniverse 面向科学家的开放门户
接下来,NVIDIA 宣布 NVIDIA Omniverse 现在连接到领先的科学计算可视化软件,并支持在由 NVIDIA A100 和 H100 Tensor Core GPU 提供支持的系统上进行新的批量渲染工作负载。
NVIDIA 还为高性能计算社区推出了实时科学和工业数字双胞胎,由 NVIDIA OVX 和 Omniverse Cloud 支持,NVIDIA OVX 是一种计算系统,旨在为大规模 Omniverse 数字双胞胎提供支持,软件和基础设施即服务- 服务提供。
Omniverse 现在支持 AI 和 HPC 研究人员、科学家和工程师可以在他们现有的 A100 或 H100 系统上运行的批处理工作负载。
NVIDIA 还推出了与流行科学计算工具的连接,例如 Kitware 的 ParaView,一种可视化应用程序; 用于体积渲染的 NVIDIA IndeX; NVIDIA Modulus 用于开发物理机器学习模型; 和用于大规模稀疏体积数据表示的 NeuraVDB。
使用 Omniverse 和混合云工作负载,科学计算客户可以连接遗留模拟和可视化管道,以实现与其模型和数据集的分布式、完全交互、真正的实时交互。 阿贡国家实验室、洛克希德马丁和普林斯顿等离子体物理实验室等 NVIDIA 客户已经看到 Omniverse 对 HPC 工作负载的好处。
Omniverse 得到了全球科学领袖的支持。
阿贡国家实验室正在其搭载 A100 的 Polaris 超级计算机上使用 NVIDIA Omniverse 来连接其传统可视化工具,这是为未来数字孪生开发基础的第一步。
美国能源部等离子体物理和聚变科学国家实验室普林斯顿等离子体物理实验室 (PPPL) 正在使用 Omniverse 连接和加速最先进的合成实时 HPC 模拟器,以对聚变设备和控制进行建模系统,并最终改进实验的操作,以获得新的商业上可行的清洁能源。
为了配合 NVIDIA 加速气候研究的 Earth-2 计划,航空航天领导者洛克希德马丁公司最近开始使用 NVIDIA Omniverse 为美国国家海洋和大气管理局 (NOAA) 提供更好的全球环境和态势感知,并开发交互式气候研究管道。
可用性
这些新功能现已在 NVIDIA Omniverse 中得到支持,可供开发人员和企业使用。
NVIDIA 平台解决边缘 HPC 问题
远距离共享工作的大学和企业需要一种通用语言和安全管道,以使从显微镜和传感器到服务器和校园网络的每台设备都能查看和理解传输的数据。 需要存储、传输和分析的数据量不断增加只会加剧挑战。
NVIDIA 正在通过引入一个高性能计算平台来解决这个问题,该平台结合了边缘计算和 AI,以捕获和整合来自科学边缘仪器的流数据,从而使设备能够远距离相互通信。
该平台由三个主要组件组成,NVIDIA Holoscan、MetroX-3 和 NVIDIA BlueField-3 DPU。 NVIDIA Holoscan 是一个软件开发工具包,数据科学家和领域专家可以使用它为流式传输数据的传感器构建 GPU 加速管道。 MetroX-3 是一种新的长途系统,可扩展 NVIDIA Quantum-2 InfiniBand 平台的连接性。 NVIDIA BlueField-3 DPU 提供安全、智能的数据迁移。
研究人员可以使用新的 NVIDIA 高性能计算边缘计算平台来安全地交流和协作解决问题,并将他们不同的设备和算法整合在一起,作为一台大型超级计算机运行。
用于边缘 HPC 的全息扫描
在包括 NVIDIA IGX、HGX 和 DGX 系统在内的 GPU 计算平台的加速下,NVIDIA Holoscan 提供了处理全球科学仪器生成的海量数据流所需的极致性能。
NVIDIA Holoscan for HPC 包括适用于 C++ 和 Python 的新 API,HPC 研究人员可以使用这些 API 构建传感器数据处理工作流,这些工作流对于非图像格式足够灵活,并且具有足够的可扩展性以将原始数据转化为实时洞察。
Holoscan 还管理内存分配以确保零拷贝数据交换,因此开发人员可以专注于工作流逻辑,而不必担心管理文件和内存 I/O。
Holoscan 的新功能将于下个月面向所有 HPC 开发人员开放。
MetroX-3 走得更远
NVIDIA MetroX-3 远程系统将于下月面市,将 NVIDIA Quantum-2 InfiniBand 平台的最新云原生功能从边缘扩展到 HPC 数据中心核心。 它使站点之间的 GPU 能够通过最远 25 英里(40 公里)外的 InfiniBand 网络安全地共享数据。
利用本机远程直接内存访问,用户可以轻松地将数据和计算作业从一个 InfiniBand 连接的微型集群迁移到主数据中心,或者组合地理上分散的计算集群以获得更高的整体性能和可扩展性。
数据中心运营商可以使用 NVIDIA Unified Fabric Manager 来管理他们的 MetroX-3 系统,从而跨所有 InfiniBand 连接的数据中心网络进行配置、监控和操作。
用于安全、高效 HPC 的 BlueField
NVIDIA BlueField DPU 卸载、加速和隔离高级网络、存储和安全服务,以提高现代 HPC 的性能和效率。
NVIDIA 为 HPC 数据中心运营商带来数字孪生模拟
仿真和数字孪生可以帮助数据中心设计师、建造者和运营商创建高效和高性能的设施。 NVIDIA Omniverse 仿真平台有助于简化协作虚拟设计的过程。
Omniverse 现在让数据中心运营商可以聚合来自其核心第三方计算机辅助设计、模拟和监控应用程序的实时输入,以便他们可以实时查看和使用完整的数据集。
SC22 Omniverse 演示展示了 Omniverse 如何让用户利用连接到实时监控和 AI 的加速计算、模拟和操作数字孪生的力量。 这使团队能够简化设施设计,加快建设和部署,并优化正在进行的运营。
该演示还重点介绍了 NVIDIA Air,这是一个旨在与 Omniverse 一起模拟网络的数据中心模拟平台。 借助 NVIDIA Air,团队可以对整个网络堆栈进行建模,从而允许他们在启动之前自动化和验证网络硬件和软件。
创建数字孪生以提升设计和仿真
在规划和构建 NVIDIA 最新的人工智能超级计算机之一时,从 Autodesk Revit、PTC Creo 和 Trimble SketchUp 等第三方行业工具收集了多个工程 CAD 数据集。 这使设计师和工程师能够完全保真地查看基于通用场景描述的模型,并且他们可以实时协作迭代设计。
PATCH MANAGER 是一种企业软件应用程序,用于规划网络域中的布线、资产和物理层点对点连接。 通过 PATCH MANAGER 连接到 Omniverse,端口到端口连接、机架和节点布局以及布线的复杂拓扑可以直接集成到实时模型中。 这使数据中心工程师能够查看模型及其依赖项的完整视图。
为了预测气流和热传递,工程师们使用了 Cadence 6SigmaDCX,一款用于计算流体动力学的软件。 工程师还可以使用经过 NVIDIA Modulus 训练的 AI 代理进行近乎实时的“假设”分析。 这让团队可以模拟复杂的热量和冷却的变化,并且他们可以立即看到结果。
借助 NVIDIA Air,可以模拟和预验证准确的网络拓扑结构(包括协议、监控和自动化)。
数据中心建成后,其传感器、控制系统和遥测技术可以连接到 Omniverse 内部的数字双胞胎,从而实现对运营的实时监控。
工程师可以通过完美同步的数字双胞胎来模拟常见的危险,例如功率峰值或冷却系统故障。 运营商可以从 AI 推荐的更改中受益,这些更改针对关键优先事项进行了优化,例如提高能源效率和减少碳足迹。 数字孪生还允许他们在部署到物理数据中心之前测试和验证软件和组件升级。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅