今天,NVIDIA 宣布在其部分全球合作伙伴的帮助下,将推出全新的 NVIDIA HGX A100 系统。 新系统希望通过添加 NVIDIA A100 80GB PCIe GPU、NVIDIA NDR 400G InfiniBand 网络和 NVIDIA Magnum IO GPUDirect 存储软件等 NVIDIA 元素来加速 AI 和 HPC。 这些新的 HGX 系统将由包括源讯、戴尔科技、惠普企业 (HPE)、联想、微软 Azure 和 NetApp 在内的合作伙伴推向市场。
今天,NVIDIA 宣布在其部分全球合作伙伴的帮助下,将推出全新的 NVIDIA HGX A100 系统。 新系统希望通过添加 NVIDIA A100 80GB PCIe GPU、NVIDIA NDR 400G InfiniBand 网络和 NVIDIA Magnum IO GPUDirect 存储软件等 NVIDIA 元素来加速 AI 和 HPC。 这些新的 HGX 系统将由包括源讯、戴尔科技、惠普企业 (HPE)、联想、微软 Azure 和 NetApp 在内的合作伙伴推向市场。
NVIDIA 多年来一直在制造高性能 GPU。 新兴的 AI 市场,尤其是 HPC,已经推动越来越多的超级计算机利用该公司的技术。 NVIDIA 自己在过去几年中一直在使用 DGX 和 HGX 模型制造 HPC 服务器和工作站。 后者将几个 NVIDIA IP 集中在一个屋檐下以获得更好的性能。新系统再次使用 NVIDIA 必须提供的最新和最强大的功能来做到这一点。
NVIDIA A100 80GB PCIe GPU
NVIDIA A100 于去年在 GTC 上发布。 这款全新的 7nm GPU 采用了该公司的 Ampere 架构,包含 54 万个晶体管。 NVIDIA 通过推出 NVIDIA A100 80GB PCIe GPU 迅速改进了产品,将内存增加了一倍。 A100 80GB PCIe GPU 是新 HGX A100 系统的第一部分。 它的大内存容量和高带宽允许在内存中保存更多数据和更大的神经网络。 这意味着更少的节点间通信以及更少的能源消耗。 高内存还允许更高的吞吐量,从而可以更快地获得结果。
如前所述,NVIDIA A100 80GB PCIe GPU 由该公司的 Ampere 架构提供支持。 此架构具有多实例 GPU,也称为 MIG。 MIG 可以为较小的工作负载(即 AI 推理)提供加速。 此功能允许用户在保证 QoS 的情况下缩减计算和内存。
围绕 NVIDIA A100 80GB PCIe GPU 的合作伙伴包括源讯、思科、戴尔科技、富士通、新华三、HPE、浪潮、联想、企鹅计算、QCT 和超微。 有一些云服务也提供该技术,包括 AWS、Azure 和 Oracle。
NVIDIA NDR 400G InfiniBand 网络
NVIDIA HGX A100 系统拼图的第二块是新的 NVIDIA NDR 400G InfiniBand 交换机系统。 这听起来有点明显,但 HPC 系统需要非常高的数据吞吐量。 NVIDIA 几年前以近 7 亿美元的价格收购了 Mellanox. 从那时起,它一直在稳步发布新产品,同时慢慢淘汰 NVIDIA 的 Mellanox 名称。 去年发布的 NVIDIA NDR 400G InfiniBand 具有 3 倍的端口密度和 32 倍的 AI 加速。 这通过 NVIDIA Quantum-2 固定配置交换机系统集成到新的 HGX 系统中。 据说该系统每端口提供 64 个 NDR 400Gb/s InfiniBand 端口或 128 个 NDR200 端口。
据该公司称,新的 NVIDIA Quantum-2 模块化交换机可提供多达 2,048 个 NDR 400Gb/s InfiniBand 端口(或 4,096 个 NDR200 端口)的可扩展端口配置,总双向吞吐量为每秒 1.64 PB。 与上一代产品相比,性能提高了 5 倍以上,可扩展性提高了 6.5 倍。 使用 DragonFly+ 网络拓扑,用户可以连接到超过一百万个节点。 最后,该公司在其第三代 NVIDIA SHARP 网络计算数据缩减技术中加入了这一技术,据称与前几代产品相比,该技术可以实现 3 倍的 AI 加速。
NVIDIA Quantum-2 开关向后和向前兼容。 制造合作伙伴包括 Atos、DDN、Dell Technologies、Excelero、GIGABYTE、HPE、Lenovo、Penguin、QCT、Supermicro、VAST 和 WekaIO。
Magnum IO GPU直接存储
新的 NVIDIA HDX A100 拼图的最后一块是新的 Magnum IO GPUDirect Storage。 这允许 GPU 内存和存储之间的直接内存访问。 这有几个好处,包括较低的 I/O 延迟、大量使用网络适配器的带宽以及对 CPU 的影响较小。 多个合作伙伴现已推出 Magnum IO GPUDirect Storage,包括 DDN、Dell Technologies、Excelero、HPE、IBM Storage、Micron、NetApp、Pavilion、ScaleFlux、VAST 和 WekaIO。
参与 StorageReview
电子报 | YouTube | LinkedIn | Instagram | Twitter | Facebook | TikTok | RSS订阅