首页 企业版 Supermicro 扩展 A100 GPU 容量

Supermicro 扩展 A100 GPU 容量

by 亚当·阿姆斯特朗
美超微 NIDIA A100

今天,在 NVIDIA 在其年度 GTC 活动上发布了几项与 GPU 相关的公告之后,Supermicro 做了它最擅长的事情,宣布对即将上市的最新创新产品提供硬件支持。 在这种情况下,Supermicro 宣布扩展其新的 4U 服务器以支持多达八个 NVIDIA HGX A100 GPU。 该公司还有一个 2U 服务器,最多支持四个 A100 GPU。

今天,在 NVIDIA 在其年度 GTC 活动上发布了几项与 GPU 相关的公告之后,Supermicro 做了它最擅长的事情,宣布对即将上市的最新创新产品提供硬件支持。 在这种情况下,Supermicro 宣布扩展其新的 4U 服务器以支持多达八个 NVIDIA HGX A100 GPU。 该公司还有一个 2U 服务器,最多支持四个 A100 GPU。

美超微 NIDIA A100

用于 GPU 系统的 Supermicro 服务器配备 NVIDIA HGX A100 GPU,运行范围包括 1U、2U、4U 和 10U 机架式 GPU 系统。 这些解决方案从边缘到云端运行,由 AMD EPYC(霄龙)或英特尔至强处理器提供支持。 据该公司称,1U GPU 系统包含多达四个带 NVLink 的 NVIDIA GPU,包括 NEBS Level 3 认证、5G/Edge-ready SYS-1029GQ。 Supermicro 的 2U GPU 系统,例如 SYS-2029GP-TR,可以在一个系统中支持多达六个具有双 PCI-E Root 复合体功能的 NVIDIA V100 GPU。 最后,10U GPU 服务器,如 SYS-9029GP-TNVRT,支持 16 个 V100 SXM3 GPU 扩展到具有内置 AI 加速功能的双英特尔至强可扩展处理器。

对于新服务器,美超微利用先进的热设计、定制散热器和可选的液体冷却来配备 NVIDIA HGX A100 4-GPU 8-GPU 底板,以及支持八个 NVIDIA A4 PCI-E GPU 的新 100U 服务器。 新服务器利用该公司的高级 I/O 模块 (AIOM) 外形,以提高网络通信的灵活性。 AIOM 与 PCIe gen 4 存储和网络设备配合使用,这些设备支持 NVIDIA GPUDirect RDMA 和 GPUDirect Storage with NVME over Fabrics (NVMe-oF) on NVIDIA Mellanox InfiniBand。 以上所有旨在消除进入所有 GPU 的瓶颈。

首先,2U 系统通过散热片设计最多可容纳 4 个 NVIDIA GPU。 该系统通过 NVIDIA NVLink、高达 8TB 的 DDR4 3200Mhz 系统内存、五个支持 GPUDirect RDMA 的 PCI-E 4.0 I/O 插槽以及允许四个具有 GPUDirect 存储功能的热插拔 NVMe 实现高 GPU 点对点通信。 在 2U 系统中令人印象深刻。

在更大的系统上,4U 服务器拥有 NVIDIA HGX A100 8-GPU 底板、多达六个 NVMe U.2 和两个 NVMe M.2,以及十个 PCI-E 4.0 x16 插槽。 该系统利用了上述 AIOM、NVIDIA NVLink 和 NVSwitch 技术。 这个大家伙的用例是大规模深度学习训练、研究或国家实验室的神经网络模型应用、超级计算集群和 HPC 云服务。

为了获得最大的 GPU 密度,Supermicro 还拥有一个 8U SuperBlade 外壳。 该服务器最多可支持 20 个节点和 40 个 GPU,每个节点两个单宽 GPU,或每个节点一个 NVIDIA Tensor Core A100 PCI-E GPU。 在一个 20U 占用空间中安装多达 100 个 NVIDIA A8 实际上可以节省成本,因为只有 8U 需要供电或为机架中的其他设备留出空间。 这款 SuperBlade 提供 100% 无阻塞 HDR 200Gb/s InfiniBand 网络基础设施,以加速深度学习并实现实时分析和决策制定。

超微

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | Facebook | RSS订阅