首页 企业版 Supermicro 液冷解决方案已为人工智能做好准备

Supermicro 液冷解决方案已为人工智能做好准备

by 乔丹拉努斯

Supermicro 在台湾 Computex 2024 上展示其最新创新成果,展示了其在液冷解决方案领域的领先地位。这些新解决方案旨在为大规模人工智能和云计算基础设施提供卓越的性能和效率。

Supermicro 在台湾 Computex 2024 上展示其最新创新成果,展示了其在液冷解决方案领域的领先地位。这些新解决方案旨在为大规模人工智能和云计算基础设施提供卓越的性能和效率。

用于增强性能的液冷机架解决方案

Supermicro 的液冷机架解决方案旨在支持最高密度和 TDP CPU 和 GPU,每个机架提供高达 100kW 的功率和冷却​​。这些解决方案在系统 (L10)、机架 (L11) 和集群 (L12) 级别进行了全面验证和测试,以确保可靠性和性能。通过基于库存的加速交货时间,可以在几周内完成部署。企业级组件包括冗余冷却泵和电源、防漏连接器和泄漏检测系统。

配备多个 CPU 和 GPU 的现代服务器会产生大量热量,每台服务器的热量高达 10kW,这对传统空气冷却系统构成了挑战。美超微的液冷解决方案针对人工智能、高性能计算和分析应用进行了优化,这些应用需要比前几代产品运行温度更高的先进 CPU 和 GPU 技术。通过集成高效的液体冷却,Supermicro 减少了服务器和机架级别的电力需求,从而提高了性能并降低了成本。

高效液体冷却解决方案的组件

Supermicro 的液冷机架解决方案由多个关键组件组成,旨在确保高性能和可靠性,包括:

  • 冷却液分配装置 (CDU):该装置将冷却剂循环到冷板,冷却 CPU 和 GPU。 CDU 具有两个可热插拔的冗余泵送和电源模块,可保证近 100% 的正常运行时间。它支持高达 100kW 的冷却能力,并包括易于使用的触摸屏和用于监视和控制的 WebUI 访问。
  • 冷却液分配歧管 (CDM):CDM 是将冷却剂分配到每个服务器并将较热的冷却剂返回到 CDU 的管道。它们可以垂直和水平放置,以适应不同的机架设计和服务器类型。
  • 软管和连接器:柔性软管将冷却液输送至 CPU 和 GPU,而单手零滴漏快速断开器可安全高效地维修液冷系统。
  • 冷板:它们放置在 CPU 和 GPU 的顶部,通过使冷却剂流经微型通道来有效冷却它们。超微冷板旨在减少热点并实现超低热阻。

机架级解决方案的先进工程

Supermicro 的液冷机架专为处理各种服务器而设计,确保为高性能计算环境提供灵活且可扩展的解决方案。集成先进的液体冷却技术对于保持最佳性能和可靠性至关重要。

受益于机架级液体冷却的 Supermicro 服务器包括:

  • GPU系统:Supermicro 的 GPU 系统结合了最快的处理器、内存和 GPU,适用于 AI/ML、推理和 HPC 应用。这些系统提供 2U、4U 或 8U 配置,支持 4 或 8 个由最新 Intel Xeon 或 AMD EPYC™ 处理器驱动的 NVIDIA® H100 GPU。这些系统具有多达 32 个 DDR5 内存 DIMM,可为要求苛刻的工作负载提供紧凑而强大的解决方案。直接芯片 (D2C) 冷却器用于保持最佳温度。
  • 大双胞胎:BigTwin 代表了 Supermicro 针对要求苛刻的应用和 HCI 环境的旗舰性能解决方案。该 2U 机柜支持最多四个节点,每个节点均配备双 Intel Xeon 处理器、最多 16 个 DDR5 内存 DIMM 和多个高速 NVMe 驱动器。网络选项包括 10GbE、25GbE、100GbE 和 200 Gb HDR InfiniBand。
  • 胖双胞胎:FatTwin 在 4U 机箱中提供高密度、多节点架构,支持单个处理器的 4 或 8 个节点。这些系统提供冷通道可维护性,并针对具有灵活计算和存储选项的数据中心基础设施进行了优化。
  • 超级刀片:SuperBlade 具有共享冷却、电源和网络基础设施,并在 20U 机箱中支持多达 8 个刀片服务器。它具有 Intel Xeon 或 AMD EPYC 处理器选项,专为高性能、高能效和降低 TCO 而设计。提供高级网络选项,包括 200G HDR InfiniBand。
  • :X14 Hyper 系列为要求苛刻的工作负载提供下一代性能。这些服务器提供 1U 或 2U 配置,支持多达 32 个 DIMM 插槽,并针对最高性能 CPU 的最大计算性能进行了优化。
产品系列服务器描述
GPU SYS-421GE-TNHR2-LCC 双第四代/第五代英特尔至强处理器
4U、32 个 DIMM
NVIDIA HGX H100 8-GPU 板
AS -4125GS-TNHR2-LCC 双第四代 AMD EPYC 4 系列处理器
4U、24 个 DIMM
NVIDIA HGX H-100 8-GPU 板
SYS-821GE-TNHR 双4th 新一代英特尔• 至强• 可扩展处理器
8U、32 个 DIMM
HGX H100 8-GPU SXM5 多 GPU 板
AS -8125GS-TNHR 双4th 第二代 AMD EPYC 9004 系列处理器
8U、24 个 DIMM
NVIDIA HGX H100 8-GPU SXM5 多 GPU 板
SYS-421GU-TNXR 双4th 新一代英特尔• 至强• 可扩展处理器
4U、32 个 DIMM
NVIDIA HGX H100 4-GPU 多 GPU 板
SYS-421GE-TNR (PCIe) 双4th 新一代英特尔• 至强• 可扩展处理器
4U、32 个 DIMM
GPU-NVH100-80,GPU-NVA100-80-NC
AS -4125GS-TNRT (PCIe) 双4th 第二代 AMD EPYC 9004 系列处理器
4U、32 个 DIMM
最多 8 张双宽/单宽卡(全高全长)
NVIDIA H100 和 AMD MI200 系列
大双胞胎 SYS-221BT-HNTR 双4th 新一代英特尔• 至强• 可扩展处理器
2U、4 节点、16 个 DIMM
SYS-221BT-DNTR 双4th 新一代英特尔• 至强• 可扩展处理器
2U、2 节点、16 个 DIMM
胖双胞胎 SYS-F511E2-RT 单个4th/5th Gen Intel• Xeon• 处理器,4U,8 节点,16 个 DIMM
SYS-F521E3-RTB 单个4th/5th Gen Intel• Xeon• 处理器,4U,4 节点,16 个 DIMM
超级刀片 SBE-820C/J/J2/L/H-820 8U机柜
SBI-421E-1T3N 双4th/5th 新一代英特尔• 至强• 处理器
16 个内存条

全方位的解决方案

Supermicro 不仅可以为您提供单台液冷服务器、CDU 和歧管,还可以为您提供整个冷却塔,将其放置在数据中心之外。这是一个非常有趣的产品,因为它们可以为组织提供完整的解决方案。进一步地,与 超级云作曲家,客户可以通过单一管理平台进行全面管理,从单个 CPU 或 GPU 温度到机架中不同阀门和泵速度的位置,甚至冷却塔。

我们收到了 Super Cloud Composer 的实践演示,其中展示了 AMD MI300X GPU 机架,该机架采用液冷,并作为整体解决方案的一部分包含在内。 Supermicro Super Cloud Composer 平台提供熟悉且易于使用的界面,用于监控和管理您的数据中心。此外,您还可以从 Super Cloud Composer 数据库中获取详细的日志记录指标,以评估性能运行状况并查看趋势,以帮助进行预防性主动维护。

我们报道液体冷却解决方案已经有一段时间了,并且兴趣不断增长。我们的 Instagram 和 YouTube 视频已获得数百万次观看。事实证明,液体冷却解决方案可以保持组件冷却,特别是考虑到领先于人工智能海啸所需的繁重处理。

超微液冷机架 从圣何塞的生产线下线。

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅