Supermicro 推出 DCBBS 和 DLC-2,这是一种模块化解决方案,用于构建可扩展、液冷 AI 数据中心,并加快部署时间。
美超微宣布推出数据中心构建模块解决方案 (DCBBS),这是一种旨在简化液冷 AI 数据中心部署的综合方案。DCBBS 将所有关键基础设施组件、服务器、存储、网络、机架、液冷、软件、服务和支持整合在一个标准化的模块化架构下。该计划旨在应对 AI 工厂建设和运营日益复杂的挑战,因为训练和推理工作负载的需求正在迅速增长。
简化AI数据中心部署
DCBBS 扩展了 Supermicro 的既有 系统构建块解决方案 数据中心级别,提供预先验证的可扩展单元,以加速规划、构建和运营。该解决方案旨在减少部署高性能AI基础设施的时间和成本。据Supermicro称,DCBBS使客户能够在短短三个月内从设计阶段过渡到部署阶段,这得益于包含平面图、机架立面图、物料清单和所有必要组件的套件。
超微总裁兼首席执行官梁见后 (Charles Liang) 指出,DCBBS 致力于为客户提供更快的上市时间和上线速度,并提供涵盖数据中心布局、网络拓扑、电源和电池备份的全方位解决方案。最终,流程得以简化,从而降低成本并提高整体质量。
模块化、可扩展、可定制
DCBBS 的核心是模块化构建块方法,其结构分为三个层级:系统、机架和数据中心。该架构允许客户根据特定需求定制其基础架构,从在系统级别选择单个 CPU、GPU、内存和存储,到选择机架配置(例如 42U、48U 或 52U),以及优化散热和布线。在初步咨询后,美超微将根据客户的功耗预算、性能目标和其他运营需求提供项目提案。
256 节点 AI Factory DCBBS 可扩展单元是一款关键产品,可为大规模 AI 训练和推理提供交钥匙解决方案。每个单元包含多达 256 个液冷 4U Supermicro NVIDIA HGX 系统节点,每个节点配备 2,048 个 NVIDIA Blackwell GPU,每个单元总计 800 个 GPU。这些节点通过高速 NVIDIA Quantum-X InfiniBand 或 Spectrum X 以太网网络互连,支持高达 5 GB/s 的带宽。该计算结构由使用 PCIe GenXNUMX NVMe 的可扩展分层存储、TCO 优化的数据湖节点以及弹性管理系统补充,可实现持续运行。
推进下一代数据中心的液体冷却
超微计算机还宣布其 直接液体冷却 (DLC) 解决方案推出满足高密度、AI 优化数据中心不断变化的需求的新技术。随着行业迅速转向液体冷却以支持现代工作负载的功率和散热需求,Supermicro 的 DLC-2 解决方案旨在在效率、部署速度和运营可持续性方面实现显著的改进。
随着计算资源密度的不断提高以及人工智能和机器学习工作负载的不断增长,数据中心对液体冷却的采用正在加速。行业分析师估计,在不久的将来,液冷数据中心可能占所有新安装数据中心的30%。传统的空气冷却已达到其实际极限,尤其是在企业部署配备高性能GPU和CPU的服务器时,这些服务器会产生大量热量。
Supermicro 最新的 DLC-2 解决方案旨在正面应对这些挑战,提供全面的端到端液冷架构,支持更快部署、降低运营成本并提升可持续性指标。该公司的 DLC-2 技术旨在应对现代 AI 工作负载的散热挑战,其中 GPU 的 TDP 可能超过 1,000W。
DLC-2 使用冷板和设施级液冷基础设施,直接从关键组件(CPU、GPU、内存、PCIe 交换机和稳压器)捕获热量。该系统包括机架内或行内冷却液分配单元 (CDU)、垂直冷却液分配歧管以及对设施侧冷却塔的支撑。这种方法可节省高达 40% 的电力,减少 60% 的数据中心占地面积,并降低高达 40% 的用水量,从而有助于降低约 20% 的总拥有成本 (TCO)。
Supermicro 的 DLC-2 专为快速部署和高密度环境而设计。它支持温水冷却,入口温度高达 45°C,从而减少了对冷却器的需求并降低了运营成本。该解决方案与 Supermicro 的 SuperCloud Composer® 软件完全集成,该软件可跨计算、存储和网络资源提供集中管理、分析和编排。
DLC-2 运营优势
- 节省高达40%的电力: 与传统风冷系统相比,数据中心整体功耗可降低高达 40%。冷板技术通过直接从关键组件(例如 CPU、GPU、内存、PCIe 交换机和稳压器)高效传热来实现这一目标。通过最大限度地减少对高速风扇和空气冷却基础设施的依赖,数据中心可以显著降低能源成本和碳足迹。
- 加快部署速度并减少上线时间: 专为快速部署而设计。该解决方案提供完全集成的端到端液体冷却堆栈,包括冷板、冷却液分配单元 (CDU) 和垂直冷却液分配歧管 (CDM)。
- 利用温水冷却减少水消耗: DLC-2 架构支持温水冷却,入口温度高达 45°C。此功能减少了对成本高昂且资源密集型传统冷却系统的需求。
- 安静的数据中心运行: DLC-2 解决方案具有全面的冷板覆盖和较低的风扇要求,可使数据中心噪音水平降至约 50dB。
- 降低总拥有成本: 除了节能节水之外,Supermicro 估计 DLC-2 解决方案可将总拥有成本 (TCO) 降低高达 20%。冷却基础设施的减少、电力和水资源的降低以及服务器密度的提高,都有助于提高数据中心运营的成本效益。
DLC-2 技术创新
- 全面的冷板覆盖: DLC-2 解决方案采用覆盖 CPU、GPU、内存模块、PCIe 交换机和电压调节器的冷却板。这种方法可确保几乎所有发热组件都得到有效冷却,从而减少了对补充风冷和后门热交换器的需求。
- 支持高密度AI系统: 新架构的一大亮点是针对 GPU 优化的 Supermicro 服务器,该服务器在紧凑的 6U 机架高度内可容纳 4 个 NVIDIA Blackwell GPU 和 XNUMX 个 Intel Xeon XNUMX CPU。该系统专为应对更高的供水冷却液温度、最大化每瓦性能以及支持最新的 AI 工作负载而设计。
- 高效冷却液分配: 机架内冷却液分配单元 (CDU) 可为每个机架去除高达 250kW 的热量。垂直冷却液分配歧管 (CDM) 可高效地在整个机架内循环冷却液,从而匹配安装的服务器数量,并实现更高的单位占地面积计算密度。液冷热捕获率高达每个服务器机架 98%,进一步提升了效率。
- 综合管理和编排: 整个 DLC-2 解决方案堆栈与 Supermicro 的 SuperCloud Composer® 软件完全集成,提供数据中心级管理和基础设施编排。
Supermicro 的 DLC-2 解决方案还采用了混合冷却塔,结合了标准干式冷却塔和水式冷却塔的特点。这种设计在季节性温差较大的地区尤其有利,因为它可以帮助数据中心优化资源利用率,并进一步降低全年的运营成本。
服务和软件集成
DCBBS 提供全面的服务支持,从初步咨询和数据中心设计到解决方案验证、现场部署和持续支持。Supermicro 为关键任务环境提供 4 小时现场响应选项,确保高可用性和快速解决问题。
在软件方面,Supermicro 的专业知识扩展到 AI 训练、推理、集群管理和工作负载编排的应用程序集成。该公司支持 NVIDIA AI Enterprise 软件平台的部署,并提供根据客户堆栈量身定制的软件配置和验证服务。
人工智能训练、推理及其他
DCBBS 的主要用例是部署大规模 AI 训练集群,其中需要数千个 GPU 来开发基础模型。该解决方案同样适用于 AI 推理工作负载,这类工作负载对高计算能力的需求日益增长,以便在多个模型和应用程序之间提供实时智能。
除了人工智能之外,DCBBS 还适用于任何需要高密度、高性能计算的数据中心环境,例如科学研究、财务建模和高级分析。该解决方案的模块化和可定制特性使企业能够根据工作负载的变化调整其基础架构。
人工智能和高性能计算的快速发展推动了液冷数据中心的转型。近年来,只有不到 1% 的数据中心采用液冷技术,但行业预测表明,这一数字在未来一年内可能达到 30%。Supermicro 的 DCBBS 和 DLC-2 产品在转型过程中占据有利地位,为高效、可扩展且可持续的数据中心运营提供了一条实用且与供应商集成的途径。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅