Dell PowerEdge XE9680 是企业计算创新的体现,为客户提供极致的 GPU 灵活性。
PowerEdge XE9680 是戴尔迄今为止功能最丰富的 AI 基础架构平台。它将 PowerEdge R760 式 2U 计算节点与大型 4U GPU 抽屉相结合。这种创新的 6U 设计将戴尔最好的企业服务器工程与前所未有的 GPU 密度和灵活性相结合。
核心方面,XE9680 支持双 Intel Xeon 可扩展处理器,可选择每 CPU 最多 5 个内核的第五代处理器或最多 64 个内核的第四代处理器。内存容量非常大,支持 4 个 DIMM 插槽中最多 56TB 的 DDR4 内存,使用最新处理器时运行速度最高可达 5 MT/s。
XE9680 真正与众不同之处在于其 GPU 功能。该平台支持 200 个高性能 GPU。可用配置包括 NVIDIA 的 HGX H141 (100GB) 和 H80 (300GB)、AMD 的 Instinct MI192X (3GB) 和英特尔的 Gaudi128 (XNUMXGB)。新推出的 XE9680L 版本支持 NVIDIA 的下一代 B200 GPU 和直接液冷,突破了密度和性能的极限。
存储配置同样灵活,提供 8 个 2.5 英寸 NVMe/SAS/SATA 驱动器或 16 个 E3.S NVMe 驱动器。该系统可以配备戴尔的 H965i NVMe PERC RAID 卡,简化了推理工作负载期间大型 KV 缓存的存储冗余。
电力输送经过精心设计,可实现最大可靠性。共计 19200W 的六个电源采用 3+3 容错冗余 (FTR) 布置。当两个或更多 PSU 发生故障时,系统将进入容错冗余模式,而不是关闭。在此模式下,GPU 电源制动器将激活,将 GPU 时钟频率限制为四分之一,从而导致 GPU 性能仅为典型性能的五分之一左右。
这种深思熟虑的设计选择在数百或数千个 GPU 协同工作的大规模训练环境中具有无价的价值。系统可以继续以较低的性能运行,直到下一个维护窗口,而不是让一个节点完全离线(这需要重新安排并在另一个节点上重复训练迭代)。这种对电源管理细节的关注有助于通过最大限度地减少中断来保持较高的模型训练吞吐量 (MFU)。
扩展功能非常丰富,最多可配备 10 个 PCIe Gen5 x16 全高半长插槽,其中两个支持超过 75W 的高功率卡。丰富的 PCIe 连接支持各种网络配置,包括 DPU 和 SmartNIC,这对于构建现代 AI 基础设施至关重要。
完整规格:
规格 | 信息 |
---|---|
处理器 | 最多两个第五代 Intel® Xeon® 可扩展处理器(每个 CPU 5 个内核) 最多两个第五代 Intel® Xeon® 可扩展处理器(每个 CPU 4 个内核) |
GPU 选项 | XE9680: – NVIDIA HGX H200(141GB)SXM5 700W – NVIDIA HGX H100(80GB)SXM5 700W – AMD Instinct MI300X(192GB)OAM 750W – 英特尔 Gaudi3 (128GB) OAM 900W |
内存 | 32个DIMM插槽 5600 MT/s(第五代) 4800 MT/s(第五代) |
前置驱动器托架: 8 个 2.5 英寸 NVMe/SAS/SATA(最大 122.88TB) 16x E3.S NVMe(最大 122.88TB) |
|
存储控制器 | 内部控制器: PERC H965i(不支持英特尔 Gaudi3)内部启动: 启动优化存储子系统 (NVMe BOSS-N1):HWRAID 1、2 x M.2 SSD |
PCIE插槽 | PCIe 插槽最多 10 个 PCIe Gen5 x16 插槽 (8 个插槽,配备英特尔 Gaudi3) |
网络 | 1x OCP 3.0(可选) 2 个 1GbE LOM |
电源 | 3200W 钛金版(277 VAC) 2800W 钛金版 (200-240 VAC) |
尺寸 | 高度:10.36“(263.20mm) 宽度:18.97“(482.00mm) 深度:39.71 英寸(1008.77 毫米),含边框 |
重量 | 最多 251.44 磅(114.05 公斤) |
外形 | 6U机架服务器 |
嵌入式/服务器端: iDRAC9 iDRAC 直接 带有 RedfishiDRAC 服务模块控制台的 iDRAC RESTful API: CloudIQ for PowerEdge 插件 开放管理企业 OpenManage 电源管理器插件 OpenManage 服务插件 OpenManage Update Manager 插件工具: 戴尔系统更新 戴尔存储库管理器 企业目录 带有 Redfish 的 iDRAC RESTful API 智能制造管理接口 RACADM CLIOpenManageIntegrations: BMC真视 OpenManage 与 ServiceNow 集成 |
|
安全性 | 密码签名的固件 静态数据加密(具有本地或外部密钥管理的 SED) 安全启动 安全组件验证(硬件完整性检查) 安全擦除 信任的硅根 系统锁定(需要 iDRAC9 Enterprise 或 Datacenter) |
散热器 | 风冷 |
Dell PowerEdge XE9680 构建和设计
PowerEdge XE9680 是一款外形庞大的硬件,高 10.36 英寸(263.20 毫米),宽 18.97 英寸(482.00 毫米),带边框的深 39.71 英寸(1008.77 毫米)。满载时,其重量为 251.44 磅(114.05 千克)。GPU 的选择将决定重量,NVIDIA H100/H200 型号的重量为 238 磅,而 AMD MI300X 单元的重量为 251 磅。
这是第一台需要仔细考虑才能正确装入我们测试环境的服务器。当您考虑服务器重量和安装硬件所需的人数时,有一些超出界限的余地,但到了一定程度,一两个人是无法独自抬起它的。戴尔很贴心地为您提供了一个“升降台”,以帮助您了解这个平台是如何安装的。对于所有想知道的人来说, Kevin 亲自将 XE9680 装入机架.
底盘重量 | 简介 |
---|---|
40 磅 – 70 磅 | 建议两人一起抬起。 |
70 磅 – 120 磅 | 建议三个人来抬起。 |
≥121磅 | 需要服务器升降机。 |
尽管 XE9680 非常复杂,而且戴尔建议由专业维修技术人员维修,但它的维修元素却非常人性化。服务器面板上包含详细的维修说明和清晰的图形,让经验丰富的 IT 人员也能轻松完成维护程序。这些视觉指南在我们实际操作系统的过程中非常有用,让我们能够自信地维修各种组件。
打开 PowerEdge XE9680 的盖子后,穿过顶部小型变电站的众多电源线,它看起来很像 PowerEdge R760。我们的设备由两个 Intel Xeon Platinum 8468 处理器供电,每个处理器都有 48 个 2.1Ghz 内核。每个处理器提供 80 个 PCIe 通道,这些通道流经该设备中的相当多 PCIe 交换机,以支持加载到 XE9680 中的 GPU、NIC 和其他硬件。
最令人印象深刻的工程特性之一是 PCIe 交换板 (PSB) 设计。这些板可连接多达 10 个额外的全高、半长 PCIe 卡(其中两个可超过 75W 功耗),并直接与 GPU 基板集成。这种直接集成支持 GPU-direct 技术,允许 SSD 和网卡直接与 GPU 通信,绕过 CPU 并减少 I/O 密集型 AI 工作负载的延迟。
每个扩展槽都支持完整的 PCIe Gen5 x16 接口,包括布局最左侧和最右侧的两个下部插槽。虽然上部八个插槽通过自己的 PSB 连接,但两个下部插槽直接连接到 PCIe 基板 (PBB)。这两个插槽还支持高功率抽卡。此外,值得注意的是,PCIe 布局根据为 PowerEdge XE9680 选择的 GPU 类型略有不同。配备 AMD 的型号不支持 SmartNIC/DPU,而 Intel Gaudi3 型号有两个插槽因气流问题而被阻塞。
冷却是戴尔工程专业知识大放异彩的另一个领域。该系统采用多达 16 个高性能金级风扇 - 中部托盘中有 9680 个,后部有 10 个。PowerEdge XE35 支持各种安装方案,环境温度范围为 30 至 3C(使用英特尔 Gaudi1,200 GPU 时为 XNUMXC)。全速时,服务器将惊人的 XNUMXCFM 移入热通道。
这种强大的冷却解决方案甚至可以处理最苛刻的热负荷,包括 AMD MI300X、Intel Gaudi3 或 NVIDIA H100 GPU,同时保持最佳工作温度。PowerEdge XE9680 在负载下噪音输出相当大。戴尔提供了 XE9680 在不同情况下的完整声学规格表,但很容易说它在负载下会是一个响亮的平台。
XE9680 的管理功能基于戴尔久经企业验证的 iDRAC9,可提供全面的服务器生命周期管理和监控。此版本的 iDRAC 带来了多项针对 AI 优化的功能,包括详细的 GPU 遥测、功耗分析和专为高密度 AI 工作负载设计的广泛热监控。
该平台的管理堆栈对于 AI 基础设施部署尤其值得注意。通过支持 Redfish 的 iDRAC9 RESTful API,组织可以以编程方式监控和管理 GPU 利用率、内存带宽和热条件 - 这些都是保持最佳 AI 训练和推理性能的关键指标。该系统与 OpenManage Enterprise 的集成使可以通过统一控制台对多个 XE9680 进行全机群管理,这对于大型 AI 集群至关重要。
安全性和合规性是管理架构的基础要素。该平台实现了硅信任根和安全组件验证,确保从启动到运行的硬件完整性。这些功能在运行敏感的 AI 工作负载或处理专有模型权重时尤其有价值。
由 CloudIQ 集成支持的预测故障分析功能使用机器学习来预测潜在的硬件问题,以免它们影响工作负载。这种主动方法对于长期运行的 AI 训练作业尤其重要,因为意外停机可能会导致数天的计算损失。与戴尔的 ProSupport Plus 服务结合使用时,此预测功能可触发自动案例创建和零件调度,通常在系统性能下降之前进行预防性维护。
对于需要与现有管理工具集成的组织,XE9680 通过 OpenManage 集成支持各种管理框架,包括 ServiceNow 和 BMC TrueSight,从而允许无缝融入现有的 IT 服务管理工作流程。
iDRAC9 界面通过直观的仪表板提供关键组件的详细实时监控。GPU 监控显示全面的指标,包括所有八个加速器的温度、功耗和利用率,这对于优化 AI 工作负载分配至关重要。
存储监控界面可以即时查看 NVMe 阵列中的驱动器健康状况、温度和性能指标,这在管理高吞吐量推理缓存和训练数据集时尤其有价值。
内存、存储和扩展
Dell PowerEdge XE300 内的八个 AMD MI9680X GPU 代表着 GPU 内存容量的显著飞跃,每张卡提供 192GB HBM3 内存,而 NVIDIA H200 的内存为 141GB。内存容量增加 36% 不仅仅是规格表上的数字——对于大型语言模型部署来说,它至关重要。
这个庞大的内存池,加上 MI300X 的 5.3 TB/s 内存带宽,使组织能够运行较小模型的多个实例或在 GPU 之间划分较大模型,同时保持高吞吐量和低延迟。
从这个角度来看,Meta 的 Llama 3.1 405B 模型在 BF1 中需要超过 16TB 的 VRAM,可以轻松地分布在单个 XE9680 上,配备 MI300X GPU,无需量化和完整的 128k 上下文长度。这消除了与量化技术相关的潜在质量损失,并且与将模型分布在两台服务器上相比,允许更多的令牌/秒。
为了最大限度地利用存储空间,我们使用了 Solidigm 61.44TB 驱动器可作为内存的复杂扩展,弥补高速 GPU 内存与传统存储之间的差距。SSD 擅长在推理期间存储键值缓存对,可有效扩展 GPU 的内存容量以进行长上下文生成。其巨大的容量和 NVMe 性能使其成为快速模型权重访问的理想选择,可实现高效的模型切换和热启动。
在我们在下面详述的 Metrum AI 部署等应用中,SSD 兼作矢量数据库的存储后端,提供实时相似性搜索所需的性能,同时保持广泛嵌入存储的容量。
这些大容量硬盘的价值不仅限于推理,还可用于训练工作流程。它们为排队训练批次提供了理想的本地存储,通过将数据保持在更靠近计算资源的位置来减少网络开销。在训练期间,这些硬盘擅长在本地存储模型检查点,这对于保持训练进度和实现快速恢复至关重要。这种本地存储策略还有助于通过减少每个处理层和批次后的即时网络流量来优化网络利用率。
虽然 XE61.44 的八个托架可提供 9680TB 的容量,这听起来很有希望,但未来容量还会更大。 Solidigm 新发布的 122.88TB 硬盘,XE 中的存储密度可以翻倍至接近 PB,以进一步实现训练优化和更长寿命的推理缓存。
Metrum AI 医疗助手 – 彻底改变患者护理
医疗保健行业始终面临着管理耗时的患者文档和记录管理的挑战,这通常会影响对患者的直接护理。Metrum AI 的医疗助理部署在配备 AMD 加速器的 Dell PowerEdge XE9680 服务器上,展示了先进的 AI 基础设施如何改变医疗保健工作流程、提高效率并改善患者治疗效果。
该系统使用 Llama 3.1 70B Instruct 作为其主要语言模型,该模型以理解医学背景而闻名。这使得它能够轻松处理复杂的患者数据。该语言模型与 gte-v1.5 嵌入模型和 Milvus Vector DB 配对,为处理医学数据所必需的自然语言处理和上下文理解提供了坚实的基础。
Metrum AI 的 Healthcare Assistant 还包括一种多模式方法,结合了 HistoGPT(用于组织病理学图像分析)和 OpenAI 的 Whisper(用于实时转录医生笔记)。这些模型共同简化了临床工作流程,使医生可以自然地说话,同时系统实时转录、分类并将信息集成到患者记录中。
Metrum AI 认识到,即使单个患者数据可能相对较小,但高流量医院的综合存储需求可能会增加到数百 TB。Dell PowerEdge XE9680 可以通过其本地板载 NVMe 存储解决此问题。我们的配置提供八个 2.5 英寸 U.2 NVMe 存储托架,以 PCIe Gen4 速度运行。虽然我们测试了 XE9680,但 61.44TB Soldigim D5-P5336 QLC SSD,这种容量可以进一步扩展。Soldigim 最近推出了他们的新 D5-P5336 122.88TB QLC 型号,使其原本就巨大的 SSD 容量翻倍,同时保持相同的性能。
Metrum 提供了在不同情况下患者数据随时间变化的估计值。当您将其计算为总存储容量时,您可以看到使用最高容量 SSD,一个单位可以支持多少额外的患者。根据每个患者的估计数据占用空间,并对照每个 SSD 的可用容量(57TB SSD 为 61TB,114TB SSD 为 122TB),我们可以看到,拥有密集的 SSD 可以大大增加您每年可以在服务器上以有意义的方式存储的内容。
每位患者年度总费用估计 | 笔记 | 预计存储量 | 每 61TB SSD 患者数 | 每 122TB SSD 患者数 |
---|---|---|---|---|
增强存储需求(DICOM 图像/变体、增强、处理后的副本、音频转录、详细记录) | 包括多份图像副本、音频转录和记录 | 〜8.4 GB | 6,786 | 13,571 |
高存储场景(处理量大,访问频繁) | 访问频繁,图像处理要求高 | 〜10.5 GB | 5,428 | 10,857 |
虽然最初的 1 年估计似乎相当高,但必须注意的是,患者数据并不是静态的。您将获得新的数据并安排新的就诊,从而增加对存储的需求。这就是存储在医学成像领域发挥重要作用的地方。额外的存储容量直接影响解决方案可以有效支持多少患者。
每位患者 10 年总存储量估计 | 笔记 | 预计存储量 | 每 61TB SSD 患者数 | 每 122TB SSD 患者数 |
---|---|---|---|---|
增强场景(多份副本、详细记录、音频、增强) | 扩展记录、频繁成像和处理 | 〜84 GB | 679 | 1,357 |
高场景(重型处理,综合历史) | 10 年内最大加工和存储需求 | 〜105 GB | 543 | 1,086 |
Dell PowerEdge XE9680 配备 AMD MI300X 加速器并与 Metrum AI 的 Healthcare Assistant 集成,为医疗保健提供商提供了可扩展且高效的解决方案。通过自动执行耗时任务并快速获取关键见解,此设置使临床医生能够更加专注于患者护理,同时管理不断增长的需求。通过跨语言、图像和语音模式无缝集成 AI 组件,Healthcare Assistant 代表了 AI 驱动的医疗保健解决方案的重大进步,减轻了管理负担并改善了整体患者治疗效果。
结语
在不断发展的企业 AI 领域,Dell PowerEdge XE9680 树立了新标准,展示了专用硬件如何彻底改变各个行业。Metrum AI 医疗助理的实施展示了无数可能性之一——想象一下金融机构实时运行复杂的风险分析模型,或研究实验室处理大量数据集以进行药物研发,所有这些都由这个卓越的系统提供支持。
XE9680 提供多种 GPU 选项,从 NVIDIA 的 H100 到 AMD 的 MI300X 和英特尔的 Gaudi3。这种灵活性,加上其强大的内存容量、存储选项和创新的冷却解决方案,使其不仅仅是一台 AI 服务器,而是一个完整的企业计算平台,能够处理各种应用程序中最苛刻的工作负载,无论是在数据中心还是医疗办公室。
从存储角度来看,该服务器只有八个 NVMe 托架,但多亏了 Solidigm,我们可以使用他们的 61.44TB SSD 将近半 PB 的数据放入系统中,作为我们上面详述的医疗助理的工作空间。如果这还不够,Solidigm 刚刚宣布他们已将 D5-P5336 的容量翻倍至 122.88TB,这意味着像这样的系统可以在其加速器附近安装大约 XNUMX PB 的闪存,从而实现高效的 AI 工作负载。
从周到的电源管理功能到用户友好的可维护性,戴尔的工程设计在 XE9680 的各个方面都大放异彩。该平台即使在部分电源故障的情况下也能保持运行,这体现了戴尔对人工智能要求的深刻理解,其中系统可靠性和持续运行至关重要。
戴尔拥有全面的支持基础设施,并致力于通过各种举措推进 AI 能力,PowerEdge XE9680 是企业计算创新的证明。凭借其原始计算能力、架构灵活性和企业级可靠性的结合,它再次荣获 2024 年最佳产品奖。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅
本评论由 Kevin O'Brien 和 Divyansh Jain 共同撰写