存储评论网

HPE ProLiant DL380a Gen12 评测:面向高密度多 GPU AI 的风冷 4U 服务器

企业版  ◇  服务器

HPE ProLiant Compute DL380a Gen12 服务器面向主流企业级 AI 团队,旨在满足他们无需改变机架配置即可实现高密度计算的需求。这款 4U 风冷机箱可轻松安装,支持多达八个双宽 GPU,并提供全 PCIe Gen5 插槽。它可配置双路 Intel Xeon 6 CPU(每路最高 144 核)、32 个 DIMM 插槽,支持 4TB DDR5 内存,以及 16 个 E3.S NVMe 硬盘位,以实现高吞吐量和高容量。其目标非常明确:在不采用液冷散热的情况下,实现大规模的生产级推理和精细化调优。

HPE ProLiant 380a Gen12

在加速器方面,HPE 验证了涵盖 NVIDIA H200 NVL、H100 NVL、L40S、L20、L4 和 RTX PRO 6000 Blackwell 服务器版的广泛产品线,并提供支持更高功耗组件的电源选项。本次评测我们将重点关注 RTX PRO 6000 服务器版,它完美契合企业级 AI 的实际需求。每张显卡配备 96GB ECC GDDR7 显存、PCIe Gen5 x16 插槽、支持 FP4 运算的 Tensor 核心,以及 600W 的功耗,可在风冷机架中运行。我们的测试平台配备了四张显卡,这对于高吞吐量推理和针对性微调来说是一个合理的起点,并且还留有扩展空间。

HPE ProLiant 380a Gen12 - NVIDIA RTX PRO 6000 服务器 GPU

HPE 为该平台配备了至关重要的运维组件。iLO 7 可处理带外设置、健康状况和电源控制,其核心是硅信任根(Silicon Root of Trust),这是一个用于确保固件完整性的安全隔离区,支持 4096 位 RSA 加密,并配备可拆卸的 DC-MHS iLO 模块,从而加强供应链验证。此外,该服务器还可与 HPE 私有云 AI 框架集成,实现多团队治理和大规模可重复部署。

HPE ProLiant Compute DL380a Gen12 – 技术规格

分类 规格
处理器类型 HPE ProLiant Compute DL380a Gen12
处理器系列 第四代英特尔® 至强® 可扩展处理器
可用处理器核心数 根据处理器不同,核心数在 64 到 144 之间。
处理器数量 2
处理器速度 高达 2.4 GHz,具体取决于处理器
最大内存 4 TB RDIMM(每个处理器 2 TB)
内存插槽 32个DIMM插槽
记忆类型 HPE DDR5 智能内存
内存保护 RAS:高级 ECC、在线备用、镜像、组合通道(锁定步进)功能、HPE 快速容错内存 (ADDDC)
驱动器支持 SFF NVMe 和 EDSFF
安全性 可选配锁定面板、入侵检测功能和嵌入式 HPE TPM 2.0
基础设施管理 HPE iLO 标准版(带智能配置功能,嵌入式)、HPE OneView 标准版(需要下载)•
可选:HPE iLO Advanced 和 HPE OneView Advanced(需要许可证)
电源供应 最多支持 8 个 M-CRPS。系统主板采用单路 1+1 冗余设计。GPU 采用双路 2+1 冗余设计。
扩展插槽 6
系统风扇 包含 4 个双转子风扇和 8 个单转子热插拔风扇
外形尺寸 4U机架
保修政策 3/3/3:服务器保修

HPE ProLiant DL380a Gen12 设计与构建

HPE ProLiant Compute DL380a Gen12 是一款 4U 双路机架式服务器,专为高性能、可扩展部署而设计。其尺寸为 6.88 x 17.63 x 31.60 英寸,结合了强大的 CPU 和 GPU 计算能力以及高效的风冷散热,即使在高负载下也能可靠运行。

根据配置不同,机箱重量在 82.7 磅到 137.8 磅之间,支持高容量组件、冗余电源,并可轻松从正面进行维护。其设计注重性能、可扩展性和强大的散热管理,使其非常适合企业和数据中心环境。
存储方面,HPE ProLiant DL380a Gen12 服务器提供 4 盘位和 8 盘位两种配置,并可选 SFF 或 EDSFF 规格。我们评测的这台服务器配备了 HPE DL380a Gen12 NS204i-u 前置硬盘笼套件,支持两个 NVMe M.2 热插拔启动设备。机箱还包含八个 2.5 英寸硬盘位,并安装了两个 HPE 品牌的 U.3 SSD,总容量为 15.36 TB。HPE 提供多种前置硬盘位选项,可灵活扩展以满足不同的部署需求。


该设备两侧各有两个把手,便于搬运,因此至少需要两人才能安全地进行机架安装。它采用 2U 导轨套件,配备伸缩式导轨,无需完全拆卸机架即可实现顺畅的安装和机架内维护。
HPE ProLiant DL380a Gen12 服务器的背面布局合理,重点在于优化气流、扩展性和易维护性。该系统最多支持八个 MCRPS 电源(1-8 号插槽),并集成通风墙,确保在高负载下也能保持最佳散热效果。扩展性方面,该系统拥有丰富的插槽,配备多个 PCIe Gen5 x16 插槽(1-6 号插槽),可兼容默认和可选的专用扩展卡,以及用于灵活配置网络适配器的 OCP 插槽 A 和 B。

连接方面,包括一个专用的 iLO 网络端口、多个 USB 3.2 Gen 1 端口和一个用于本地管理的 VGA 端口。需要注意的是,插槽 1 仅在安装了 HPE DL380a Gen12 4EDSFF NVD 直连线缆 (P74716-B21) 后可用,且不能与 SFF NVMe 硬盘一起使用;而插槽 4 在配备 4 个或 8 个 DW GPU 的配置中不受支持。

HPE ProLiant 380a Gen12 后部
HPE ProLiant DL380a Gen12 服务器采用模块化 M-CRPS 钛金热插拔电源套件供电,支持的型号包括 1500W (P67244-B21)、2400W (P67252-B21) 和 3200W (P67248-B21)。该系统最多支持八个电源,实现 N+1 冗余,即使某个电源模块发生故障也能确保系统持续运行。根据 GPU 配置的不同,电源需求和分配也会有所不同。我们评测的这台服务器配备了五个 2400W 的 M-CRPS 电源,足以支持系统四个 600W TDP 的 GPU,同时保持可靠的冗余性。
从顶部俯视 HPE ProLiant DL380a Gen12 服务器内部,可以明显看出 HPE 在设计这款机箱时采用了 GPU 优先散热策略,将 GPU 置于系统前端,以确保其获得直接、畅通无阻的气流。散热系统配备了四个热插拔风扇组件,每个组件包含一个 92x56mm 双转子风扇和两个 40x28mm 单转子风扇。较小的风扇将气流集中吹向 CPU 和内存模块,从而确保较低层组件的高效散热。相比之下,较大的双转子风扇则专门用于将大风量直接吹向 GPU 阵列。这种均衡的设计确保了计算组件和加速器组件的最佳散热效果,即使在持续的高负载下也能保持稳定运行。


经检查GPU配置,我们的设备预装了四个PCIe 5.0 GPU接口,每个GPU都整齐地安装在前置GPU笼内。该系统配置了NVIDIA RTX PRO 6000 GPU(Blackwell服务器版,96GB),这是NVIDIA全新专业级产品线的一部分,专为AI、渲染和计算工作负载而优化。根据配置的不同,DL380a Gen12可以支持4个或8个双宽GPU,或者最多16个单宽加速器,为各种企业和AI部署提供了灵活性。

该平台支持的GPU包括:

  • NVIDIA RTX PRO 6000 服务器版 (96GB)
  • NVIDIA H200 NVL(141GB)
  • NVIDIA H100 NVL(94GB)
  • NVIDIA L40S (48GB)
  • NVIDIA L20(48GB)
  • NVIDIA L4(24GB)

这种灵活的GPU布局,搭配高带宽的PCIe Gen5通道,确保DL380a Gen12能够轻松应对密集型推理任务和大规模AI训练环境。深入机箱内部,安装散热罩后,我们可以看到HPE在气流管理方面精心设计的方案。散热罩采用精密模压的挡板设计,能够高效地引导气流流经CPU、内存模块和VRM,确保整个系统均匀散热。

从CPU散热器来看,HPE在设计DL380a Gen12时充分考虑了散热平衡。每颗Xeon 6处理器都配备了高密度、高散热片,旨在应对CPU自身的热量输出以及位于机箱前部的GPU产生的额外热量。这种设计确保即使在高负载混合工作负载下也能保持稳定的散热性能,避免GPU排气导致CPU周围环境温度升高。当安装高功耗GPU时,更高的散热片结合HPE的前后气流设计,能够提供足够的散热面积和效率,有效应对额外的热负荷。

国际劳工组织第七届大会概述

如前所述,该系统包含一个专用的 iLO 端口,可提供带外管理功能,实现对服务器的全面控制和监控。此设备配备全新的 HPE iLO 7 界面,为管理员提供焕然一新的界面和增强的功能,并与 HPE Compute Ops Management 集成,从而简化配置、监控和生命周期管理。以下是我们示例系统中全新的 HPE iLO 7 登录界面。

首先来看控制面板,我们可以看到 HPE iLO 7 采用了现代化的界面,能够直观地显示系统状态和关键运行状况指标。主面板概述了主机电源状态、运行状况以及与 HPE Compute Ops Management 的连接状态。右侧则显示了 iLO IP 地址、主机名和许可证类型等常规系统信息,方便用户快速查阅。

仪表盘将风扇冗余、电源健康状况和温度读数等关键指标整合到一个清晰的颜色编码布局中,使用户能够一目了然地评估服务器状况。此外,用户还可以直接从主页访问虚拟媒体和远程控制台,无需额外导航即可简化常见的远程管理任务。

在“固件”选项卡中,HPE iLO 7 以清晰有序的方式展示了所有组件和更新管理任务。界面采用卡片式布局,方便用户浏览固件清单、活动安装队列和验证结果。管理员可以快速启动更新、将软件包上传到 iLO 存储库,或创建安装集以进行批量部署。

固件验证和存储库管理功能已直接集成到此视图中,使用户能够确认固件完整性并保持组件间的版本一致性。右侧的“快速操作”菜单简化了诸如更新固件或上传新文件等基本任务。“固件设置”卡提供了对降级策略和第三方软件包接受情况的控制。

在主机部分,HPE iLO 7 提供对关键服务器管理功能的快速访问,包括电源控制、虚拟介质、硬件健康状况和系统性能。管理员可以查看实时硬件冗余状态、访问集成管理日志,或直接从此界面启动远程控制台。该布局还包含诸如优雅关机、电源循环和重置等快捷操作,从而无需物理访问即可对系统进行完全远程控制。

右侧面板显示主机设置,包括 TPM 状态、平台策略配置和硬件模块信息。总而言之,本部分重点介绍了 iLO 7 作为集中式控制中心的功能,使管理员能够在单一视图中安全地管理电源、监控事件并保持运行监督。
在“主机”>“硬件”视图中,我们可以看到系统中安装的GPU。如前所述,该设备配备了四块NVIDIA RTX PRO 6000 Blackwell GPU,每块GPU均显示已启用且运行正常。iLO 7提供详细的硬件信息,包括型号、部件号和序列号,使管理员能够一目了然地验证组件的运行状况。


在“安全”选项卡中,HPE iLO 7 整合了所有与系统保护和访问管理相关的关键控制项。概览面板提供了整体安全状态的高级视图,突出显示风险级别、配置锁定和证书状态。管理员可以在此管理加密设置、身份验证方法和 TLS 证书,以及配置安全擦除和远程密钥管理。

该界面清晰地标示出需要关注的区域,例如自签名证书或未配置的密钥管理,同时在适用情况下确认安全运行。安全日志、用户管理策略和访问控制均可轻松访问,使管理员能够直接从 iLO 环境全面了解系统的安全状况。

在 HPE Apps 选项卡下,iLO 7 提供对集成工具的访问,这些工具可增强服务器部署和生命周期管理。管理员可以从此视图启动智能配置 (Intelligent Provisioning),这是一个内置实用程序,旨在简化操作系统安装、固件更新和系统配置,而无需外部介质。

iLO 设置选项卡集中了用于管理 iLO 界面的所有配置和管理选项。管理员可以在此控制用户访问权限、网络端口配置、身份验证方法和日志记录行为。该菜单还包含故障排除、策略实施、许可证管理和时间同步等选项。

备份或恢复 iLO 配置以及执行重置等快捷操作均可便捷地在右侧找到,从而简化维护任务。该布局与 iLO 7 现代化的卡片式界面相呼应,提供了一种简洁有序的方式,可从单一集中位置管理安全性、连接性和运行参数。

性能测试

为了评估 DL380a Gen12 的实际性能,我们进行了一系列全面的性能测试,涵盖了人工智能推理和通用计算工作负载。这些测试包括针对大型语言模型 (LLM) 的 vLLM 在线服务基准测试,以及用于测量 CPU 吞吐量、内存带宽、Web 服务效率和加密性能的 Phoronix 测试套件基准测试。

系统配置

  • CPU: 2 个 Intel Xeon 6527P CPU
  • 记忆: 16 x HPE 64GB 2Rx4 PC5-3400B-R 智能套件
  • GPU: 4 x NVIDIA RTX PRO 6000 (96GB)
  • 存储: 2 x 15.63TB PM1733a U.3

vLLM 在线服务 – LLM 推理性能

vLLM 是目前最流行的 LLM 高吞吐量推理和服务引擎。vLLM 在线服务基准测试是一个性能评估工具,用于衡量该推理引擎在并发请求下的实际服务能力。它通过向运行中的 vLLM 服务器发送请求来模拟生产环境的工作负载,并可配置请求速率、输入/输出长度和并发客户端数量等参数。该基准测试测量关键指标,包括吞吐量(tok/s)、首令牌到达时间和每个输出令牌的处理时间,帮助用户了解 vLLM 在不同负载条件下的性能。

我们测试了涵盖不同规模和量化方法的三个代表性模型的推理性能,评估了 HPE ProLiant DL380a Gen12 的四个 NVIDIA RTX PRO 6000 GPU 如何处理生产推理工作负载。

密集模型性能

密集模型代表了传统的LLM架构,其中所有参数和激活函数都在推理过程中被激活。我们评估了两种密集模型配置:Llama-2-70b-chat-hf和Llama-3.2-90B-Vision-Instruct。

Llama-2-70B-聊天性能

在单用户并发(BS=1)且TP=4的情况下,该模型每个用户可实现32.89 tok/s的吞吐量,TPOT为30.18毫秒。当BS=8时,每个用户的性能达到15.68 tok/s,总吞吐量为433.62 tok/s,TPOT为35.98毫秒。扩展到BS=32时,总吞吐量达到741.62 tok/s,同时保持每个用户8.00 tok/s的吞吐量,TPOT为43.44毫秒。

Llama-3.2-90B-Vision-Instruct Performance

当 BS=1 且 TP=4 时,该模型可为每位用户提供 20.59 tok/s 的吞吐量,TPOT 为 38.27 ms。当 BS=16 时,性能提升至每位用户 7.20 tok/s,总吞吐量为 806.14 tok/s,TPOT 为 54.98 ms。当 BS=128 时,总吞吐量达到最大值 1372.21 tok/s,每位用户可提供 2.59 tok/s 的吞吐量,TPOT 为 122.75 ms。

微扩展数据类型性能

微尺度量化是一种先进的量化方法,它对小块权重应用精细的缩放因子,而不是对大参数组进行均匀量化。NVIDIA 的 NVFP4 格式通过分块浮点表示来实现这项技术,其中每个包含 8 到 32 个值的微尺度块共享一个公共指数作为缩放因子。这种精细化的方法在保持数值精度的同时实现了 4 位表示,从而维持了 Transformer 架构所需的动态范围。该格式与 NVIDIA RTX PRO 6000 上的 Tensor Core 架构集成,可在矩阵运算期间实现高效的混合精度计算和即时解压缩。

GPT-OSS-120B 性能

我们使用 NVFP4 量化对 OpenAI 的 GPT-OSS-120B 模型进行了评估。在单用户并发且 TP=2 的情况下,该模型实现了每个用户 176.09 tok/s 的吞吐量,TPOT 为 5.46 ms,这是我们测试套件中延迟最低的。在 BS=4 且 TP=4 的情况下,性能达到每个用户 105.79 tok/s 的吞吐量,总吞吐量为 1155.94 tok/s,TPOT 为 7.79 ms。在 BS=32 且 TP=4 的情况下,吞吐量扩展至每个用户 47.54 tok/s 和总吞吐量 3956.44 tok/s,TPOT 为 13.86 ms。在 BS=64 时,实现了 4015.77 tok/s 的最大总吞吐量,每个用户 25.38 tok/s,TPOT 为 14.78 ms。

Phoronix 基准测试

Phoronix 测试套件是一个开源的自动化基准测试平台,通过 OpenBenchmarking.org 支持超过 450 种测试配置文件和 100 多个测试套件。它能够处理从安装依赖项到运行测试和收集结果的所有步骤,使其成为性能比较、硬件验证和持续集成的理想选择。我们将重点关注以下测试:Stream 测试、7-Zip 测试、Linux 内核构建测试、Apache 测试和 OpenSSL 测试。

流内存带宽

在衡量原始内存吞吐量的 Stream 基准测试中,HPE DL380a Gen12 取得了令人瞩目的 542 GB/s 的成绩,展现了该平台在持续负载下维持高数据传输速率的能力。如此高的带宽使得该系统在数据建模、仿真和 AI 推理等工作负载中尤为高效,这些工作负载需要将大型数据集在内存和计算资源之间快速传输。

7-Zip 压缩
7-Zip 压缩测试测得 305 k MIPs 的成绩,凸显了该系统在计算密集型压缩和解压缩操作方面强大的多线程效率。这些结果使得 DL380a Gen12 非常适合需要频繁进行数据打包、归档任务或备份工作流程且依赖于稳定可靠 CPU 性能的环境。
内核编译

在编译完整的 Linux 内核(allmodconfig)时,DL380a Gen12 仅用时 316 秒。该基准测试结果反映了系统轻松处理并行化、代码密集型工作负载的能力。更快的编译性能可直接转化为更短的构建时间和更快的迭代速度,这对于在大规模软件或 CI/CD 环境中工作的开发人员来说至关重要。

Apache的Web服务器

在Web服务性能方面,DL380a Gen12在Apache基准测试中持续实现了每秒94,348个请求的处理能力。这一结果展现了其均衡的I/O处理能力和强大的缓存效率,能够满足企业级Web应用、虚拟化前端或内部服务托管所需的吞吐量和响应速度。

OpenSSL 验证

加密性能同样出色,DL380a Gen12 在 OpenSSL 测试中每秒可验证 803 亿次运算。这充分展现了该系统大规模管理加密、身份验证和安全通信工作负载的能力。

Phoronix 基准测试 HPE ProLiant DL380a Gen 12(2x Intel Xeon 6527P)
资讯  542,720.7 MB /秒
7个邮递区号 304,907 MIP/秒
内核编译(allmod) 316.166秒
Apache(每秒请求数) 94,347.52 卢比/秒
OpenSSL的 每秒 803,597,895,087 次验证

结语

HPE ProLiant DL380a Gen12 服务器是专为主流企业级 AI 市场打造的实用且性能均衡的 AI 服务器之一。其 4U 风冷设计提供强大的计算密度,配备双路 Xeon 6 CPU,支持多达 8 个双宽或 16 个单宽 GPU,以及 16 个 E3.S NVMe 硬盘位,同时保持了可靠性和便捷的维护性。HPE 在气流和散热平衡方面的工程设计确保了服务器在高负载下也能保持稳定的性能,证明了即使在传统的风冷环境下,先进的 AI 加速也能蓬勃发展。

iLO 7 的加入显著提升了管理性能,这对 HPE 等一级服务器供应商而言是一项巨大的优势。现代化的界面、与 HPE Compute Ops Management 的集成以及详尽的硬件遥测数据,使得远程管理更加直观高效。仪表盘、固件、主机、安全、应用和设置等各个部分,都体现了 HPE 向更简洁、更云集成的体验转型,同时又不牺牲企业团队赖以生存的本地控制能力。

在性能测试中,该服务器表现出色。四块 RTX PRO 6000 GPU 在密集型和微尺度 LLM 模型上均实现了令人印象深刻的吞吐量,其 vLLM 服务性能甚至可以媲美液冷系统。Phoronix 的 CPU 基准测试进一步凸显了其均衡的性能:内存带宽超过 540 GB/s,Apache 请求速率达到 94k RPS,OpenSSL 验证速度超过每秒 800 亿次,展现了其在 AI 和通用计算方面的强大实力。

HPE 的设计目标很明确:利用风冷技术,在现有机架和电源基础设施内实现高密度、生产就绪的 AI 性能。对于寻求可靠、安全且易于管理的风冷计算解决方案的数据中心团队而言,DL380a Gen12 是一款功能强大、面向未来的解决方案,能够满足日益增长的主流 AI 市场的需求。

慧与产品页面

参与 StorageReview

订阅消息 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅

凯文·奥布莱恩

在 StorageReview 实验室内部评估产品并与行业领导者合作开发新的测试环境。 在家里,我养家糊口。