联想ThinkSystem SR685a V3和SR680a V3 GPU服务器是该公司最新的8路GPU服务器,专为满足多样化的企业人工智能需求而量身定制。
联想ThinkSystem SR685a V3和SR680a V3 GPU服务器是该公司最新的8路GPU服务器,专为满足多样化的企业人工智能需求而量身定制。尽管具有不同的型号名称,但它们共享模块化基础,允许每个系统内的组件可互换。
从根本上讲,这些服务器具有三个或四个核心组件,具体取决于您的计算方式。首先,外壳构成了机箱外壳,后部嵌入了风扇。内部导轨可将 2U 模块化服务器固定在顶部。底部 6U 容纳 GPU、交换机和 PCIe 结构。 2U 服务器的 I/O 根据 AMD 或 Intel 产品而有所不同。联想目前支持 NVIDIA 和 AMD GPU 板,未来将支持 Intel Guadi 3。
Lenovo SR685a V3(AI 的小写)采用双第四代 AMD EPYC 处理器,专门针对高带宽 GPU 到 GPU 通信进行了优化,使其成为生成式 AI 应用的理想选择。相反,SR4a V680配备第五代英特尔至强可扩展处理器,支持多功能人工智能和计算应用程序,可容纳NVIDIA和AMD GPU以满足不同行业的需求。两种型号均采用创新的模块化方法,允许用户定制和扩展其系统,以精确地满足特定的操作需求。
这些服务器备受追捧(尽管目前很难买到),并在去年奥斯汀举行的联想会议上引起了巨大反响。这些 GPU 服务器及其提升人工智能功能的潜力令人兴奋不已。
可配置的模型和定制
Lenovo ThinkSystem SR685a V3 和 SR680a V3 系统提供各种按订单配置 (CTO) 模型,作为定制框架。定制配置模型的能力扩展到了 GPU 的详细选择,其中模型是根据所选的特定 GPU 定义的。例如,联想配置器中列出的基本功能代码允许在 AMD MI300X 和 NVIDIA H100/H200 之间进行选择,每种都满足不同的性能和计算需求。该平台设计为联想在新加速器上市时提供了更大的灵活性。
联想 ThinkSystem SR685a V3 规格
旅行箱配件 | 规格 |
外形尺寸 | 8U机架 |
处理器 | 两个 AMD EPYC 9004 系列处理器(以前的代号为“Genoa”)。支持多达 64 个核心的处理器,核心速度高达 3.1 GHz,TDP 额定值高达 400W。支持 PCIe 5.0 以实现高性能 I/O。 |
图形处理器 | 的选择:
|
内存 | 24 个 DIMM 插槽,带两个处理器(每个处理器 12 个 DIMM 插槽)。每个处理器有 12 个内存通道,每个通道 1 个 DIMM (DPC)。 Lenovo TruDDR5 RDIMM 支持高达 4800 MHz。 |
内存最大 | 高达 1.5TB,配备 24 个 64GB RDIMM 高达 2.25TB,配备 24 个 96GB RDIMM |
内存保护 | ECC、SDDC、巡检/请求清理、有界故障、带重放的 DRAM 地址命令奇偶校验、DRAM 未更正的 ECC 错误重试、片上 ECC、ECC 错误检查和清理 (ECS)、封装后修复 |
磁盘驱动器托架 | 多达 16 个 2.5 英寸热插拔驱动器托架,支持 PCIe 5.0 NVMe 驱动器。 |
操作系统启动驱动器 | 支持集成 RAID-2 的 M.1 适配器;支持 2 个 NVMe M.2 驱动器,用于操作系统启动和数据存储功能 |
最大内部存储空间 | 51.2 TB,使用 16 个 3.2 TB 2.5 英寸 NVMe SSD |
存储控制器 | 板载 NVMe(非 RAID) |
网络接口 | 它支持 8 个高性能网络适配器,连接速度高达 400 Gb/s,并支持 GPU Direct。它支持用于用户/控制平面的 NVIDIA BlueField-3 2 端口 200Gb 适配器以及用于管理的 OCP 网络适配器选择。 OCP 3.0 插槽具有 PCIe 5.0 x16 主机接口,其中一个端口可选择与 XClarity Controller 2 (XCC2) 管理处理器共享,以支持 LAN 唤醒和 NC-SI。 |
PCI 扩展槽 | 10 个 PCIe 5.0 x16 插槽:
|
端口 | 正面:1x USB 3.2 G1 (5 Gb/s) 端口、1x USB 2.0 端口(也用于 XCC 本地管理)、1x VGA 视频端口。 背面:3 个 USB 3.2 G1 (5 Gb/s) 端口、1 个 VGA 视频端口、1 个 RJ-45 1GbE 系统管理端口,用于 XCC 远程管理。 |
散热器 | 5 个前置双转子风扇,用于 CPU 和存储子系统,N+1 冗余。 GPU子系统10个后置双转子风扇,N+1冗余。每个电源中都集成了一个风扇。从前到后的气流。 |
电源 | 八个热插拔冗余交流电源,冗余程度高达 N+N。 80PLUS钛金认证。 2600 W 交流电源需要 220 V 交流电源。 |
视频 | XClarity 控制器中集成了具有 16 MB 内存的嵌入式视频图形和 2D 硬件加速器。两个视频端口(前置VGA和后置VGA)不能同时使用;使用前置 VGA 端口会禁用后置 VGA 端口。最高分辨率为 1920×1200 32bpp @ 60Hz。 |
热插拔部件 | 驱动器、电源和风扇。 |
系统管理 | 带有状态 LED 和抽拉式 LCD 显示屏的集成诊断面板。 XClarity Controller 2 (XCC2) 基于 ASPEED AST2600 基板管理控制器 (BMC) 的嵌入式管理。用于 XCC2 远程访问管理的专用后部以太网端口。用于集中式基础设施管理的 XClarity Administrator、XClarity Integrator 插件和 XClarity Energy Manager 集中式服务器电源管理。可选的 XCC Platinum 将启用远程控制功能和其他功能。 |
安全特性 | 开机密码、管理员密码、支持 TPM 2.0 的信任根模块和平台固件弹性 (PFR)。 |
支持的操作系统 | Ubuntu 服务器。 |
有限保修 | 三年或一年(取决于型号)客户可更换单元和现场有限保修,下一工作日 9×5 (NBD)。 |
服务与支持 | 可选服务升级可通过联想服务获得:4 小时或 2 小时响应时间、6 小时修复时间、1 年或 2 年保修延期、联想硬件的软件支持以及一些第三方应用程序。 |
尺寸 | 宽度:447 毫米(17.6 英寸),高度:351 毫米(13.8 英寸),深度:924 毫米(36.3 英寸)。 |
重量 | 最大:108.9 千克(240 磅) |
联想 ThinkSystem SR680a V3 规格
旅行箱配件 | 规格 |
外形尺寸 | 8U机架 |
处理器 | 两个第五代英特尔至强可扩展处理器(以前的代号为“Emerald Rapids”)。支持5核处理器,核心速度48GHz,TDP额定值2.3W。支持 PCIe 350 以实现高性能 I/O。 |
芯片组 | Intel C741“Emmitsburg”芯片组,代号“Eagle Stream”平台的一部分 |
图形处理器 | 的选择:
|
内存 | 32 个 DIMM 插槽,带两个处理器(每个处理器 16 个 DIMM 插槽)。每个处理器有 8 个内存通道,每个通道有 2 个 DIMM (DPC)。支持 Lenovo TruDDR5 RDIMM。 DIMM 在 5600 DPC 时运行频率高达 1 MHz,在 4400 DPC 时运行频率高达 2 MHz。 |
内存最大 | 高达 2TB,配备 32 个 64GB RDIMM |
内存保护 | ECC、SDDC(适用于基于 x4 的内存 DIMM)、ADDDC(适用于基于 x4 的内存 DIMM,不包括 9×4 RDIMM,需要白金或金牌处理器)和内存镜像。 |
磁盘驱动器托架 | 多达 16 个 2.5 英寸热插拔驱动器托架,支持 PCIe 5.0 NVMe 驱动器。 |
操作系统启动驱动器 | 支持两个 M.2 驱动器,可选 Intel VROC NVMe RAID 支持操作系统启动和数据存储功能 |
最大内部存储空间 | 51.2 TB,使用 16 个 3.2 TB 2.5 英寸 NVMe SSD |
存储控制器 | 板载 NVMe(非 RAID) |
网络接口 | 支持 8 个高性能网络适配器,连接速度高达 400 Gb/s,并支持 GPU Direct。支持用于用户/控制平面的 NVIDIA BlueField-3 2 端口 200Gb 适配器和用于管理的 Mellanox ConnectX-6 Lx 2 端口 10/25GbE 适配器。 |
PCI 扩展槽 | 10 个 PCIe 5.0 x16 插槽:
|
端口 | 正面:1x USB 3.2 G1 (5 Gb/s) 端口、1x USB 2.0 端口(也用于 XCC 本地管理)、1x Mini DisplayPort 视频端口。 背面:2 个 USB 3.2 G1 (5 Gb/s) 端口、1 个 VGA 视频端口、1 个 RJ-45 1GbE 系统管理端口,用于 XCC 远程管理。 |
散热器 | 5 个前置双转子风扇,用于 CPU 和存储子系统,N+1 冗余。 GPU子系统10个后置双转子风扇,N+1冗余。每个电源中都集成了一个风扇。从前到后的气流。 |
电源 | 八个热插拔冗余交流电源,冗余程度高达 N+N。 80PLUS钛金认证。 2600 W 交流电源需要 220 V 交流电源。 |
视频 | XClarity Controller 16 管理控制器中集成了具有 2 MB 内存的嵌入式显卡和 2D 硬件加速器。两个视频端口(前置 Mini DisplayPort 和后置 VGA);如果需要,两者可以同时使用。两个端口的最大分辨率均为 1920×1200(60Hz)。 |
热插拔部件 | 驱动器、电源和风扇。 |
系统管理 | 带有状态 LED 和抽拉式 LCD 显示屏的集成诊断面板。 XClarity Controller 2 (XCC2) 基于 ASPEED AST2600 基板管理控制器 (BMC) 的嵌入式管理。用于 XCC2 远程访问管理的专用后部以太网端口。用于集中式基础设施管理的 XClarity Administrator、XClarity Integrator 插件和 XClarity Energy Manager 集中式服务器电源管理。可选的 XCC Platinum 可实现远程控制功能和其他功能。 |
安全特性 | 开机密码、管理员密码、支持 TPM 2.0 的信任根模块和平台固件弹性 (PFR)。 |
支持的操作系统 | Ubuntu 服务器。 |
有限保修 | 三年或一年(取决于型号)客户可更换单元和现场有限保修,下一工作日 9×5 (NBD)。 |
服务与支持 | 可选服务升级可通过联想服务获得:4 小时或 2 小时响应时间、6 小时修复时间、1 年或 2 年保修延期、联想硬件的软件支持以及一些第三方应用程序。 |
尺寸 | 宽度:447 毫米(17.6 英寸),高度:351 毫米(13.8 英寸),深度:924 毫米(36.3 英寸)。 |
重量 | 最大:108.7 千克(239.8 磅) |
Lenovo ThinkSystem SR685a V3 和 SR680a V3 设计和构建
系统前端支持多达 16 个热插拔 PCIe Gen5 NVMe 驱动器托架,这对于以 GPU 为中心的服务器来说异常慷慨,这些服务器通常提供较少的托架和通道进行扩展。驱动器托架下方是八个可从前端访问的 PCIe Gen5 FHHL(全高、半长)插槽和 PCIe 交换复合体。这些插槽配备了 GPU Direct 技术(400 个 NDR XNUMXGb/s InfiniBand 适配器),可实现高速网络和数据传输,从而减少延迟并提高数据处理速度。
该系统在机箱顶部装有五个热插拔风扇,旨在冷却服务器,该服务器占据顶部 2U,包括 CPU、内存和后插槽。机箱后部还安装了十个风扇,用于冷却驱动器托架、适配器和 GPU。
前面板还配有必要的连接和管理端口,包括三个 USB 3.2 Gen1 端口和一个视频输出,有助于直接管理和本地控制台交互。
后部同样配备齐全,包括2U服务器扩展功能。 AMD 变体提供一个 PCIe Gen5 x16 FHHL 插槽以及一个配备 PCIe Gen3.0 x5 接口的 OCP 16 插槽。相反,Intel 型号有两个 PCIe Gen5 x16 FHHL 插槽。 OCP 3.0 插槽可容纳符合开放标准的各种适配器卡,从而提供了网络和加速选项的多功能性。可以安装 NVIDIA BlueField-3 DPU 适配器来启用软件定义、硬件加速的 IT 基础设施,从而优化网络和安全等各种 IT 运营。
GPU 单元的后部装有八个 2,600W 电源,每个电源都连接到中央配电板。该设置包括板背面的连接器(联想将其称为“盲配”),可促进与 2U 计算梭的无缝连接。
此外,如上所述,后视图揭示了服务器的广泛冷却系统,包括十个热插拔后风扇,旨在保持 GPU、交换机和 PCIe 结构的最佳热条件。该冷却系统对于保持硬件性能稳定性和使用寿命至关重要,尤其是在连续高负载运行期间。
电源、布线和开关
该服务器系列的 AMD 和 Intel 版本共享共同的电源布局,从而实现更大的模块化,这是这些系统的主要亮点。
PCIe 信号通过带状电缆传输,将计算底座连接到 PCIe 交换底座。在计算底座的另一侧,有一个盲连接。计算底座与这些连接器配合,将 PCIe 信号传递到机箱的其余部分。底座背面的支架(标有其指定的 PCIe 连接)允许您在计算梭之间进行更改,而无需更改服务器的底部。
PCIe 交换板包括四个由 PCIe 插槽包围的 Broadcom 交换机,允许服务器连接到高速网络结构。此外,还有八个 MCIO 电缆连接器连接到主板。顶部较小的 PCIe 连接器指定用于前置 NVMe SSD 的驱动器背板。
内存和内部存储
AMD 计算支持多达 24 个 DDR5 内存 DIMM,每个处理器通过 12 个内存通道与 12 个 DIMM 连接,允许每个通道配置一个 DIMM。这些 DIMM 的运行速度为 4800 MHz,提高了整体内存吞吐量和效率。根据配置的不同,服务器可支持使用 1.5 个 24GB RDIMM 的 64TB 系统内存或使用 2.25 个 24GB RDIMM 的 96TB 系统内存,从而为内存要求最高的任务提供充足的容量。
英特尔计算 (SR680a V3) 采用 Lenovo TruDDR5 内存,运行速度高达 5600 MHz。它还支持比 AMD 更高的容量,在两个处理器上支持多达 32 个 DIMM,利用 8 个内存通道支持每通道 2 个 DIMM (DPC)。根据内存配置,服务器可使用 2 个 32GB RDIMM 支持高达 64TB 的系统内存。
DIMM 的运行速度根据每个通道的 DIMM 数量而有所不同:每个通道 1 个 DIMM 时,内存的运行速度最高可达 5600 MHz,而每个通道 2 个 DIMM 的配置运行速度最高可达 4400 MHz。这种灵活的速度调整有助于根据特定的内存负载和配置优化性能。
此外,该服务器在具有集成 RAID 功能的 M.2 适配器上容纳两个 M.2 NVMe 驱动器,非常适合操作系统启动过程和快速数据访问。
AMD 和 NVIDIA GPU 板
NVIDIA H100/H200 主板紧密集成了 3 个 NVIDIA GPU,并配有可伸缩手柄,使搬运和安装主板变得更加轻松。安装后,手柄会整齐地塞在 GPU 旁边,以避免阻塞。 AMD 和 NVIDIA 主板之间的连接器是相同的。 Intel Gaudi XNUMX 主板将有不同的连接器。
AMD MI300 主板与 NVIDIA 主板类似,但有一个明显突出的标准手柄。虽然仍然有用,但它不如 NVIDIA 主板上的可伸缩手柄那么优雅。客户不会在意任何一种方式,因此我们添加了脚注,因为设计差异引起了我们的注意。
总结
Lenovo ThinkSystem SR685a V3 和 SR680a V3 GPU 服务器提供令人印象深刻的模块化性,支持强大的 NVIDIA H100/H200 和 AMD MI300X GPU,以及 AMD EPYC 9004 和 5th Gen Xeon Intel CPU。这种灵活性和风冷设计使它们能够轻松集成到现有的生态系统中。这些服务器还支持比典型 GPU 服务器更多的存储(通过 16 个热插拔 PCIe Gen5 NVMe 驱动器托架),从而增强了其执行数据密集型任务的实用性。此外,采用联想的 XClarity 进行管理可确保简化操作和监控,进一步简化复杂基础设施的管理。
尽管没有进行性能测试,这些服务器的设计还是非常出色的。模块化架构使联想能够轻松地为客户提供 AMD 和 NVIDIA GPU,以及英特尔或 AMD 计算机服务器。借助更多 GPU 支持(例如 Intel Guadi 3 和 NVIDIA B200),联想可以让客户混合搭配计算和 GPU 组件,以针对特定应用程序调整服务器。
总体而言,这些服务器经过深思熟虑,我们期待着使用它们进行实际操作;乔丹一直焦急地抚着胡子,满怀期待。虽然我们目前正在开发一个使用配备四个 NVIDIA L675S GPU 的 Lenovo SR3 v40 的项目,但这些 8 路服务器是不同的动物,并且具有广泛的 AI 用例。不过,这是一个很好的提醒,联想为每个人提供了一个人工智能平台。
参与 StorageReview
电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅