主页 Enterprise Lenovo ThinkSystem SR685a V3 和 SR680a V3 GPU 服务器

Lenovo ThinkSystem SR685a V3 和 SR680a V3 GPU 服务器

by 莱尔·史密斯

联想ThinkSystem SR685a V3和SR680a V3 GPU服务器是该公司最新的8路GPU服务器,专为满足多样化的企业人工智能需求而量身定制。

联想ThinkSystem SR685a V3和SR680a V3 GPU服务器是该公司最新的8路GPU服务器,专为满足多样化的企业人工智能需求而量身定制。尽管具有不同的型号名称,但它们共享模块化基础,允许每个系统内的组件可互换。

从根本上讲,这些服务器具有三个或四个核心组件,具体取决于您的计算方式。首先,外壳构成了机箱外壳,后部嵌入了风扇。内部导轨可将 2U 模块化服务器固定在顶部。底部 6U 容纳 GPU、交换机和 PCIe 结构。 2U 服务器的 I/O 根据 AMD 或 Intel 产品而有所不同。联想目前支持 NVIDIA 和 AMD GPU 板,未来将支持 Intel Guadi 3。

Lenovo SR685a V3(AI 的小写)采用双第四代 AMD EPYC 处理器,专门针对高带宽 GPU 到 GPU 通信进行了优化,使其成为生成式 AI 应用的理想选择。相反,SR4a V680配备第五代英特尔至强可扩展处理器,支持多功能人工智能和计算应用程序,可容纳NVIDIA和AMD GPU以满足不同行业的需求。两种型号均采用创新的模块化方法,允许用户定制和扩展其系统,以精确地满足特定的操作需求。

这些服务器备受追捧(尽管目前很难买到),并在去年奥斯汀举行的联想会议上引起了巨大反响。这些 GPU 服务器及其提升人工智能功能的潜力令人兴奋不已。

可配置的模型和定制

Lenovo ThinkSystem SR685a V3 和 SR680a V3 系统提供各种按订单配置 (CTO) 模型,作为定制框架。定制配置模型的能力扩展到了 GPU 的详细选择,其中模型是根据所选的特定 GPU 定义的。例如,联想配置器中列出的基本功能代码允许在 AMD MI300X 和 NVIDIA H100/H200 之间进行选择,每种都满足不同的性能和计算需求。该平台设计为联想在新加速器上市时提供了更大的灵活性。

联想 ThinkSystem SR685a V3 规格

旅行箱配件 规格
外形尺寸 8U机架
处理器 两个 AMD EPYC 9004 系列处理器(以前的代号为“Genoa”)。支持多达 64 个核心的处理器,核心速度高达 3.1 GHz,TDP 额定值高达 400W。支持 PCIe 5.0 以实现高性能 I/O。
图形处理器 的选择:

  • 八个 AMD MI300X 750W OAM GPU,每个 GPU 具有 192GB HBM3 GPU 内存
  • 八个 NVIDIA H100 700W SXM5 GPU,每个 GPU 具有 80GB HBM3 GPU 内存
  • 八个 NVIDIA H200 700W SXM5 GPU,每个 GPU 具有 141GB HBM3 GPU 内存
内存 24 个 DIMM 插槽,带两个处理器(每个处理器 12 个 DIMM 插槽)。每个处理器有 12 个内存通道,每个通道 1 个 DIMM (DPC)。 Lenovo TruDDR5 RDIMM 支持高达 4800 MHz。
内存最大 高达 1.5TB,配备 24 个 64GB RDIMM
高达 2.25TB,配备 24 个 96GB RDIMM
内存保护 ECC、SDDC、巡检/请求清理、有界故障、带重放的 DRAM 地址命令奇偶校验、DRAM 未更正的 ECC 错误重试、片上 ECC、ECC 错误检查和清理 (ECS)、封装后修复
磁盘驱动器托架 多达 16 个 2.5 英寸热插拔驱动器托架,支持 PCIe 5.0 NVMe 驱动器。
操作系统启动驱动器 支持集成 RAID-2 的 M.1 适配器;支持 2 个 NVMe M.2 驱动器,用于操作系统启动和数据存储功能
最大内部存储空间 51.2 TB,使用 16 个 3.2 TB 2.5 英寸 NVMe SSD
存储控制器 板载 NVMe(非 RAID)
网络接口 它支持 8 个高性能网络适配器,连接速度高达 400 Gb/s,并支持 GPU Direct。它支持用于用户/控制平面的 NVIDIA BlueField-3 2 端口 200Gb 适配器以及用于管理的 OCP 网络适配器选择。 OCP 3.0 插槽具有 PCIe 5.0 x16 主机接口,其中一个端口可选择与 XClarity Controller 2 (XCC2) 管理处理器共享,以支持 LAN 唤醒和 NC-SI。
PCI 扩展槽 10 个 PCIe 5.0 x16 插槽:

  • 正面:8 个 PCIe 5.0 x16 FHHL 插槽,支持 GPU Direct
  • 后置:1x PCIe 5.0 x16 FHHL 插槽 + 1x OCP 3.0 插槽,带 PCIe 5.0 x16 接口
端口 正面:1x USB 3.2 G1 (5 Gb/s) 端口、1x USB 2.0 端口(也用于 XCC 本地管理)、1x VGA 视频端口。
背面:3 个 USB 3.2 G1 (5 Gb/s) 端口、1 个 VGA 视频端口、1 个 RJ-45 1GbE 系统管理端口,用于 XCC 远程管理。
散热器 5 个前置双转子风扇,用于 CPU 和存储子系统,N+1 冗余。 GPU子系统10个后置双转子风扇,N+1冗余。每个电源中都集成了一个风扇。从前到后的气流。
电源 八个热插拔冗余交流电源,冗余程度高达 N+N。 80PLUS钛金认证。 2600 W 交流电源需要 220 V 交流电源。
视频 XClarity 控制器中集成了具有 16 MB 内存的嵌入式视频图形和 2D 硬件加速器。两个视频端口(前置VGA和后置VGA)不能同时使用;使用前置 VGA 端口会禁用后置 VGA 端口。最高分辨率为 1920×1200 32bpp @ 60Hz。
热插拔部件 驱动器、电源和风扇。
系统管理 带有状态 LED 和抽拉式 LCD 显示屏的集成诊断面板。 XClarity Controller 2 (XCC2) 基于 ASPEED AST2600 基板管理控制器 (BMC) 的嵌入式管理。用于 XCC2 远程访问管理的专用后部以太网端口。用于集中式基础设施管理的 XClarity Administrator、XClarity Integrator 插件和 XClarity Energy Manager 集中式服务器电源管理。可选的 XCC Platinum 将启用远程控制功能和其他功能。
安全特性 开机密码、管理员密码、支持 TPM 2.0 的信任根模块和平台固件弹性 (PFR)。
支持的操作系统 Ubuntu 服务器。
有限保修 三年或一年(取决于型号)客户可更换单元和现场有限保修,下一工作日 9×5 (NBD)。
服务与支持 可选服务升级可通过联想服务获得:4 小时或 2 小时响应时间、6 小时修复时间、1 年或 2 年保修延期、联想硬件的软件支持以及一些第三方应用程序。
尺寸 宽度:447 毫米(17.6 英寸),高度:351 毫米(13.8 英寸),深度:924 毫米(36.3 英寸)。
重量 最大:108.9 千克(240 磅)

联想 ThinkSystem SR680a V3 规格 

旅行箱配件 规格
外形尺寸 8U机架
处理器 两个第五代英特尔至强可扩展处理器(以前的代号为“Emerald Rapids”)。支持5核处理器,核心速度48GHz,TDP额定值2.3W。支持 PCIe 350 以实现高性能 I/O。
芯片组 Intel C741“Emmitsburg”芯片组,代号“Eagle Stream”平台的一部分
图形处理器 的选择:

  • 八个 AMD MI300X 750W OAM GPU,每个 GPU 具有 192GB HBM3 GPU 内存
  • 八个 NVIDIA H100 700W SXM5 GPU,每个 GPU 具有 80GB HBM3 GPU 内存
  • 八个 NVIDIA H200 700W SXM5 GPU,每个 GPU 具有 141GB HBM3 GPU 内存
内存 32 个 DIMM 插槽,带两个处理器(每个处理器 16 个 DIMM 插槽)。每个处理器有 8 个内存通道,每个通道有 2 个 DIMM (DPC)。支持 Lenovo TruDDR5 RDIMM。 DIMM 在 5600 DPC 时运行频率高达 1 MHz,在 4400 DPC 时运行频率高达 2 MHz。
内存最大 高达 2TB,配备 32 个 64GB RDIMM
内存保护 ECC、SDDC(适用于基于 x4 的内存 DIMM)、ADDDC(适用于基于 x4 的内存 DIMM,不包括 9×4 RDIMM,需要白金或金牌处理器)和内存镜像。
磁盘驱动器托架 多达 16 个 2.5 英寸热插拔驱动器托架,支持 PCIe 5.0 NVMe 驱动器。
操作系统启动驱动器 支持两个 M.2 驱动器,可选 Intel VROC NVMe RAID 支持操作系统启动和数据存储功能
最大内部存储空间 51.2 TB,使用 16 个 3.2 TB 2.5 英寸 NVMe SSD
存储控制器 板载 NVMe(非 RAID)
网络接口 支持 8 个高性能网络适配器,连接速度高达 400 Gb/s,并支持 GPU Direct。支持用于用户/控制平面的 NVIDIA BlueField-3 2 端口 200Gb 适配器和用于管理的 Mellanox ConnectX-6 Lx 2 端口 10/25GbE 适配器。
PCI 扩展槽 10 个 PCIe 5.0 x16 插槽:

  • 正面:8 个 PCIe 5.0 x16 FHHL 插槽,支持 GPU Direct
  • 背面:2 个 PCIe 5.0 x16 FHHL 插槽
端口 正面:1x USB 3.2 G1 (5 Gb/s) 端口、1x USB 2.0 端口(也用于 XCC 本地管理)、1x Mini DisplayPort 视频端口。
背面:2 个 USB 3.2 G1 (5 Gb/s) 端口、1 个 VGA 视频端口、1 个 RJ-45 1GbE 系统管理端口,用于 XCC 远程管理。
散热器 5 个前置双转子风扇,用于 CPU 和存储子系统,N+1 冗余。 GPU子系统10个后置双转子风扇,N+1冗余。每个电源中都集成了一个风扇。从前到后的气流。
电源 八个热插拔冗余交流电源,冗余程度高达 N+N。 80PLUS钛金认证。 2600 W 交流电源需要 220 V 交流电源。
视频 XClarity Controller 16 管理控制器中集成了具有 2 MB 内存的嵌入式显卡和 2D 硬件加速器。两个视频端口(前置 Mini DisplayPort 和后置 VGA);如果需要,两者可以同时使用。两个端口的最大分辨率均为 1920×1200(60Hz)。
热插拔部件 驱动器、电源和风扇。
系统管理 带有状态 LED 和抽拉式 LCD 显示屏的集成诊断面板。 XClarity Controller 2 (XCC2) 基于 ASPEED AST2600 基板管理控制器 (BMC) 的嵌入式管理。用于 XCC2 远程访问管理的专用后部以太网端口。用于集中式基础设施管理的 XClarity Administrator、XClarity Integrator 插件和 XClarity Energy Manager 集中式服务器电源管理。可选的 XCC Platinum 可实现远程控制功能和其他功能。
安全特性 开机密码、管理员密码、支持 TPM 2.0 的信任根模块和平台固件弹性 (PFR)。
支持的操作系统 Ubuntu 服务器。
有限保修 三年或一年(取决于型号)客户可更换单元和现场有限保修,下一工作日 9×5 (NBD)。
服务与支持 可选服务升级可通过联想服务获得:4 小时或 2 小时响应时间、6 小时修复时间、1 年或 2 年保修延期、联想硬件的软件支持以及一些第三方应用程序。
尺寸 宽度:447 毫米(17.6 英寸),高度:351 毫米(13.8 英寸),深度:924 毫米(36.3 英寸)。
重量 最大:108.7 千克(239.8 磅)

Lenovo ThinkSystem SR685a V3 和 SR680a V3 设计和构建

系统前端支持多达 16 个热插拔 PCIe Gen5 NVMe 驱动器托架,这对于以 GPU 为中心的服务器来说异常慷慨,这些服务器通常提供较少的托架和通道进行扩展。驱动器托架下方是八个可从前端访问的 PCIe Gen5 FHHL(全高、半长)插槽和 PCIe 交换复合体。这些插槽配备了 GPU Direct 技术(400 个 NDR XNUMXGb/s InfiniBand 适配器),可实现高速网络和数据传输,从而减少延迟并提高数据处理速度。

该系统在机箱顶部装有五个热插拔风扇,旨在冷却服务器,该服务器占据顶部 2U,包括 CPU、内存和后插槽。机箱后部还安装了十个风扇,用于冷却驱动器托架、适配器和 GPU。

前面板还配有必要的连接和管理端口,包括三个 USB 3.2 Gen1 端口和一个视频输出,有助于直接管理和本地控制台交互。

后部同样配备齐全,包括2U服务器扩展功能。 AMD 变体提供一个 PCIe Gen5 x16 FHHL 插槽以及一个配备 PCIe Gen3.0 x5 接口的 OCP 16 插槽。相反,Intel 型号有两​​个 PCIe Gen5 x16 FHHL 插槽。 OCP 3.0 插槽可容纳符合开放标准的各种适配器卡,从而提供了网络和加速选项的多功能性。可以安装 NVIDIA BlueField-3 DPU 适配器来启用软件定义、硬件加速的 IT 基础设施,从而优化网络和安全等各种 IT 运营。

GPU 单元的后部装有八个 2,600W 电源,每个电源都连接到中央配电板。该设置包括板背面的连接器(联想将其称为“盲配”),可促进与 2U 计算梭的无缝连接。

此外,如上所述,后视图揭示了服务器的广泛冷却系统,包括十个热插拔后风扇,旨在保持 GPU、交换机和 PCIe 结构的最佳热条件。该冷却系统对于保持硬件性能稳定性和使用寿命至关重要,尤其是在连续高负载运行期间。

电源、布线和开关

该服务器系列的 AMD 和 Intel 版本共享共同的电源布局,从而实现更大的模块化,这是这些系统的主要亮点。

PCIe 信号通过带状电缆传输,将计算底座连接到 PCIe 交换底座。在计算底座的另一侧,有一个盲连接。计算底座与这些连接器配合,将 PCIe 信号传递到机箱的其余部分。底座背面的支架(标有其指定的 PCIe 连接)允许您在计算梭之间进行更改,而无需更改服务器的底部。

PCIe 交换板包括四个由 PCIe 插槽包围的 Broadcom 交换机,允许服务器连接到高速网络结构。此外,还有八个 MCIO 电缆连接器连接到主板。顶部较小的 PCIe 连接器指定用于前置 NVMe SSD 的驱动器背板。

内存和内部存储

AMD 计算支持多达 24 个 DDR5 内存 DIMM,每个处理器通过 12 个内存通道与 12 个 DIMM 连接,允许每个通道配置一个 DIMM。这些 DIMM 的运行速度为 4800 MHz,提高了整体内存吞吐量和效率。根据配置的不同,服务器可支持使用 1.5 个 24GB RDIMM 的 64TB 系统内存或使用 2.25 个 24GB RDIMM 的 96TB 系统内存,从而为内存要求最高的任务提供充足的容量。

英特尔计算 (SR680a V3) 采用 Lenovo TruDDR5 内存,运行速度高达 5600 MHz。它还支持比 AMD 更高的容量,在两个处理器上支持多达 32 个 DIMM,利用 8 个内存通道支持每通道 2 个 DIMM (DPC)。根据内存配置,服务器可使用 2 个 32GB RDIMM 支持高达 64TB 的系统内存。

DIMM 的运行速度根据每个通道的 DIMM 数量而有所不同:每个通道 1 个 DIMM 时,内存的运行速度最高可达 5600 MHz,而每个通道 2 个 DIMM 的配置运行速度最高可达 4400 MHz。这种灵活的速度调整有助于根据特定的内存负载和配置优化性能。

此外,该服务器在具有集成 RAID 功能的 M.2 适配器上容纳两个 M.2 NVMe 驱动器,非常适合操作系统启动过程和快速数据访问。

AMD 和 NVIDIA GPU 板

NVIDIA H100/H200 主板紧密集成了 3 个 NVIDIA GPU,并配有可伸缩手柄,使搬运和安装主板变得更加轻松。安装后,手柄会整齐地塞在 GPU 旁边,以避免阻塞。 AMD 和 NVIDIA 主板之间的连接器是相同的。 Intel Gaudi XNUMX 主板将有不同的连接器。

AMD MI300 主板与 NVIDIA 主板类似,但有一个明显突出的标准手柄。虽然仍然有用,但它不如 NVIDIA 主板上的可伸缩手柄那么优雅。客户不会在意任何一种方式,因此我们添加了脚注,因为设计差异引起了我们的注意。

总结

Lenovo ThinkSystem SR685a V3 和 SR680a V3 GPU 服务器提供令人印象深刻的模块化性,支持强大的 NVIDIA H100/H200 和 AMD MI300X GPU,以及 AMD EPYC 9004 和 5th Gen Xeon Intel CPU。这种灵活性和风冷设计使它们能够轻松集成到现有的生态系统中。这些服务器还支持比典型 GPU 服务器更多的存储(通过 16 个热插拔 PCIe Gen5 NVMe 驱动器托架),从而增强了其执行数据密集型任务的实用性。此外,采用联想的 XClarity 进行管理可确保简化操作和监控,进一步简化复杂基础设施的管理。

尽管没有进行性能测试,这些服务器的设计还是非常出色的。模块化架构使联想能够轻松地为客户提供 AMD 和 NVIDIA GPU,以及英特尔或 AMD 计算机服务器。借助更多 GPU 支持(例如 Intel Guadi 3 和 NVIDIA B200),联想可以让客户混合搭配计算和 GPU 组件,以针对特定应用程序调整服务器。

总体而言,这些服务器经过深思熟虑,我们期待着使用它们进行实际操作;乔丹一直焦急地抚着胡子,满怀期待。虽然我们目前正在开发一个使用配备四个 NVIDIA L675S GPU 的 Lenovo SR3 v40 的项目,但这些 8 路服务器是不同的动物,并且具有广泛的 AI 用例。不过,这是一个很好的提醒,联想为每个人提供了一个人工智能平台。

联想 GPU 服务器

参与 StorageReview

电子报 | YouTube | 播客 iTunes/Spotify | Instagram | Twitter | TikTok | RSS订阅