Accueil Entreprise Serveurs GPU Lenovo ThinkSystem SR685a V3 et SR680a V3

Serveurs GPU Lenovo ThinkSystem SR685a V3 et SR680a V3

by Lyle Smith

Les serveurs GPU Lenovo ThinkSystem SR685a V3 et SR680a V3 sont les derniers serveurs GPU à 8 voies de la société, conçus pour répondre aux divers besoins d'IA des entreprises.

Les serveurs GPU Lenovo ThinkSystem SR685a V3 et SR680a V3 sont les derniers serveurs GPU à 8 voies de la société, conçus pour répondre aux divers besoins d'IA des entreprises. Bien qu'ils aient des noms de modèles distincts, ils partagent une base modulaire, permettant des composants interchangeables au sein de chaque système.

Fondamentalement, ces serveurs comportent trois ou quatre composants principaux, selon la façon dont vous comptez. Tout d’abord, un boîtier extérieur constitue la coque du châssis avec des ventilateurs intégrés à l’arrière. Il existe des rails internes qui maintiennent un serveur modulaire 2U en haut. Le 6U inférieur abrite les GPU, les commutateurs et la structure PCIe. Les serveurs 2U disposent d'E/S qui varient en fonction des offres AMD ou Intel. Lenovo prend aujourd'hui en charge les cartes GPU NVIDIA et AMD, avec la future prise en charge d'Intel Guadi 3.

Le Lenovo SR685a V3 (un petit a pour l'IA) utilise deux processeurs AMD EPYC de 4e génération et est spécifiquement optimisé pour les communications GPU à GPU à large bande passante, ce qui le rend idéal pour les applications d'IA générative. À l’inverse, le SR680a V3, équipé de processeurs Intel Xeon Scalable de 5e génération, prend en charge des applications polyvalentes d’IA et de calcul, s’adaptant aux GPU NVIDIA et AMD pour répondre à divers besoins de l’industrie. Les deux modèles adoptent une approche innovante de la modularité, permettant aux utilisateurs de personnaliser et de faire évoluer leurs systèmes pour les aligner précisément sur les demandes opérationnelles spécifiques.

Ces serveurs sont très recherchés (bien que très difficiles à trouver pour le moment) et ont généré un buzz important lors de la conférence de Lenovo l'année dernière à Austin. Il y a un grand enthousiasme autour de ces serveurs GPU et de leur potentiel pour faire progresser les capacités de l'IA.

Modèles configurables et personnalisation

Les systèmes Lenovo ThinkSystem SR685a V3 et SR680a V3 sont proposés dans différents modèles de configuration à la commande (CTO) qui servent de cadre de personnalisation. La possibilité de personnaliser les modèles de configuration s'étend à la sélection détaillée des GPU, où les modèles sont définis en fonction des GPU spécifiques sélectionnés. Par exemple, les codes de fonctionnalité de base répertoriés dans le configurateur Lenovo permettent de sélectionner entre l'AMD MI300X et le NVIDIA H100/H200, chacun répondant à des besoins de performances et de calcul différents. La conception de la plate-forme offre à Lenovo une plus grande flexibilité dans l'intégration de nouveaux accélérateurs au fur et à mesure de leur commercialisation.

Spécifications du Lenovo ThinkSystem SR685a V3

Composants Spécification
Facteur de forme rack 8U
Processeur Deux processeurs AMD EPYC série 9004 (anciennement nommé « Genoa »). Prend en charge les processeurs jusqu'à 64 cœurs, des vitesses de cœur jusqu'à 3.1 GHz et des valeurs TDP jusqu'à 400 W. Prend en charge PCIe 5.0 pour des E/S hautes performances.
GPU Choix de:

  • Huit GPU OAM AMD MI300X 750 W avec 192 Go de mémoire GPU HBM3 par GPU
  • Huit GPU NVIDIA H100 700 W SXM5 avec 80 Go de mémoire GPU HBM3 par GPU
  • Huit GPU NVIDIA H200 700 W SXM5 avec 141 Go de mémoire GPU HBM3 par GPU
Mémoire 24 emplacements DIMM avec deux processeurs (12 emplacements DIMM par processeur). Chaque processeur dispose de 12 canaux mémoire, avec 1 DIMM par canal (DPC). Les RDIMM Lenovo TruDDR5 sont pris en charge jusqu'à 4800 XNUMX MHz.
Mémoire maximale Jusqu'à 1.5 To avec 24 RDIMM de 64 Go
Jusqu'à 2.25 To avec 24 RDIMM de 96 Go
Protection de la mémoire ECC, SDDC, nettoyage de patrouille/à la demande, défaut limité, parité de commande d'adresse DRAM avec relecture, nouvelle tentative d'erreur ECC non corrigée de DRAM, ECC sur puce, vérification et nettoyage d'erreur ECC (ECS), réparation après package
Baies de lecteur de disque Jusqu'à 16 baies de disque remplaçables à chaud de 2.5 pouces prenant en charge les disques PCIe 5.0 NVMe.
Lecteurs de démarrage du système d'exploitation Prise en charge d'un adaptateur M.2 avec RAID-1 intégré ; prise en charge de 2 disques NVMe M.2 pour les fonctions de démarrage du système d'exploitation et de stockage de données
Stockage interne maximal 51.2 To avec 16 disques SSD NVMe de 3.2 To de 2.5 pouces
Contrôleur de stockage NVMe intégré (non RAID)
Interfaces réseau Il prend en charge 8 adaptateurs réseau hautes performances jusqu'à 400 Gb/s de connectivité avec prise en charge GPU Direct. Il prend en charge un adaptateur NVIDIA BlueField-3 à 2 ports 200 Go pour le plan utilisateur/contrôle et un choix d'adaptateur réseau OCP pour la gestion. L'emplacement OCP 3.0 dispose d'une interface hôte PCIe 5.0 x16, avec un port éventuellement partagé avec le processeur de gestion XClarity Controller 2 (XCC2) pour la prise en charge Wake-on-LAN et NC-SI.
Emplacements d'extension PCI 10 emplacements PCIe 5.0 x16 :

  • Avant : 8 emplacements PCIe 5.0 x16 FHHL avec prise en charge GPU Direct
  • Arrière : 1x emplacement PCIe 5.0 x16 FHHL + 1x emplacement OCP 3.0 avec interface PCIe 5.0 x16
Ports Face avant : 1x port USB 3.2 G1 (5 Gb/s), 1x port USB 2.0 (également pour la gestion locale XCC), 1x port vidéo VGA.
Arrière : 3 ports USB 3.2 G1 (5 Gb/s), 1 port vidéo VGA, 1 port de gestion de systèmes RJ-45 1GbE pour la gestion à distance XCC.
Refroidissement 5 ventilateurs à double rotor montés à l'avant pour le sous-système CPU et de stockage, redondants N+1. 10x ventilateurs à double rotor montés à l'arrière pour le sous-système GPU, redondant N+1. Un ventilateur est intégré à chaque alimentation. Flux d'air d'avant en arrière.
Source d'alimentation Huit alimentations CA redondantes remplaçables à chaud avec une redondance jusqu'à N+N. Certification 80 PLUS Titane. Alimentations 2600 W AC nécessitant une alimentation 220 V AC.
Video Des graphiques vidéo intégrés avec 16 Mo de mémoire et un accélérateur matériel 2D sont intégrés au contrôleur XClarity. Deux ports vidéo (VGA avant et VGA arrière) ne peuvent pas être utilisés simultanément ; l'utilisation du port VGA avant désactive le port VGA arrière. La résolution maximale est de 1920×1200 32bpp à 60Hz.
Pièces remplaçables à chaud Disques, blocs d'alimentation et ventilateurs.
Gestion des systèmes Panneau de diagnostic intégré avec LED d'état et écran LCD extractible. Gestion intégrée XClarity Controller 2 (XCC2) basée sur le contrôleur de gestion de la carte mère (BMC) ASPEED AST2600. Port Ethernet arrière dédié pour l'accès à distance XCC2 pour la gestion. XClarity Administrator pour la gestion centralisée de l'infrastructure, les plugins XClarity Integrator et la gestion centralisée de l'alimentation du serveur XClarity Energy Manager. Le XCC Platinum en option permettra les fonctions de télécommande et d'autres fonctionnalités.
Fonctions de sécurité Mot de passe à la mise sous tension, mot de passe de l'administrateur, module Root of Trust prenant en charge TPM 2.0 et Platform Firmware Resiliency (PFR).
Systèmes d'exploitation pris en charge Serveur Ubuntu
Garantie limitée Unité remplaçable par le client de trois ans ou d'un an (selon le modèle) et garantie limitée sur site avec 9×5 le jour ouvrable suivant (NBD).
Service et support Des mises à niveau de service facultatives sont disponibles via les services Lenovo : temps de réponse de 4 heures ou 2 heures, temps de réparation de 6 heures, extension de garantie de 1 an ou 2 ans, support logiciel pour le matériel Lenovo et certaines applications tierces.
Dimensions Largeur : 447 mm (17.6 pouces), hauteur : 351 mm (13.8 pouces), profondeur : 924 mm (36.3 pouces).
Poids Maximum : 108.9 kg (240 lb)

Spécifications du Lenovo ThinkSystem SR680a V3 

Composants Spécification
Facteur de forme rack 8U
Processeur Deux processeurs Intel Xeon Scalable de 5e génération (anciennement nommés « Emerald Rapids »). Prend en charge un processeur avec 48 cœurs, une vitesse de cœur de 2.3 GHz et un TDP de 350 W. Prend en charge PCIe 5.0 pour des E/S hautes performances.
Chipset Chipset Intel C741 « Emmitsburg », faisant partie de la plateforme nommée « Eagle Stream »
GPU Choix de:

  • Huit GPU OAM AMD MI300X 750 W avec 192 Go de mémoire GPU HBM3 par GPU
  • Huit GPU NVIDIA H100 700 W SXM5 avec 80 Go de mémoire GPU HBM3 par GPU
  • Huit GPU NVIDIA H200 700 W SXM5 avec 141 Go de mémoire GPU HBM3 par GPU
Mémoire 32 emplacements DIMM avec deux processeurs (16 emplacements DIMM par processeur). Chaque processeur dispose de 8 canaux mémoire, avec 2 DIMM par canal (DPC). Les RDIMM Lenovo TruDDR5 sont pris en charge. Les DIMM fonctionnent jusqu'à 5600 1 MHz à 4400 DPC et jusqu'à 2 XNUMX MHz à XNUMX DPC.
Mémoire maximale Jusqu'à 2 To avec 32 RDIMM de 64 Go
Protection de la mémoire ECC, SDDC (pour les modules DIMM de mémoire x4), ADDDC (pour les modules DIMM de mémoire x4 à l'exclusion des RDIMM 9 × 4, nécessite des processeurs Platinum ou Gold) et mise en miroir de la mémoire.
Baies de lecteur de disque Jusqu'à 16 baies de disque remplaçables à chaud de 2.5 pouces prenant en charge les disques PCIe 5.0 NVMe.
Lecteurs de démarrage du système d'exploitation Prise en charge de deux disques M.2 avec prise en charge optionnelle Intel VROC NVMe RAID pour les fonctions de démarrage du système d'exploitation et de stockage de données
Stockage interne maximal 51.2 To avec 16 disques SSD NVMe de 3.2 To de 2.5 pouces
Contrôleur de stockage NVMe intégré (non RAID)
Interfaces réseau Prend en charge 8 adaptateurs réseau hautes performances jusqu'à 400 Gb/s de connectivité avec prise en charge GPU Direct. Prend en charge un adaptateur NVIDIA BlueField-3 à 2 ports 200 Go pour le plan utilisateur/contrôle et un adaptateur Mellanox ConnectX-6 Lx à 2 ports 10/25GbE pour la gestion.
Emplacements d'extension PCI 10 emplacements PCIe 5.0 x16 :

  • Avant : 8 emplacements PCIe 5.0 x16 FHHL avec prise en charge GPU Direct
  • Arrière : 2 emplacements PCIe 5.0 x16 FHHL
Ports Face avant : 1x port USB 3.2 G1 (5 Gb/s), 1x port USB 2.0 (également pour la gestion locale XCC), 1x port vidéo Mini DisplayPort.
Arrière : 2 ports USB 3.2 G1 (5 Gb/s), 1 port vidéo VGA, 1 port de gestion de systèmes RJ-45 1GbE pour la gestion à distance XCC.
Refroidissement 5 ventilateurs à double rotor montés à l'avant pour le sous-système CPU et de stockage, redondants N+1. 10x ventilateurs à double rotor montés à l'arrière pour le sous-système GPU, redondant N+1. Un ventilateur est intégré à chaque alimentation. Flux d'air d'avant en arrière.
Source d'alimentation Huit alimentations CA redondantes remplaçables à chaud avec une redondance jusqu'à N+N. Certification 80 PLUS Titane. Alimentations 2600 W AC nécessitant une alimentation 220 V AC.
Video Des graphiques embarqués avec 16 Mo de mémoire et un accélérateur matériel 2D sont intégrés au contrôleur de gestion XClarity Controller 2. Deux ports vidéo (Mini DisplayPort avant et VGA arrière) ; les deux peuvent être utilisés simultanément si vous le souhaitez. La résolution maximale des deux ports est de 1920×1200 à 60 Hz.
Pièces remplaçables à chaud Disques, blocs d'alimentation et ventilateurs.
Gestion des systèmes Panneau de diagnostic intégré avec LED d'état et écran LCD extractible. Gestion intégrée XClarity Controller 2 (XCC2) basée sur le contrôleur de gestion de la carte mère (BMC) ASPEED AST2600. Port Ethernet arrière dédié pour l'accès à distance XCC2 pour la gestion. XClarity Administrator pour la gestion centralisée de l'infrastructure, les plugins XClarity Integrator et la gestion centralisée de l'alimentation du serveur XClarity Energy Manager. Le XCC Platinum en option permet des fonctions de télécommande et d'autres fonctionnalités.
Fonctions de sécurité Mot de passe à la mise sous tension, mot de passe de l'administrateur, module Root of Trust prenant en charge TPM 2.0 et Platform Firmware Resiliency (PFR).
Systèmes d'exploitation pris en charge Serveur Ubuntu
Garantie limitée Unité remplaçable par le client de trois ans ou d'un an (selon le modèle) et garantie limitée sur site avec 9×5 le jour ouvrable suivant (NBD).
Service et support Des mises à niveau de service facultatives sont disponibles via les services Lenovo : temps de réponse de 4 heures ou 2 heures, temps de réparation de 6 heures, extension de garantie de 1 an ou 2 ans, support logiciel pour le matériel Lenovo et certaines applications tierces.
Dimensions Largeur : 447 mm (17.6 pouces), hauteur : 351 mm (13.8 pouces), profondeur : 924 mm (36.3 pouces).
Poids Maximum : 108.7 kg (239.8 lb)

Conception et construction de Lenovo ThinkSystem SR685a V3 et SR680a V3

L'avant du système prend en charge jusqu'à 16 baies de disque PCIe Gen5 NVMe remplaçables à chaud, une quantité inhabituellement généreuse pour les serveurs centrés sur GPU, qui offrent généralement moins de baies et de voies d'extension. Sous les baies de lecteur se trouvent les huit emplacements PCIe Gen5 FHHL (pleine hauteur, demi-longueur) accessibles à l'avant et le complexe de commutation PCIe. Ces emplacements sont équipés de la technologie GPU Direct (huit adaptateurs InfiniBand NDR 400 Gb/s), permettant une mise en réseau et des transferts de données à haut débit afin de réduire la latence et d'augmenter les vitesses de traitement des données.

Le système abrite cinq ventilateurs remplaçables à chaud en haut du châssis, conçus pour refroidir le serveur, qui occupe les 2U supérieurs, y compris le processeur, la mémoire et les emplacements arrière. Dix ventilateurs supplémentaires sont montés à l'arrière du châssis pour refroidir les baies de disques, les adaptateurs et les GPU.

Le panneau avant abrite également des ports de connectivité et de gestion essentiels, dont trois ports USB 3.2 Gen1 et une sortie vidéo, facilitant la gestion directe et les interactions avec la console locale.

L'arrière est également bien équipé, y compris les capacités d'extension du serveur 2U. La variante AMD propose un emplacement PCIe Gen5 x16 FHHL ainsi qu'un emplacement OCP 3.0 équipé d'une interface PCIe Gen5 x16. A l’inverse, le modèle Intel dispose de deux emplacements PCIe Gen5 x16 FHHL. Un emplacement OCP 3.0 offre une polyvalence dans les options de mise en réseau et d'accélération en accueillant diverses cartes adaptateurs adhérant aux normes ouvertes. Les adaptateurs NVIDIA BlueField-3 DPU peuvent être installés pour activer une infrastructure informatique définie par logiciel et accélérée par le matériel, optimisant diverses opérations informatiques telles que la mise en réseau et la sécurité.

L'arrière de l'unité GPU abrite huit alimentations de 2,600 2 W, chacune reliée à un tableau de distribution central. Cette configuration comprend des connecteurs à l'arrière de la carte, appelés par Lenovo le « compagnon aveugle », qui facilitent une connexion transparente à la navette de calcul XNUMXU.

De plus, comme mentionné ci-dessus, la vue arrière révèle le système de refroidissement complet du serveur, comprenant dix ventilateurs arrière remplaçables à chaud conçus pour maintenir des conditions thermiques optimales sur les GPU, les commutateurs et la structure PCIe. Ce système de refroidissement est crucial pour maintenir la stabilité et la longévité des performances du matériel, en particulier lors d'opérations continues à forte charge.

Alimentation, câblage et commutation

Les versions AMD et Intel de cette famille de serveurs partagent une configuration d'alimentation commune, permettant une plus grande modularité, ce qui constitue le point fort majeur de ces systèmes.

La signalisation PCIe circule via des câbles plats reliant le traîneau de calcul au traîneau de commutation PCIe. De l’autre côté du traîneau de calcul se trouve une connexion aveugle. Le traîneau de calcul s'accouple à ces connecteurs, transmettant la signalisation PCIe au reste du châssis. Le support à l'arrière du traîneau (étiqueté avec sa connexion PCIe désignée) vous permet de basculer entre les navettes de calcul sans altérer le bas du serveur.

La carte de commutation PCIe comprend quatre commutateurs Broadcom entourés d'emplacements PCIe, permettant au serveur de se connecter à une structure réseau haut débit. De plus, huit connecteurs de câble MCIO sont reliés à la carte mère. Les connecteurs PCIe plus petits en haut sont destinés aux fonds de panier de disques pour les SSD NVMe à montage avant.

Mémoire et stockage interne

Le calcul AMD prend en charge jusqu'à 24 DIMM de mémoire DDR5, chaque processeur s'interfaçant avec 12 DIMM via 12 canaux de mémoire, permettant une configuration d'un DIMM par canal. Ces modules DIMM fonctionnent à une vitesse de 4800 1.5 MHz, améliorant ainsi le débit et l'efficacité globale de la mémoire. Selon la configuration, le serveur peut prendre en charge soit 24 To de mémoire système en utilisant 64 RDIMM de 2.25 Go, soit 24 To en utilisant 96 RDIMM de XNUMX Go, offrant une capacité suffisante même pour les tâches les plus exigeantes en mémoire.

Le calcul Intel (SR680a V3) exploite la mémoire Lenovo TruDDR5 qui fonctionne à des vitesses allant jusqu'à 5600 32 MHz. Il prend également en charge une capacité supérieure à celle d'AMD avec jusqu'à 8 DIMM sur deux processeurs, utilisant 2 canaux de mémoire pour prendre en charge 2 DIMM par canal (DPC). Selon la configuration de la mémoire, le serveur peut prendre en charge jusqu'à 32 To de mémoire système à l'aide de 64 RDIMM de XNUMX Go.

Les vitesses de fonctionnement des DIMM varient en fonction du nombre de DIMM par canal : avec 1 DIMM par canal, la mémoire peut atteindre des vitesses allant jusqu'à 5600 2 MHz, alors que les configurations avec 4400 DIMM par canal fonctionneront jusqu'à XNUMX XNUMX MHz. Ce réglage flexible de la vitesse permet d'optimiser les performances en fonction de la charge de mémoire et de la configuration spécifiques.

De plus, le serveur peut accueillir deux disques M.2 NVMe sur un adaptateur M.2 avec fonctionnalité RAID intégrée, ce qui est idéal pour les processus de démarrage du système d'exploitation et l'accès rapide aux données.

Cartes GPU AMD et NVIDIA

La carte NVIDIA H100/H200 contient huit GPU NVIDIA et dispose d'une poignée rétractable facilitant le transport et l'installation de la carte. Une fois installée, la poignée se place parfaitement à côté des GPU pour éviter toute obstruction. Les connecteurs entre les cartes AMD et NVIDIA sont identiques. La carte Intel Gaudi 3 aura un connecteur différent.

La carte AMD MI300 est similaire à la carte NVIDIA mais possède une poignée standard qui dépasse considérablement. Même si elle reste utile, elle n'est pas aussi élégante que la poignée rétractable de la carte NVIDIA. Les clients ne s'en soucieront pas de toute façon, nous avons donc ajouté la note de bas de page car la différence de conception a attiré notre attention.

Réflexions finales

Les serveurs GPU Lenovo ThinkSystem SR685a V3 et SR680a V3 offrent une modularité impressionnante, prenant en charge les puissants GPU NVIDIA H100/H200 et AMD MI300X, ainsi que les AMD EPYC 9004 et 5.th Processeurs Intel Gen Xeon. Cette flexibilité et une conception refroidie par air les rendent faciles à intégrer dans les écosystèmes existants. Les serveurs prennent également en charge plus de stockage que les serveurs GPU classiques (via 16 baies de disque PCIe Gen5 NVMe remplaçables à chaud), améliorant ainsi leur utilité pour les tâches gourmandes en données. De plus, l'intégration de XClarity de Lenovo pour la gestion garantit des opérations et une surveillance rationalisées, simplifiant encore davantage la gestion des infrastructures complexes.

Bien qu'ils n'aient pas effectué de tests de performances, la conception de ces serveurs est remarquable. L'architecture modulaire permet à Lenovo de proposer aujourd'hui facilement à ses clients des GPU AMD et NVIDIA, avec des serveurs informatiques Intel ou AMD. Avec davantage de prise en charge GPU, comme Intel Guadi 3 et NVIDIA B200, Lenovo peut permettre aux clients de mélanger et d'associer les composants de calcul et GPU pour régler les serveurs pour des applications spécifiques.

Dans l’ensemble, ces serveurs sont très bien pensés et nous sommes impatients de passer du temps à les utiliser ; Jordan caressait anxieusement sa barbe avec impatience. Alors que nous travaillons actuellement sur un projet avec le Lenovo SR675 v3 avec quatre GPU NVIDIA L40S, ces serveurs à 8 voies sont un animal différent et ont un large éventail de cas d'utilisation de l'IA. Cela nous rappelle cependant que Lenovo propose une plate-forme d’IA pour tout le monde.

Serveurs GPU Lenovo

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS