Accueil Entreprise Examen du Supermicro X13 SuperBlade : l'appliance IA à tout faire

Examen du Supermicro X13 SuperBlade : l'appliance IA à tout faire

by Jordan Ranous

Le châssis Supermicro X13 SuperBlade et les lames GPU constituent un choix hautement adaptable et robuste, en particulier pour les tâches d'IA de taille moyenne.

Supermicro a été un pionnier dans la technologie des serveurs lames, et ses systèmes SuperBlade en témoignent. L'introduction du châssis et des lames Supermicro X13 SuperBlade ouvre un nouveau chapitre pour la technologie avec des lames compatibles GPU et l'intégration des derniers processeurs Emerald Rapids et GPU NVIDIA H100. Ces avancées apportent une puissance de traitement et une efficacité exceptionnelles, faisant du X13 un candidat idéal pour diverses applications haut de gamme.

Châssis Supermicro X13 SuperBlade

Conception et spécifications

Le châssis Supermicro X13 SuperBlade conserve la conception familière du châssis 8U, connu pour sa haute densité et sa flexibilité. Chaque châssis prend en charge jusqu'à 20 lames, la dernière offre étant considérablement améliorée par l'intégration des processeurs Emerald Rapids et des GPU NVIDIA H100. Cette puissante combinaison promet d’offrir des capacités de calcul sans précédent. De plus, le châssis dispose de communications InfiniBand 200G et Ethernet 25G, garantissant un transfert de données à haut débit et une efficacité réseau.

Cas d'utilisation populaires :

  1. Analyse de Donnée: Grâce à la puissance de traitement avancée des processeurs Emerald Rapids et aux capacités de calcul accélérées des GPU NVIDIA H100, les X13 SuperBlades sont exceptionnellement bien adaptés aux tâches exigeantes d'analyse de données. Ces tâches incluent le traitement des données en temps réel et des opérations approfondies d'exploration de données, qui sont de plus en plus critiques dans le monde actuel axé sur les données.
  2. L'INTELLIGENCE ARTIFICIELLE ET LE MACHINE LEARNING: Les X13 SuperBlades offrent la puissance nécessaire pour les modèles d'IA et d'apprentissage automatique, en particulier les algorithmes d'apprentissage profond nécessitant des ressources de calcul importantes.
  3. Calcul haute performance: Les simulations scientifiques, la recherche médicale et les tâches informatiques avancées en ingénierie bénéficieront considérablement des performances améliorées du X13, ce qui en fera un choix de premier ordre pour les applications informatiques hautes performances.
  4. Cloud Computing: La densité et les performances accrues des lames les rendent idéales pour les fournisseurs de services cloud. Ils peuvent gérer de nombreuses applications et services basés sur le cloud, y compris ceux qui nécessitent une virtualisation et une conteneurisation intensives.
  5. Réseautage et communications: Équipé de communications InfiniBand 200G et Ethernet 25G, le X13 excelle dans les applications à large bande passante et à faible latence, ce qui le rend adapté aux tâches de mise en réseau et de communication exigeantes. Grâce à son réseau externe, le SuperBlade peut agir comme un hub, fournissant des communications InfiniBand et Ethernet avec des serveurs non lames traditionnels dans le même rack ou centre de données.

Dans notre banc d’essai fourni par Supermicro, nous avions cinq lames au total. Quatre étaient équipés d'un seul processeur et de la capacité d'accepter un accélérateur PCIe, dans notre cas, quatre NVIDIA H100 et une lame double processeur. Nous ferons un suivi avec un examen ultérieur de la lame de calcul, la longueur de cet examen a rendu son inclusion un peu excessive.

Fiche technique Supermicro X13 SuperBlade

Composant Description
Enceinte 1x SBE-820H2-630
PSW 6x PWS-3K01A-BR
Ventilateur 2x PWS-DF006-2F
BBP 1x AOC-MB-BBP01-P
CMM MBM-CMM-6
Commutateur IB 1x SBM-IBS-H4020
FR Commutateur 2x SBM-25G-200
Configuration de la lame
  • SBI-411E-5G :
    • 1x processeur 8562Y+
    • 8xMEM-DR532L-CL01-ER48
    • 2x HDS-SMN0-MZ1L23T8HBLAA7 (lecteur Samsung 3840G M.2)
    • 1x GPU-NVH100-80
    • 1x SNK-P0088P
    • 1x AOC-IBH-X6HS-P
  • SBI-411E-5G : [Idem que ci-dessus]
  • SBI-411E-5G : [Idem que ci-dessus, avec lecteur Micron 480G M.2]
  • SBI-411E-5G : [Idem que ci-dessus, avec lecteur Micron 480G M.2]
  • SBI-421E-5T3N :
    • 2x 8562Y+
    • 512Gb DDR5
    • 1x HDS-MMN-MTFDKBA480TFR1BC (lecteur Micron 480G M.2)
    • 1x HDS-MUN-MTFDKCC3T8TDZ1AZ (lecteur Micron 3840G U.2)
    • 2x SNK-P0088P
    • 1x AOC-IBH-X6HS-P

SuperBlades GPU Supermicro X13

À première vue, les lames GPU démentent leur puissance, avec une prise à l'avant, notre lame double processeur ayant des baies NVMe de 2.5 pouces à la place du GPU.

GPU Supermicro X13 SuperBlade et lames de calcul

À l’arrière se trouvent un nombre éblouissant de broches pour connecter la lame au châssis, transportant toute l’alimentation et les données.

En regardant à l’intérieur, nous pouvons voir les SSD de démarrage m.2 dans la lame GPU.

D’en haut, nous pouvons voir les guides déroutants. Notez la différence entre une lame GPU et une lame Dual CPU. La carte mère lame GPU est identique au Dual CPU, mais juste la moitié arrière d’E/S de celui-ci.

Sur le front, nous pouvons commencer à voir les différentes implémentations. La lame GPU dispose d'un support PCIe, tandis que la lame CPU dispose d'un support PCIe U.2 et peut accueillir divers composants dans ses emplacements PCIe. Le châssis est conçu pour un refroidissement optimal des GPU passifs en aspirant d'abord de l'air frais dans le GPU.

En commençant à l'arrière du châssis, nous pouvons voir les blocs d'alimentation et la connectivité réseau. Le commutateur pleine largeur supérieur est destiné au NVIDIA Quantum InfiniBand 200 Gbit. Le plus grand des deux commutateurs inférieurs est l'Ethernet 25G et le petit module du milieu est destiné au module de gestion du châssis.

Supermicro X13 SuperBlade cassis arrière

Gestion et déploiement du châssis Supermicro X13 SuperBlade

L'intégration d'un module de gestion de châssis (CMM) dans le châssis SuperBlade X13 de Supermicro offre une gamme d'avantages qui s'étendent au-delà des lames individuelles pour englober l'ensemble du rack, augmentant ainsi l'efficacité globale et la facilité de gestion des opérations du centre de données. Le CMM sert de point de contrôle centralisé, rationalisant la gestion du système SuperBlade X13.

Gestion du châssis Supermicro X13 SuperBlade

Une interface unique pour toutes les fonctions du châssis est essentielle pour les plates-formes intégrées telles qu'un châssis lame. Même si la possibilité de redémarrer des lames individuelles peut être importante pour certains, de nombreuses autres fonctions jouent un rôle précieux dans les routines de gestion quotidiennes.

Le CMM de Supermicro offre un point d'atterrissage central pour surveiller le châssis, visualiser les lames installées et gérer les commutateurs intégrés installés à l'arrière du châssis. Cette gestion hors bande extrait également les adresses IP des appareils, de sorte qu'à partir de cet endroit central, vous pouvez facilement accéder à chaque appareil connecté.

La gestion de chaque lame installée est similaire à celle d'un serveur Supermicro autonome. Des activités telles que les mises à jour du BIOS sont effectuées via son BMC, comme c'est le cas dans un expérience précédente. Cette approche centralisée permet un déploiement rapide et des mises à jour cohérentes sur toutes les lames, garantissant que chaque composant fonctionne avec les derniers micrologiciels et paramètres. Une telle uniformité est essentielle pour maintenir la stabilité et les performances du système, en particulier dans les environnements informatiques denses où les disparités de configuration peuvent conduire à des inefficacités importantes.

Le rôle du CMM dans la gestion du SuperBlade X13 s'étend à la surveillance et au contrôle de l'état de santé de l'ensemble du rack. Il supervise la consommation d'énergie, le refroidissement, la mise en réseau et l'état du système, offrant ainsi une vue globale des performances du rack. Cette surveillance est cruciale pour identifier et résoudre les problèmes potentiels avant qu'ils ne s'aggravent, minimisant les temps d'arrêt et maintenant une efficacité opérationnelle optimale.

Le CMM, en plus de gérer les lames de serveur, gère également la gestion du réseau via la même interface unique. Cela permet aux utilisateurs d'accéder et de visualiser facilement les écrans de gestion des deux commutateurs connectés, avec leurs adresses IP respectives affichées. Le CMM peut également communiquer avec les systèmes voisins pour des déploiements plus importants, fournissant ainsi un package de gestion complet.

Essentiellement, le CMM transforme la gestion du SuperBlade X13 d'une série de tâches individuelles en un processus cohérent et rationalisé. Cela revient à disposer d'un centre de commande qui simplifie la gestion de chaque lame et améliore les performances et la fiabilité globales de l'ensemble du rack. Cette approche de la gestion des lames et des racks est utile aux équipes de gestion du matériel, en particulier dans les centres de données où l'évolutivité, la fiabilité et l'utilisation efficace du temps sont primordiales.

Supermicro SuperBlade SBI-411E-5G – Performances NVIDIA H100

Dans le domaine du calcul haute performance, le SuperBlade SBI-411E-5G, associé à un NVIDIA H100, est un outil polyvalent et puissant pour la formation distribuée et l'inférence mono-lame. Cette flexibilité est particulièrement évidente lorsque les exigences informatiques fluctuent considérablement, comme dans les centres de données gérant des charges de travail variables.

Supermicro X13 SuperBlade - GPU NVIDIA H100

Scénarios de formation distribués

Les nœuds SuperBlade H100 excellent dans la formation distribuée, un processus vital pour les modèles d'IA complexes. Imaginez un scénario dans lequel un modèle de réseau neuronal à grande échelle est formé sur un vaste ensemble de données. La formation du modèle est répartie sur plusieurs lames, chacune exploitant la puissance des GPU avancés du H100. Cette distribution accélère le processus de formation et permet de gérer des modèles plus volumineux et des ensembles de données peu pratiques sur des machines uniques.

Le 200G InfiniBand joue ici un rôle essentiel. Sa communication à large bande passante et à faible latence est essentielle pour la formation distribuée, où un échange de données rapide et efficace entre les lames est crucial. Cette connectivité garantit que les données et les paramètres d'apprentissage sont synchronisés de manière cohérente et rapide sur toutes les lames, minimisant ainsi les goulots d'étranglement souvent rencontrés dans le traitement de gros volumes de données.

Formation distribuée en laboratoire

La formation distribuée a révolutionné la façon dont nous abordons les tâches d’apprentissage automatique et d’apprentissage profond à grande échelle. Les données sont reines, et la capacité à traiter efficacement de grandes quantités de données d’entraînement constitue un goulot d’étranglement depuis un certain temps. C'est là que les bibliothèques open source et le matériel puissant, tel que le Supermicro SuperBlade X13 avec quatre GPU PCIe, changent la donne, en particulier lorsqu'ils sont connectés via un réseau InfiniBand 200G haut débit.

Les bibliothèques open source, telles que TensorFlow et PyTorch, sont devenues des incontournables de la communauté du machine learning, avec le soutien et la validation de tous les fabricants. Ils offrent des cadres robustes, flexibles et en constante évolution pour développer et faire évoluer des modèles d'apprentissage automatique. Les besoins informatiques peuvent être stupéfiants lors de la formation de modèles complexes, tels que ceux utilisés dans le traitement du langage naturel ou la vision par ordinateur. C'est là qu'intervient le SuperBlade X13.

Lame X13 compatible GPU

La plateforme SuperBlade X13 est bien connue pour ses capacités informatiques haute densité, ce qui en fait un excellent choix pour les environnements HPC. Utilisant les lames SBI-411E-5G double largeur et demi-hauteur équipées de GPU H100 PCIe, le SuperBlade X13 prend en charge jusqu'à 10 GPU avec refroidissement par air et jusqu'à 20 GPU avec refroidissement liquide par châssis pour gérer d'immenses tâches de traitement parallèle. . Il est important de noter que les lames peuvent être reconfigurées à tout moment, ce qui les rend extrêmement flexibles à mesure que les charges de travail d'IA d'une entreprise évoluent.

L'intégration d'InfiniBand dans le châssis, avec une latence extrêmement faible et un débit élevé, permet aux données et aux paramètres du modèle de circuler en permanence entre les nœuds. Ce réseau à haut débit réduit considérablement le temps de transfert des données, qui constitue souvent un goulot d'étranglement dans les systèmes distribués, en particulier lorsqu'il s'agit de jeux de données à grande échelle et d'architectures de modèles complexes.

L'intégration de bibliothèques open source pour une formation distribuée sur cette configuration impliquait plusieurs étapes clés. Tout d’abord, nous avons dû sélectionner des conteneurs et des bibliothèques optimisés pour utiliser pleinement les capacités du GPU. Cela consiste à utiliser des versions compatibles CUDA de ces bibliothèques, garantissant qu'elles peuvent exploiter directement la puissance de traitement du GPU. Deuxièmement, InfiniBand doit être exploité avec NCCL (NVIDIA Collective Communications Library), fournissant des routines de communication optimisées pour la communication collective multi-GPU/multi-nœuds.

En pratique, lors de la mise en place d'une tâche de formation distribuée sur cette plateforme, chaque nœud (en l'occurrence chaque SuperBlade) exécute une partie du modèle. Les paramètres du modèle sont synchronisés sur les nœuds en temps réel, facilités par la vitesse et la faible latence du réseau InfiniBand. Cette synchronisation est cruciale pour la convergence et la précision du modèle.

TensorRT et LLM

Le modèle TensorRT Large Language Model (LLM) de NVIDIA représente une avancée significative dans l'intelligence artificielle et l'apprentissage automatique. Conçu pour l'efficacité et la rapidité, TensorRT LLM est un composant essentiel de l'écosystème des systèmes de serveurs Blade, connu pour ses performances exceptionnelles dans le traitement de tâches d'IA complexes. Sa conception répond aux besoins des professionnels techniques et des décideurs informatiques, offrant une solution robuste pour répondre aux exigences informatiques exigeantes des centres de données modernes.

Le cadre technique du TensorRT LLM de NVIDIA est conçu pour exploiter tout le potentiel de l'IA et du deep learning. Il est conçu pour optimiser l'inférence des réseaux neuronaux, ce qui en fait un choix idéal pour les environnements informatiques hautes performances. Le TensorRT LLM atteint une efficacité remarquable grâce à sa capacité à convertir des modèles entraînés en moteurs d'exécution optimisés, réduisant considérablement la latence et augmentant le débit. Cette fonctionnalité profite principalement aux systèmes de serveurs Blade, où un traitement rapide des données et des temps de réponse minimaux sont cruciaux. De plus, sa compatibilité avec la vaste gamme de GPU NVIDIA améliore sa polyvalence, ce qui en fait une solution évolutive dans des contextes informatiques variés.

L'une des fonctionnalités remarquables du TensorRT LLM de NVIDIA est sa capacité de formation distribuée. Cet aspect est particulièrement crucial dans les environnements où les modèles d’apprentissage automatique à grande échelle constituent la norme. La formation distribuée permet à TensorRT LLM d'exploiter plusieurs systèmes, répartissant ainsi efficacement la charge de calcul. Cela conduit à une réduction significative du temps de formation pour les modèles complexes sans compromettre la précision ou les performances. La capacité d'effectuer une formation distribuée sur différents nœuds rend TensorRT LLM hautement adaptable aux infrastructures informatiques étendues, souvent trouvées dans les grandes organisations et les centres de recherche. De plus, cette approche distribuée facilite la gestion d’ensembles de données massifs, un défi courant dans les projets d’IA avancés, permettant ainsi le développement de modèles d’IA plus robustes et sophistiqués.

Les capacités d'optimisation et d'inférence hautes performances de TensorRT LLM sont parfaitement adaptées à la nature dense et interconnectée des serveurs Blade. En tirant parti de TensorRT LLM, les systèmes Blade peuvent exécuter des modèles d'IA complexes plus efficacement, ce qui entraîne des temps de traitement plus rapides et une latence réduite. Ceci est particulièrement critique dans les scénarios où l’analyse des données et la prise de décision en temps réel sont essentielles, comme la modélisation financière ou les diagnostics de soins de santé.

La combinaison du Supermicro SuperBlade avec les capacités de formation distribuées et l'adaptabilité de TensotRT LLM sur plusieurs systèmes augmente la valeur de l'actif pour les professionnels techniques et les décideurs informatiques. En tirant parti de cette puissante combinaison, les organisations peuvent gérer efficacement des projets d’IA à grande échelle, garantissant un traitement plus rapide, une latence réduite et des déploiements d’IA évolutifs. Pour faciliter cela, nous utilisons le réseau Quantum InfiniBand au sein du châssis.

Benchmark des performances d'inférence à lame unique avec MLPerf

L'architecture d'un processeur pour un GPU par nœud dans les lames GPU offre des avantages potentiels pour les charges de travail d'IA et d'analyse de données, en particulier pour les tâches d'inférence à lame unique. Cette conception offre un rapport équilibré de puissance de traitement, permettant une utilisation optimale des capacités du GPU.

Pour tester les performances de l'inférence à lame unique, nous avons exécuté l'inférence MLPerf 3.1, à la fois hors ligne et sur serveur. BERT (Bidirectionnel Encoder Representations from Transformers) est un modèle basé sur un transformateur principalement utilisé pour les tâches de traitement du langage naturel telles que la réponse aux questions, la compréhension du langage et la classification des phrases. ResNet-50 est un modèle de réseau neuronal convolutif (CNN) largement utilisé pour les tâches de classification d'images. Il s'agit d'une variante du modèle ResNet à 50 couches, connue pour son architecture profonde mais ses performances efficaces.

Inférence à nœud unique
ResNet-50 – Hors ligne : 46,326.6
ResNet-50 – Serveur : 47,717.4
BERT K99 – Hors ligne : 3,702.4
BERT K99 – Serveur : 4,564.11
  • Mode hors ligne : ce mode mesure les performances d'un système lorsque toutes les données sont disponibles pour un traitement simultané. Cela s’apparente au traitement par lots, dans lequel le système traite un grand ensemble de données en un seul lot. Ce mode est crucial pour les scénarios dans lesquels la latence n’est pas une préoccupation majeure, mais le débit et l’efficacité le sont.
  • Mode serveur : en revanche, le mode serveur évalue les performances du système dans un scénario imitant un environnement de serveur réel, dans lequel les requêtes arrivent une par une. Ce mode est sensible à la latence et mesure la rapidité avec laquelle le système peut répondre à chaque demande. C'est crucial pour les applications en temps réel où une réponse immédiate est nécessaire, comme dans les serveurs Web ou les applications interactives.

Dans les tâches d'inférence, le GPU est principalement responsable du gros travail de calcul. En l'associant à un processeur dédié, le système garantit que le GPU peut fonctionner efficacement sans être gêné par les ressources partagées du processeur ou de la plate-forme. Ceci est crucial dans les scénarios de traitement de données en temps réel comme l’analyse vidéo en direct ou la traduction linguistique à la volée.

Fait intéressant, nous avons observé que ce rapport CPU/GPU de 1:1 permet une plus grande prévisibilité des performances. Chaque nœud fonctionne indépendamment, garantissant des temps de traitement cohérents et réduisant la variabilité des tâches d'inférence. Cette prévisibilité est vitale dans les environnements où le temps de réponse est critique.

Dans l’ensemble, la configuration d’un processeur sur un GPU du SuperBlade H100 maximise l’efficacité des deux composants. Cela garantit que chaque nœud offre des performances optimales pour les tâches d'inférence, chaque nœud exploitant des modèles et des processus indépendants. Cette architecture améliore la capacité du système à gérer les demandes de traitement de données en temps réel de manière efficace et fiable.

Gestion adaptative de la charge de travail

Après avoir examiné toutes les informations, il est évident que le système SuperBlade est hautement adaptable. Pendant les heures de pointe, lorsque la demande d'inférence est élevée, davantage de lames compatibles GPU peuvent être allouées de manière dynamique pour gérer ces tâches, garantissant ainsi une gestion efficace des requêtes en temps réel. À l’inverse, pendant les heures creuses, ces ressources pourraient être réaffectées pour se concentrer sur le réglage fin des modèles d’IA ou sur le traitement de tâches moins urgentes. Cette flexibilité permet une utilisation optimale des ressources, garantissant que le système SuperBlade est robuste et efficace dans la gestion de différentes charges de calcul.

Avantages de la 200G NVIDIA quantique InfiniBand dans ces scénarios

L'inclusion de 200G InfiniBand dans le système SuperBlade H100 améliore ces scénarios en fournissant l'épine dorsale du transfert de données à haut débit. La formation distribuée permet une synchronisation plus rapide des données entre les lames, ce qui est essentiel pour maintenir la cohérence et la rapidité du processus de formation. L'inférence à lame unique garantit que de grands ensembles de données peuvent être rapidement déplacés vers la lame pour traitement, réduisant ainsi la latence et augmentant le débit.

Quoi de neuf avec Quantum InfiniBand ?

InfiniBand, pierre angulaire du calcul haute performance, est une technologie d'interconnexion à haut débit initialement développée pour répondre aux demandes toujours croissantes de transfert de données et de communication au sein des clusters de supercalcul. Cette solution réseau hautement spécialisée a évolué au fil des années, offrant une latence extrêmement faible et une bande passante élevée, ce qui la rend idéale pour connecter des serveurs, des systèmes de stockage et d'autres composants dans des environnements HPC.

Les lames Supermicro X13 qui nous ont été expédiées étaient équipées d'un réseau InfiniBand 200G et d'un Ethernet 25G. Cela s’est avéré particulièrement utile lorsque l’on travaillait sur une formation distribuée et d’autres tâches de latence et gourmandes en données. Après quelques périodes de formation très variables (et longues) mentionnées ci-dessus, nous avons déterminé que nous avions besoin d'une métrique différente pour fournir les métriques de test réelles du réseau InfiniBand cachées dans les innombrables broches du châssis lame. Compte tenu de l'extrême variabilité du réglage fin d'une exécution à l'autre, il serait irresponsable d'essayer de quantifier l'impact, ou l'absence d'impact, de l'utilisation d'un système multi-nœuds comme celui-ci pour ces tâches. Les résultats étaient plus que surprenants.

Entrer NVIDIA ClusterKit. NVIDIA ClusterKit est une boîte à outils conçue pour tester tout le potentiel des clusters GPU multi-nœuds, offrant aux praticiens de l'IA et du HPC une suite intéressante d'outils pour évaluer les performances, l'efficacité et l'évolutivité de leurs charges de travail.

Nous nous sommes concentrés sur deux outils clés de ClusterKit :

  • Test de bande passante : la bande passante est une mesure critique en HPC, reflétant la quantité de données pouvant être transmises sur le réseau dans un temps donné. Nous avons utilisé NVIDIA ClusterKit pour mesurer la bande passante bidirectionnelle (duplex) entre les nœuds dans la configuration Supermicro SuperBlade. Les mesures duplex sont essentielles car elles reflètent le scénario réel dans lequel les données circulent simultanément dans les deux sens.
  • Tests de latence : la latence, ou le temps nécessaire à un message pour voyager d'un point à un autre du réseau, est une autre mesure de performance cruciale. Une faible latence est importante dans les applications HPC étroitement couplées. La capacité de NVIDIA ClusterKit à mesurer avec précision les latences duplex a fourni des informations précieuses sur la réactivité du réseau InfiniBand sur les SuperBlades.

Résultats de l'analyse comparative des GPU SuperBlade InfiniBand et H100 avec ClusterKit

En entrant dans cette section, il est important de comprendre que chaque nœud est identifié par une balise unique (par exemple, smci-a7, smci-a1, etc.). Les désignations -1, -3, -5 et -7 correspondent au nom d'hôte, qui reflète la position physique de la lame dans le châssis.

Le premier test s'est concentré sur la mesure de la bande passante bidirectionnelle entre les différents nœuds du cluster. Le test impliquait une taille de message de 8,388,608 16 XNUMX octets, itéré XNUMX fois.

Tests directs GPU

Tout d’abord, nous examinons les tests GPU Direct. Cela indique le débit maximum absolu de la plate-forme lame, en utilisant tous les derniers et meilleurs SDK et boîtes à outils disponibles au moment de la rédaction. Il est important de noter que le test rapporte la bande passante en duplex, ce qui signifie que la bande passante est totale dans les deux sens. La direction unique serait d'environ la moitié. Le point clé à retenir est que le facteur limitant pour la bande passante est le 200G InfiniBand, mais comme nous le verrons plus tard, cela n’est pas vraiment préoccupant.

Test Infiniband ClusterKit sur les Supermicro SuperBlades avec Divyansh Jain

La matrice ci-dessous montre la bande passante bidirectionnelle utilisant GPUDirect.

Matrice de bande passante Mo/s
Rang/Nœud smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0.0 49,221.6 49,193.6 49,223.6
1 (smci-a1) 49,221.6 0.0 49,219.5 49,142.7
2 (smci-a3) 49,193.6 49,219.5 0.0 49,219.7
3 (smci-a5) 49,223.6 49,142.7 49,219.7 0.0
Latence uSec

Ensuite, il y a eu des résultats de tests de latence remarquables, mesurés en microsecondes. Les tests GPU Direct étaient tout aussi efficaces que d'avoir plusieurs GPU locaux sur un hôte.

Rang smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0.00 1.38 1.24 1.38
1 (smci-a1) 1.38 0.00 1.25 1.36
2 (smci-a3) 1.24 1.25 0.00 1.32
3 (smci-a5) 1.38 1.36 1.32 0.00

Tests des voisins GPU

Passons aux tests de voisinage du GPU. Encore une fois, la bande passante est signalée en duplex, ce qui signifie que la bande passante est totale dans les deux sens. La direction unique serait d'environ la moitié. Cette matrice ci-dessous montre la bande passante bidirectionnelle entre les cartes H100 dans chacun des quatre nœuds. Cela n'utilise pas l'accélération des bibliothèques GPUDirect. Les désignations 1, 3, 5 et 7 correspondent au nom d'hôte, qui reflète la position physique de la lame dans le châssis.

Commutateur Supermicro X13 SuperBlade InfiniBand

Commutateur InfiniBand HRD SBS-IBS-H4020

Bande passante du voisin GPU (Mo/s)

Le test « GPU Neighbour Bandwidth » mesure le taux de transfert de données entre les GPU voisins au sein du même système ou nœud. Cette métrique est cruciale pour les applications nécessitant des échanges de données fréquents entre GPU proches, telles que les tâches de traitement parallèle multi-GPU. Plus la bande passante est élevée, plus le transfert de données est rapide, ce qui conduit à des performances potentiellement améliorées dans les applications gourmandes en GPU.

GPU Bande passante (Mo/s)
smci-a7 avec smci-a1 30,653.9
smci-a3 avec smci-a5 30,866.7
Moyen 30,760.3
Bande passante de la mémoire GPU (Mo/s)

Le test « GPU Memory Bandwidth » évalue la vitesse à laquelle les données peuvent être lues ou stockées dans la mémoire d'un GPU par le GPU lui-même. Cette bande passante est un aspect critique des performances, en particulier pour les applications qui impliquent de grands ensembles de données ou nécessitent un débit élevé pour des tâches telles que le traitement d'images, les simulations ou l'apprentissage profond. Une bande passante mémoire plus élevée indique une meilleure capacité d'un GPU à gérer efficacement de gros volumes de données. Ce test nous montre que les X13 Blades n'ont aucun problème à supporter les GPU H100.

GPU Bande passante
smci-a7-GPU0 55,546.3
smci-a1-GPU0 55,544.9
smci-a3-GPU0 55,525.5
smci-a5-GPU0 55,549.8
Moyen 55,541.6
Bande passante GPU à GPU (Mo/s)

Ce test mesure la bande passante bidirectionnelle entre différents GPU. Il est essentiel pour les tâches impliquant des calculs complexes répartis sur plusieurs GPU, où la vitesse de transfert des données entre les GPU peut avoir un impact significatif sur le temps de traitement global. Une bande passante élevée GPU à GPU est bénéfique pour accélérer les flux de travail multi-GPU et les tâches informatiques parallèles.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7-GPU0 0.0 30,719.8 30,817.7 30,823.8
smci-a1-GPU0 30,719.8 0.0 30,710.0 30,670.9
smci-a3-GPU0 30,817.7 30,710.0 0.0 30,835.1
smci-a5-GPU0 30,823.8 30,670.9 30,835.1 0.0
Moyen 30,762.9
GPU0 vers la bande passante de l'hôte distant (Mo/s)

Le test « GPU0 to Remote Host Bandwidth » quantifie le taux de transfert de données entre le GPU principal (GPU0) et un système hôte distant. Ceci est vital dans les environnements informatiques distribués où les données doivent être fréquemment déplacées entre le GPU principal et d'autres parties d'un système en réseau, affectant des tâches telles que la formation au deep learning distribué ou l'analyse de données sur des serveurs distants.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0.0 30,804.3 30,753.5 30,768.1
smci-a1 30,804.3 0.0 30,732.9 30,679.7
smci-a3 30,753.5 30,732.9 0.0 30,970.8
smci-a5 30,768.1 30,679.7 30,970.8 0.0
Latence du voisin GPU (µsec)

Le test « GPU Neighbour Latency » mesure le temps nécessaire à une petite quantité de données pour voyager d'un GPU à son GPU voisin. Une latence plus faible est souhaitable, en particulier dans les applications nécessitant un traitement de données en temps réel ou une communication à haut débit entre les GPU, comme le rendu en temps réel ou les simulations scientifiques complexes.

GPU Latence
smci-a7 avec smci-a1 11.03
smci-a3 avec smci-a5 11.01
Latence GPU vers hôte distant (µsec)

Le test « GPU0 vers la latence de l'hôte distant » évalue le délai de communication des données entre le GPU principal (GPU0) et un système hôte distant. Cette latence est un facteur critique dans les environnements informatiques distribués, influençant la réactivité et l'efficacité des applications qui reposent sur l'interaction entre un GPU et des systèmes distants, comme les jeux dans le cloud ou le traitement de données à distance.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0.00 3.35 3.36 3.33
smci-a1 3.35 0.00 3.41 3.37
smci-a3 3.36 3.41 0.00 3.37
smci-a5 3.33 3.37 3.37 0.00
Moyen 3.37

Les tests NVIDIA ClusterKit ont révélé des mesures de performances impressionnantes pour le réseau InfiniBand sur les Supermicro SuperBlades. Les tests de bande passante duplex ont révélé des taux de transfert de données élevés, indiquant une utilisation efficace des capacités d'InfiniBand. De même, les tests de latence ont montré des retards minimes, soulignant l'adéquation du réseau aux tâches HPC exigeantes. Cela signifie que cette plate-forme fonctionne à égalité avec les systèmes autonomes et offre une densité de calcul et de mise en réseau beaucoup plus élevée, le tout dans une solution unifiée.

Test de serveur GPU autonome

Ensuite, nous avons déplacé les 4x NVIDIA H100 dans un Serveur GPU Supermicro 4U AMD EPYC qui peut prendre en charge les 4 en même temps, nous avons cherché à tester le GPU par rapport au GPU et à la latence. Il est essentiel de comprendre que nous essayons simplement de comprendre le profil de performances des cartes de ce serveur, sans les communications entre lames. Bien que ce serveur 4U soit flexible en termes de cartes qu'il peut prendre en charge, il n'a pas la composabilité extrême qu'offre le châssis Supermicro X13 SuperBlade. Bien entendu, Supermicro, comme d'habitude, propose une solution pour chaque application, y compris les GPU à socket refroidis par liquide.

Examinons d’abord la bande passante peer-to-peer des 4 GPU sur une seule plate-forme.

 Bande passante d'écriture (Go/s) – Unidirectionnelle

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 54.29 39.50 40.51
GPU1 54.60 0.00 40.55 40.22
GPU2 40.60 38.73 0.00 54.03
GPU3 40.99 40.33 53.79 0.00

Bande passante de lecture (Go/s) – Unidirectionnelle

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 53.17 39.23 35.69
GPU1 53.70 0.00 36.96 41.02
GPU2 36.28 39.88 0.00 53.32
GPU3 40.40 37.08 53.68 0.00

Il est important de noter ici que les GPU GPU0 et GPU1 se trouvent sur un nœud NUMA et que GPU2 et GPU3 sont sur un autre nœud NUMA. Vous pouvez clairement voir ici l'impact du passage par le nœud NUMA sur les performances.

Copy Engine (CE) – Latence d'écriture (nous)

Enfin, mesurer la latence GPU par GPU.

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 1.67 1.64 1.64
GPU1 1.57 0.00 1.61 1.61
GPU2 1.66 1.69 0.00 1.65
GPU3 1.65 1.66 1.61 0.00

Comme prévu, le déplacement de tous les GPU sur une seule plate-forme nous permet de multiplier par deux la bande passante par rapport aux connexions IB 2G du Blade. La bande passante ici peut être un facteur à prendre en compte pour l'application, mais lorsqu'on parle de chiffres de latence, travaillant de l'ordre de la microseconde, il n'y a pas de changement massif à signaler, passant d'une moyenne de 200us GPU à GPU alors que le tout dans un seul châssis, à seulement 1.6us dans les lames lorsqu'il faut traverser le bus PCIe, le commutateur IB et le retour au GPU est remarquable. Mais c'est ne sauraient  l'histoire complète.

Conclusion

Le Supermicro X13 SuperBlade, avec ses processeurs Emerald Rapids et ses GPU NVIDIA H100, est une évolution bienvenue de ce que peut être la lame. Ses capacités s'étendent à diverses tâches gourmandes en calcul, ce qui en fait une solution polyvalente et robuste pour des secteurs allant de l'analyse de données à l'IA et au cloud computing. Alors que la demande en informatique haute performance continue de croître, le X13 est prêt à relever ces défis, démontrant l'engagement de Supermicro en faveur de l'innovation et de l'excellence en matière de technologie de serveur.

Tout bien considéré depuis les tests, nous sommes particulièrement intéressés par cette plateforme en raison de sa nature unique et hautement adaptable dans une perspective holistique. Il est important de contextualiser l'application de la plateforme.

Imaginez un scénario dans un département de recherche où vous disposez du système Supermicro X13 Blade dans votre rack pour toute votre puissance de calcul élevée. Vous pouvez utiliser l'infrastructure de gestion centralisée intégrée à la plateforme non seulement pour contrôler les lames et la plateforme elle-même, mais également comme plateforme de contrôle, de mise en réseau et de gestion d'autres équipements. En connectant un serveur de stockage suffisamment puissant aux SuperBlade pour alimenter les GPU gourmands en données, vous pouvez ingérer à la vitesse de ligne tous les bits dans vos modèles. Dans ce scénario fictif, nous pouvons faire en sorte que tous nos GPU soient utilisés quotidiennement par différents chercheurs, puis, le moment venu, relier toutes les lames via InfiniBand et les faire fonctionner ensemble.

Les tests de bande passante de la relation un-à-un entre le CPU et le GPU ont également montré que, avec un châssis lame entièrement chargé, vous pouvez surpasser un serveur unique doté de cartes GPU d'extension avec le système lame. Avec un flux de travail de formation distribué correctement conçu, vous pourriez constater des performances essentiellement aussi bonnes, voire meilleures, que si tous les GPU étaient réunis dans un seul nœud, mais vous obtenez désormais une plate-forme qui peut facilement effectuer une double tâche, réduisant de moitié le coût initial du GPU. . Grâce à la prise en charge des derniers processeurs, une fois implémentés, nous sommes impatients de passer du HDR InfiniBand au NDR, car cela placerait les SuperBlades au-delà des performances que vous pourriez obtenir dans une plate-forme de serveur GPU unique.

Le châssis et les lames GPU Supermicro X13 SuperBlade constituent un choix hautement adaptable et robuste pour ceux qui ont des besoins en IA évolutifs ou changeants régulièrement. Au cours de notre longue période d'utilisation de la plate-forme, nous avons rencontré des besoins de modifications de DRAM, de CPU et de GPU, ou comme on l'appelle dans le monde de l'IA, « un autre jour », le tout géré facilement par la plate-forme. Dans l’ensemble, la plate-forme est solide et se présente comme un appareil intrigant et puissant pour l’espace de l’IA sans laisser grand-chose d’autre à lui demander. Compte tenu du prix des systèmes concurrents, si vous pouvez profiter de la flexibilité d’une lame, celle-ci est presque imbattable.

Supermicro X13 SuperBlade 

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS