Accueil Entreprise NVIDIA DGX GH200 : un changeur de jeu pour l'IA générative

NVIDIA DGX GH200 : un changeur de jeu pour l'IA générative

by Jordan Ranous

Dans le paysage ultra-rapide et en constante évolution de l'intelligence artificielle (IA), le NVIDIA DGX GH200 apparaît comme un phare de l'innovation. Ce système puissant, conçu pour les charges de travail d'IA les plus exigeantes, est une solution complète destinée à révolutionner la façon dont les entreprises abordent l'IA générative. NVIDIA a de nouveaux détails montrant comment le GH200 se combine et offre un aperçu des performances de l'IA avec cette technologie GPU de dernière génération.

Dans le paysage ultra-rapide et en constante évolution de l'intelligence artificielle (IA), le NVIDIA DGX GH200 apparaît comme un phare de l'innovation. Ce système puissant, conçu pour les charges de travail d'IA les plus exigeantes, est une solution complète destinée à révolutionner la façon dont les entreprises abordent l'IA générative. NVIDIA a de nouveaux détails montrant comment le GH200 se combine et offre un aperçu des performances de l'IA avec cette technologie GPU de dernière génération.

Baie NVIDIA DGX GH200

NVIDIA DGX GH200 : une solution complète

Le DGX GH200 n'est pas seulement un élément de matériel de rack sophistiqué ; c'est une solution complète qui combine le calcul haute performance (HPC) avec l'IA. Il est conçu pour gérer les charges de travail d'IA les plus complexes, offrant un niveau de performances vraiment inégalé.

Le DGX GH200 rassemble une pile matérielle complète, y compris la super puce NVIDIA GH200 Grace Hopper, NVIDIA NVLink-C2C, le système de commutation NVIDIA NVLink et NVIDIA Quantum-2 InfiniBand, en un seul système. NVIDIA soutient tout cela avec une pile logicielle optimisée spécialement conçue pour accélérer le développement de modèles.

Spécifications de la superpuce NVIDIA GH200 Grace Hopper
Spécification Détails
GPU Hopper 96 Go HBM3, 4 To/s
Processeur 72 bras de base Neoverse V2
Mémoire CPU Jusqu'à 480 Go LPDDR5 jusqu'à 500 Go/s, 4 fois plus économe en énergie que DDR5
CPU à GPU Liaison cohérente bidirectionnelle NVLink-C2C 900 Go/s, 5 fois plus économe en énergie que PCIe Gen5
GPU à GPU NVLink 900 Go/s bidirectionnel
E/S à grande vitesse 4x PCIe Gen5 x16 jusqu'à 512 Go/s
TDP Configurable de 450W à 1000W

Mémoire GPU étendue

La puce NVIDIA Grace Hopper, équipée de sa fonction de mémoire GPU étendue (EGM), est conçue pour gérer les applications avec des empreintes mémoire massives, supérieures à la capacité de ses propres sous-systèmes de mémoire HBM3 et LPDDR5X. Cette fonctionnalité permet aux GPU d'accéder à jusqu'à 144 To de mémoire à partir de tous les CPU et GPU du système, avec des chargements de données, des magasins et des opérations atomiques possibles à des vitesses LPDDR5X. L'EGM peut être utilisé avec les bibliothèques MAGNUM IO standard et est accessible par le CPU et d'autres GPU via les connexions NVIDIA NVLink et NVLink-C2C.

Accès à la mémoire DGX GH200 NVLink sur les superpuces Grace Hopper connectées

Accès à la mémoire NVLink sur les superpuces Grace Hopper connectées

NVIDIA affirme que la fonction Extended GPU Memory (EGM) de la puce NVIDIA Grace Hopper Superchip améliore considérablement la formation des grands modèles de langage (LLM) en fournissant une vaste capacité de mémoire. En effet, les LLM nécessitent généralement d'énormes quantités de mémoire pour stocker leurs paramètres, leurs calculs et gérer les ensembles de données de formation.

Ayant la possibilité d'accéder à jusqu'à 144 To de mémoire à partir de tous les CPU et GPU du système, les modèles peuvent être entraînés plus efficacement. Une grande capacité de mémoire devrait conduire à des performances plus élevées, à des modèles plus complexes et à la capacité de travailler avec des ensembles de données plus volumineux et plus détaillés, améliorant ainsi potentiellement la précision et l'utilité de ces modèles.

Système de commutation NVLink

Alors que les exigences des grands modèles de langage (LLM) continuent de repousser les limites de la gestion de réseau, le système de commutation NVLink de NVIDIA reste une solution robuste. Exploitant la puissance de la technologie NVLink de quatrième génération et de l'architecture NVSwitch de troisième génération, ce système offre une connectivité à large bande passante et à faible latence à un impressionnant 256 NVIDIA Grace Hopper Superchips au sein du système DGX GH200. Le résultat est une bande passante stupéfiante de 25.6 Tbps en duplex intégral, marquant un saut substantiel dans les vitesses de transfert de données.

Supercalculateur NVSwitch DGX GH200 utilisant la technologie NVLink de quatrième génération Présentation logique

Présentation de la logique NVLink du superordinateur DGX GH200 NVSwitch 4e génération

Dans le système DGX GH200, chaque GPU est essentiellement un voisin curieux, capable de pénétrer dans la mémoire HBM3 et LPDDR5X de ses pairs sur le réseau NVLink. Couplé aux bibliothèques d'accélération NVIDIA Magnum IO, ce « voisinage fouineur » optimise les communications GPU, évolue efficacement et double la bande passante réseau effective. Ainsi, alors que votre formation LLM est suralimentée et que les frais généraux de communication augmentent, les opérations d'IA reçoivent un coup de pouce.

Le système de commutation NVIDIA NVLink du DGX GH200 est capable d'améliorer considérablement la formation de modèles tels que les LLM en facilitant une connectivité à large bande passante et à faible latence entre un grand nombre de GPU. Cela conduit à un partage de données plus rapide et plus efficace entre les GPU, améliorant ainsi la vitesse et l'efficacité de l'entraînement du modèle. De plus, la capacité de chaque GPU à accéder à la mémoire homologue à partir d'autres Superchips sur le réseau NVLink augmente la mémoire disponible, ce qui est essentiel pour les LLM à grands paramètres.

Alors que les performances impressionnantes des Grace Hopper Superchips changent incontestablement la donne dans le domaine des calculs d'IA, la véritable magie de ce système se produit dans le NVLink, où la connectivité à large bande passante et à faible latence sur de nombreux GPU nécessite le partage des données et l'efficacité. à un niveau entièrement nouveau.

Architecture du système DGX GH200

L'architecture du supercalculateur DGX GH200 est complexe, mais méticuleusement conçue. Composé de 256 plateaux de calcul GH200 Grace Hopper et d'un système de commutation NVLink qui forme un gros arbre NVLink à deux niveaux. Chaque plateau de calcul abrite une superpuce GH200 Grace Hopper, des composants réseau, un système de gestion/BMC et des SSD pour le stockage des données et l'exécution du système d'exploitation.

Topologie DGX Gh200 NVLink dans un châssis Superchip à 8 GraceHopper

Topologie NVLink dans un châssis de superpuce à 8 GraceHopper

Spécifications du plateau de calcul NVIDIA Grace Hopper
Catégories Détails
CPU / GPU 1x puce NVIDIA Grace Hopper avec NVLink-C2C
GPU/GPU 18 ports NVLink de quatrième génération
Networking 1x NVIDIA ConnectX-7 avec OSFP :
> Réseau informatique NDR400 InfiniBand
1x NVIDIA BlueField-3 double port avec 2x QSFP112 ou 1x NVIDIA ConnectX-7 double port avec 2x QSFP112 :
> Réseau Ethernet intrabande 200 GbE
> Réseau de stockage NDR200 IB
Réseau hors bande :
> 1GbE RJ45
Rangements Disque de données : 2x 4 To (SSD U.2 NVMe) SW RAID 0
Disque du système d'exploitation : 2x 2 To (SSD M.2 NVMe) SW RAID 1

Dans cette configuration, huit plateaux de calcul sont liés à trois plateaux NVLink NVSwitch de premier niveau pour établir un seul châssis à 8 GPU. Chaque plateau de commutateur NVLink possède deux ASIC NVSwitch qui se connectent aux plateaux de calcul via une cartouche de câble aveugle personnalisée et aux commutateurs NVLink de second niveau via des câbles LinkX.

Le système résultant comprend 36 commutateurs NVLink de second niveau qui connectent 32 châssis pour former le supercalculateur NVIDIA DGX GH200 complet. Pour plus d'informations, reportez-vous au tableau 2 pour les spécifications du plateau de calcul avec Grace Hopper Superchip, et au tableau 3 pour les spécifications du commutateur NVLink.

Topologie DGX GH200 NVLink

Topologie DGX GH200 NVLink

Architecture réseau du DGX GH200

Le système NVIDIA DGX GH200 intègre quatre architectures réseau sophistiquées pour fournir des solutions de calcul et de stockage de pointe. Premièrement, une structure Compute InfiniBand, construite à partir de commutateurs NVIDIA ConnectX-7 et Quantum-2, forme une structure InfiniBand NDR400 entièrement optimisée pour les rails, permettant une connectivité transparente entre plusieurs unités DGX GH200.

Deuxièmement, la matrice de stockage, pilotée par l'unité de traitement de données (DPU) NVIDIA BlueField-3, offre un stockage hautes performances via un port QSFP112. Cela établit un réseau de stockage dédié et personnalisable qui prévient habilement la congestion du trafic.

La structure de gestion intrabande sert de troisième architecture, connectant tous les services de gestion du système et facilitant l'accès aux pools de stockage, aux services intégrés au système tels que Slurm et Kubernetes, et aux services externes tels que NVIDIA GPU Cloud.

Enfin, la structure de gestion hors bande, fonctionnant à 1GbE, supervise la gestion hors bande essentielle des superpuces Grace Hopper, du DPU BlueField-3 et des commutateurs NVLink via le contrôleur de gestion de la carte de base (BMC), optimisant les opérations et empêchant conflits avec d'autres services.

Libérer la puissance de l'IA - Pile logicielle NVIDIA DGX GH200

Le DGX GH200 a toute la puissance brute que les développeurs pourraient souhaiter ; c'est bien plus qu'un simple super-ordinateur sophistiqué. Il s'agit d'exploiter ce pouvoir pour faire avancer l'IA. Sans aucun doute, la pile logicielle fournie avec le DGX GH200 est l'une de ses caractéristiques les plus remarquables.

Cette solution complète comprend plusieurs SDK optimisés, des bibliothèques et des outils conçus pour exploiter pleinement les capacités du matériel, garantissant une mise à l'échelle efficace des applications et des performances améliorées. Cependant, l'étendue et la profondeur de la pile logicielle du DGX GH200 méritent plus qu'une mention en passant, assurez-vous de vérifier Livre blanc de NVIDIA sur le sujet pour une plongée approfondie dans la pile logicielle.

Exigences de stockage du DGX GH200

Pour tirer pleinement parti des capacités du système DGX GH200, il est crucial de l'associer à un système de stockage équilibré et performant. Chaque système GH200 a la capacité de lire ou d'écrire des données à des vitesses allant jusqu'à 25 Go/s sur l'interface NDR200. Pour une configuration 256 Grace Hopper DGX GH200, NVIDIA suggère une performance de stockage agrégée de 450 Go/s pour maximiser le débit de lecture.

La nécessité d'alimenter les projets d'IA et les GPU sous-jacents avec un stockage approprié est la discussion la plus populaire sur le circuit des salons professionnels de l'été. Littéralement, chaque émission à laquelle nous avons assisté comporte une partie de leur discours d'ouverture consacré aux flux de travail et au stockage de l'IA. Il reste à voir, cependant, dans quelle mesure cette discussion ne fait que repositionner les produits de stockage existants et dans quelle mesure elle conduit à des améliorations significatives pour le stockage de l'IA. Pour le moment, il est trop tôt pour le dire, mais nous entendons de nombreux grondements de la part des fournisseurs de stockage qui pourraient entraîner des changements significatifs pour les charges de travail d'IA.

Un obstacle sauté, plus à suivre

Alors que le DGX GH200 rationalise l'aspect de la conception matérielle du développement de l'IA, il est important de reconnaître que dans le domaine de l'IA générative, il existe d'autres défis considérables ; la génération de données d'entraînement.

Le développement d'un modèle d'IA générative nécessite un immense volume de données de haute qualité. Mais les données, sous leur forme brute, ne sont pas immédiatement utilisables. Il nécessite des efforts considérables de collecte, de nettoyage et d'étiquetage pour le rendre adapté à la formation de modèles d'IA.

La collecte de données est la première étape, et elle implique de rechercher et d'accumuler de grandes quantités d'informations pertinentes, ce qui peut souvent prendre du temps et être coûteux. Vient ensuite le processus de nettoyage des données, qui nécessite une attention méticuleuse aux détails pour identifier et corriger les erreurs, gérer les entrées manquantes et éliminer toutes les données non pertinentes ou redondantes. Enfin, la tâche d'étiquetage des données, étape essentielle de l'apprentissage supervisé, consiste à classer chaque donnée pour que l'IA puisse la comprendre et en tirer des enseignements.

La qualité des données de formation est primordiale. Des données sales, de mauvaise qualité ou biaisées peuvent conduire à des prédictions inexactes et à une prise de décision erronée par l'IA. Il y a toujours un besoin d'expertise humaine et un effort considérable est nécessaire pour s'assurer que les données utilisées dans la formation sont à la fois abondantes et de la plus haute qualité.

Ces processus ne sont pas triviaux, nécessitant des ressources importantes, à la fois humaines et en capital, y compris une connaissance spécialisée des données de formation, soulignant la complexité du développement de l'IA au-delà du matériel. Certains de ces problèmes sont résolus par des projets tels que Garde-corps NeMo qui est conçu pour garder l'IA générative précise et sûre.

Réflexions de clôture

Le NVIDIA DGX GH200 est une solution complète positionnée pour redéfinir le paysage de l'IA. Avec ses performances inégalées et ses capacités avancées, c'est un jeu qui change la donne pour conduire l'avenir de l'IA. Que vous soyez un chercheur en IA cherchant à repousser les limites de ce qui est possible ou une entreprise cherchant à tirer parti de la puissance de l'IA, le DGX GH200 est un outil qui peut vous aider à atteindre vos objectifs. Il sera intéressant d'observer comment la génération de données de formation est traitée à mesure que la puissance de calcul brute se généralise. Cet aspect est souvent négligé dans les discussions sur les versions matérielles.

Tout bien considéré, il est important de reconnaître le coût élevé du système DGX GH200. Le DGX GH200 n'est pas bon marché et son prix élevé le place carrément dans le domaine des plus grandes entreprises et des sociétés d'IA les mieux financées (NVIDIA, frappez-moi, j'en veux un), mais pour les entités qui peuvent se permettre En effet, le DGX GH200 représente un investissement révolutionnaire, qui a le potentiel de redéfinir les frontières du développement et de l'application de l'IA.

À mesure que de plus en plus de grandes entreprises adoptent cette technologie et commencent à créer et à déployer des solutions d'IA avancées, cela pourrait conduire à une démocratisation plus large de la technologie d'IA. Espérons que les innovations se traduiront par des solutions plus rentables, rendant l'IA plus accessible aux petites entreprises. L'accès basé sur le cloud à la puissance de calcul de type DGX GH200 est de plus en plus disponible, permettant aux petites entreprises d'exploiter ses capacités sur une base de paiement à l'utilisation. Bien que le coût initial puisse être élevé, l'influence à long terme du DGX GH200 pourrait se répercuter sur l'industrie, contribuant à uniformiser les règles du jeu pour les entreprises de toutes tailles.

Livre blanc GH200

Plate-forme NVIDIA GH200

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS