NVIDIA GTC 2024 est là ; de retour en personne pour la première fois depuis de nombreuses années. Jordan est présent à l'événement en direct et apporte toutes les dernières nouvelles et analyses sur le principal événement de l'IA.
La GPU Technology Conference (GTC) de NVIDIA est de retour en personne après plusieurs années en tant qu'événement uniquement virtuel. Il s'agit d'un événement fantastique pour les innovateurs, les chercheurs, les scientifiques et les passionnés de technologie, qui souhaitent découvrir les dernières technologies du géant de la technologie. Le NVIDIA GTC 2024 de cette année, très attendu dans la communauté technologique, présente les dernières avancées en matière d'IA, d'apprentissage profond, de véhicules autonomes et de la nouvelle architecture Blackwell.
Voici les points saillants du discours d'ouverture du PDG de NVIDIA, Jensen Huang, lundi. Il entourait la nouvelle architecture Blackwell de NVIDIA, la mise en réseau, les progrès de l'informatique quantique et les mises à jour de la pile logicielle.
NVIDIA Blackwell
Six technologies révolutionnaires prêtes à redéfinir le calcul accéléré sont au cœur de l'innovation de Blackwell. De l’amélioration du traitement des données à la révolution de la conception de médicaments et au-delà, NVIDIA établit une nouvelle norme. Des adoptants de premier plan comme Amazon et Microsoft font déjà la queue en prévision du potentiel de transformation de Blackwell.
Zoom sur la merveille d'ingénierie que NVIDIA a accomplie. Les GPU Blackwell contiennent 208 milliards de transistors répartis sur deux puces, rendus possibles par l'exploitation d'un processus TSMC 4NP à limite de deux réticules. Cette approche repousse les limites de la fabrication de semi-conducteurs et introduit une nouvelle façon de connecter des puces avec une interface flamboyante de 10 To/s. Cette évolution vers des conceptions de chipsets reflète l'ambition de NVIDIA de repousser les limites traditionnelles.
Spécification | H100 | B100 | B200 |
Mémoire max | 80GB HBM3 | 192 Go HBM3e | 192 Go HBM3e |
Bande passante mémoire | 3.35 To / s | 8 To / s | 8 To / s |
FP4 | - | 14hXNUMX FPLOPS | 18 PFlops |
FP6 | - | 7hXNUMX FPLOPS | 9hXNUMX FPLOPS |
FP8/INT8 | 3.958 PFLOPS/POPS | 7 PFLOPS/POPS | 9 PFLOPS/POPS |
FP16/BF16 | 1979 TFLOPS | 3.5hXNUMX FPLOPS | 4.5hXNUMX FPLOPS |
TF32 | 989 TFLOPS | 1.8hXNUMX FPLOPS | 2.2hXNUMX FPLOPS |
FP64 | 67 TFLOPS | 30 TFLOPS | 40 TFLOPS |
Consommation maximale | 700W | 700W | 1000W |
Remarque : Tous les nombres ici représentent les performances pour les calculs matriciels clairsemés.
Il ne s’agit pas seulement d’emballer davantage de transistors. L'introduction des capacités de calcul FP4 et FP6 apporte un nouveau niveau de formation efficace des modèles, bien qu'avec un léger compromis dans les performances du modèle. Ce compromis est un aspect nuancé de la plateforme, reflétant un équilibre complexe entre efficacité et précision.
Le moteur de transformateur de deuxième génération de Blackwell permet une avancée majeure en termes de capacités de calcul, de bande passante et de taille de modèle lors de l'utilisation de FP4, apportant des améliorations vitales pour l'avenir du développement de l'IA. De plus, l'intégration du PCIe Gen6 et de la nouvelle technologie de mémoire HBM3e offre une augmentation substantielle de la bande passante qui, lorsqu'elle est associée au NVLink de cinquième génération, double la bande passante par rapport à la génération précédente pour atteindre un niveau stupéfiant de 1.8 To/s.
L’une des introductions les plus intrigantes est le moteur RAS, qui améliore la fiabilité, la disponibilité et la facilité d’entretien lors de déploiements massifs d’IA. Cette innovation pourrait considérablement améliorer l’utilisation des échecs de modèle, répondant ainsi à l’un des défis critiques liés à la mise à l’échelle des applications d’IA.
Avec Blackwell, NVIDIA apporte de nouvelles capacités informatiques confidentielles, notamment le premier GPU compatible E/S Trusted Execution Environment (TEE) du secteur, étendant le TEE au-delà des CPU jusqu'aux GPU. Cela garantit un traitement sécurisé et rapide des données privées, crucial pour la formation de l’IA générative. Cette innovation est particulièrement importante pour les secteurs confrontés à des réglementations en matière de confidentialité ou à des informations exclusives. Le Confidential Computing de NVIDIA Blackwell offre une sécurité inégalée sans compromettre les performances, offrant un débit presque identique aux modes non chiffrés. Cette avancée sécurise non seulement les grands modèles d’IA, mais permet également une formation confidentielle en IA et un apprentissage fédéré, protégeant ainsi la propriété intellectuelle en matière d’IA.
Le moteur de décompression de NVIDIA Blackwell marque une avancée significative dans l'analyse des données et les workflows de bases de données. Ce moteur peut décompresser les données à une vitesse étonnante allant jusqu'à 800 Go/s, améliorant considérablement les performances de l'analyse des données et réduisant le temps d'obtention d'informations. En collaboration avec la mémoire HBM8e de 3 To/s et l'interconnexion NVLink-C2C haute vitesse, il accélère les requêtes de base de données, rendant Blackwell 18 fois plus rapide que les processeurs et 6 fois plus rapide que les précédents GPU NVIDIA dans les tests de requêtes. Cette technologie prend en charge les derniers formats de compression et positionne NVIDIA Blackwell comme une référence en matière d'analyse et de science des données, accélérant considérablement le pipeline d'analyse de bout en bout.
Malgré les merveilles techniques, l'affirmation de NVIDIA selon laquelle les coûts d'exploitation et l'énergie de l'inférence LLM pourraient être multipliés par 25 fait sourciller, en particulier compte tenu du manque de données détaillées sur la consommation d'énergie. Cette affirmation, bien que remarquable, pourrait bénéficier d’une clarification supplémentaire afin d’évaluer pleinement son impact.
En résumé, la plate-forme Blackwell de NVIDIA témoigne de la quête incessante de l'entreprise pour repousser les limites de ce qui est possible en matière d'IA et d'informatique. Avec ses technologies révolutionnaires et ses objectifs ambitieux, Blackwell ne constitue pas seulement un pas en avant, mais un pas de géant, promettant d’alimenter diverses avancées dans diverses industries. Alors que nous approfondissons cette ère de calcul accéléré et d’IA générative, les innovations de NVIDIA pourraient être les catalyseurs de la prochaine révolution industrielle.
NVIDIA Blackwell HGX
Adoptant l'architecture Blackwell, NVIDIA a actualisé sa série de serveurs et de cartes mères HGX. Cette évolution significative par rapport aux modèles précédents apporte un changement convaincant, réduisant notamment le coût total de possession tout en améliorant de manière impressionnante les performances. La comparaison est frappante : lorsque l’on compare le FP8 au FP4, on constate une amélioration remarquable des performances de 4.5 fois. Même en faisant correspondre le FP8 avec son prédécesseur, les performances doublent presque. Il ne s’agit pas seulement de vitesse brute ; il s'agit d'un bond en avant dans l'efficacité de la mémoire, avec une multiplication par 8 de la bande passante mémoire globale.
Spécification | HGXH100 | HGXH200 | HGX B100 | HGX B200 |
Mémoire max | 640GB HBM3 | HBM1.1e de 3 To | HBM1.5e de 3 To | HBM1.5e de 3 To |
Bande passante mémoire | 7.2 To / s | 7.2 To / s | 8 To / s | 8 TB / s |
FP4 | - | - | 112hXNUMX FPLOPS | 144hXNUMX FPLOPS |
FP6 | - | - | 56hXNUMX FPLOPS | 72hXNUMX FPLOPS |
FP8/INT8 | 32 PFLOPS/POPS | 32 PFLOPS/POPS | 56 PFLOPS/POPS | 72 PFLOPS/POPS |
FP16/BF16 | 16hXNUMX FPLOPS | 16hXNUMX FPLOPS | 28hXNUMX FPLOPS | 36hXNUMX FPLOPS |
Superpuce NVIDIA Grace-Blackwell
Plongez plus profondément dans les subtilités de la dernière annonce de NVIDIA, en vous concentrant sur le GB200, la pierre angulaire de l'arsenal de la plate-forme Blackwell. Alors que NVIDIA repousse continuellement les limites du calcul haute performance, le GB200 représente une évolution significative de son offre GPU, alliant technologie de pointe et avancées stratégiques en matière de connectivité et d'évolutivité. Le GB200 abrite deux GPU B200 ; cette configuration s'écarte du GH200 de la génération précédente, qui présentait une connexion un-à-un entre un GPU et un CPU Grace. Cette fois, les deux GPU B200 sont liés au même processeur Grace via une liaison puce à puce (C900C) à 2 Go/s.
Spécification | GH200 | GB200 |
Mémoire max | 144 Go HBM3e | 384 Go HBM3e |
Bande passante mémoire | 8 To / s | 16 To/s (agrégat) |
FP4 | - | 40hXNUMX FPLOPS |
FP6 | - | 20hXNUMX FPLOPS |
FP8/INT8 | 3.958 PFLOPS/POPS | 20hXNUMX FPLOPS |
FP16/BF16 | 1979 TFLOPS | 10hXNUMX FPLOPS |
TF32 | 989 TFLOPS | 5hXNUMX FPLOPS |
FP64 | 67 TFLOPS | 90 TFLOPS |
Lignes PCIe | 4x PCIe génération 5 x16 | 2x PCIe génération 6 x16 |
Consommation maximale | 1000W | 2700W |
# Remarque : tous les nombres ici représentent les performances pour les calculs matriciels clairsemés.
À première vue, la décision de conserver la liaison C900C à 2 Go/s de la génération précédente peut apparaître comme une limitation. Cependant, ce choix de conception souligne une stratégie calculée visant à tirer parti des technologies existantes tout en ouvrant la voie à de nouveaux niveaux d'évolutivité. L'architecture du GB200 lui permet de communiquer avec jusqu'à 576 GPU à une vitesse de 1.8 To/s, grâce au NVLink de cinquième génération. Ce niveau d'interconnectivité est crucial pour créer des environnements informatiques massivement parallèles nécessaires à la formation et au déploiement des modèles d'IA les plus vastes et les plus complexes.
Mise à jour de la pile réseau NVIDIA
Intégration du GB200 aux dernières technologies réseau de NVIDIA, les plates-formes Ethernet Quantum-X800 InfiniBand et Spectrum-X800 soulève des questions intéressantes sur la connectivité et la bande passante. La mention des capacités de 800 Gb/s laisse entendre que NVIDIA explore les avantages que PCIe Gen6 peut apporter.
La configuration GB200, avec sa configuration double GPU et ses options réseau avancées, représente la vision de NVIDIA pour l'avenir du HPC. Cette vision ne concerne pas seulement la puissance brute des composants individuels, mais également la manière dont ces composants peuvent être orchestrés dans un système cohérent et évolutif. En permettant un degré plus élevé d'interconnectivité et en maintenant un équilibre entre la puissance de calcul et les taux de transfert de données, NVIDIA relève certains des défis les plus critiques en matière de recherche et de développement en IA, en particulier dans la gestion de tailles de modèles et de demandes de calcul à croissance exponentielle.
Commutateurs NVIDIA NVLink et NVLink de cinquième génération
Le NVLink de cinquième génération marque une étape importante dans le calcul haute performance et l’IA. Cette technologie améliore la capacité de connexion et de communication entre les GPU, un aspect crucial pour l'évolution rapide des demandes des modèles fondamentaux de l'IA.
Le NVLink de cinquième génération augmente sa capacité de connectivité GPU à 576 GPU, une augmentation substantielle par rapport à la limite précédente de 256 GPU. Cette extension s'accompagne d'un doublement de la bande passante par rapport à son prédécesseur, une amélioration essentielle pour les performances de modèles d'IA fondamentaux de plus en plus complexes.
Chaque liaison GPU Blackwell dispose de deux paires différentielles à grande vitesse, similaires au GPU Hopper, mais elle atteint une bande passante effective par liaison de 50 Go/s dans chaque direction. Ces GPU sont équipés de 18 liaisons NVLink de cinquième génération, offrant une bande passante totale stupéfiante de 1.8 To/s. Ce débit est plus de 14 fois supérieur à celui du PCIe Gen 5 actuel.
Une autre fonctionnalité remarquable est le commutateur NVIDIA NVLink, qui prend en charge une bande passante GPU de 130 To/s dans un seul domaine NVLink de 72 GPU (NVL72), crucial pour le parallélisme des modèles. Ce commutateur offre également une efficacité de bande passante multipliée par quatre grâce à la nouvelle prise en charge FP8 du protocole NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol (SHARP).
De plus, NVIDIA Unified Fabric Manager (UFM) complète le commutateur NVLink en fournissant une gestion robuste et éprouvée de la structure de calcul NVLink.
Calcul exascale dans un rack
S'appuyant sur les formidables fondations posées par son prédécesseur, le GraceHopper GH200 NVL32, le DGX GB200 NVL72 n'est pas seulement une mise à niveau ; il s’agit d’une avancée fondamentale pour étendre ce qui est possible en termes de puissance et d’efficacité de calcul. La plate-forme DGX GB200 NVL72 présente des avancées stupéfiantes à tous les niveaux. Chaque système DGX GB200 NVL72 comprend 18 nœuds GB200 SuperChip, comprenant 2x GB200 chacun.
Cette plate-forme fait plus que doubler le nombre de GPU, passant de 32 à 72, et augmente modestement le nombre de processeurs, de 32 à 36. Cependant, le bond en mémoire est notable, passant de 19.5 To à un impressionnant 30 To. Cette expansion ne concerne pas seulement des chiffres plus significatifs ; il s'agit de permettre un nouvel échelon de capacités informatiques, en particulier dans la gestion des modèles et simulations d'IA les plus complexes.
L’une des améliorations les plus époustouflantes est l’augmentation des performances de calcul. La plate-forme passe de 127 PetaFLOPS à 1.4 ExaFLOPS en comparant les performances du FP4, soit une augmentation d'environ 11x. Cette comparaison met en lumière l'engagement de NVIDIA à repousser les limites de la précision et de la vitesse, en particulier dans l'IA et l'apprentissage automatique. Cependant, même en comparant le FP8 au FP8, la plate-forme atteint une augmentation de 5.6 fois, passant de 127PF à 720PF, soulignant des progrès significatifs en matière d'efficacité et de puissance de calcul.
L'engagement de maintenir un système entièrement refroidi par eau fait écho à l'accent mis par NVIDIA sur la durabilité et l'optimisation des performances. Cette approche améliore l'efficacité opérationnelle du système et s'aligne sur les tendances plus larges du secteur vers des technologies de centres de données plus respectueuses de l'environnement.
NVIDIA DGX SuperPOD alimenté par les superpuces NVIDIA GB200 Grace Blackwell
NVIDIA a également annoncé son supercalculateur IA de nouvelle génération, le DGX SuperPOD, équipé de 8 systèmes NVIDIA GB200 NVL72 Grace Blackwell. Cette formidable configuration est conçue pour gérer des modèles comportant des milliards de paramètres, bénéficiant de 11.5 exaflops de puissance de calcul IA avec une précision FP4 sur son architecture à l'échelle rack refroidie par liquide. Chaque système GB200 NVL72 comprend 36 superpuces NVIDIA GB200, promettant des performances 30 fois supérieures à celles de ses prédécesseurs H100 pour les grandes charges de travail d'inférence de modèles de langage.
Selon Jensen Huang, PDG de NVIDIA, le DGX SuperPOD vise à être « l'usine de la révolution industrielle de l'IA ».
Nuage de simulation quantique
NVIDIA a également dévoilé le service Quantum Simulation Cloud, permettant aux chercheurs d'explorer l'informatique quantique dans divers domaines scientifiques. Basé sur la plateforme open source CUDA-Q, ce service offre des outils et des intégrations puissants pour créer et tester des algorithmes et des applications quantiques. Les collaborations avec l'Université de Toronto et des sociétés comme Classiq et QC Ware mettent en évidence les efforts de NVIDIA pour accélérer l'innovation en matière d'informatique quantique.
Pile logicielle NVIDIA NIM
Une autre annonce importante a été le lancement de la pile logicielle NVIDIA NIM, offrant des dizaines de microservices d'IA générative de niveau entreprise. Ces services permettent aux entreprises de créer et de déployer des applications personnalisées sur leurs plates-formes, en optimisant l'inférence sur les modèles d'IA populaires et en améliorant le développement avec les microservices NVIDIA CUDA-X pour une large gamme d'applications. Jensen Huang a souligné le potentiel de ces microservices pour transformer les entreprises de tous les secteurs en entités alimentées par l'IA.
Systèmes informatiques OVX
En réponse à la croissance rapide de l'IA générative dans divers secteurs, NVIDIA a introduit les systèmes informatiques OVX, une solution conçue pour rationaliser les charges de travail complexes d'IA et de graphiques gourmands en ressources graphiques. Conscient du rôle crucial du stockage haute performance dans les déploiements d'IA, NVIDIA a lancé un programme de validation de partenaires de stockage avec des contributeurs de premier plan tels que DDN, Dell PowerScale, NetApp, Pure Storage et WEKA.
Le nouveau programme standardise le processus permettant aux partenaires de valider leurs appareils de stockage, garantissant ainsi des performances et une évolutivité optimales pour les charges de travail d'IA d'entreprise. Grâce à des tests NVIDIA rigoureux, ces systèmes de stockage sont validés par rapport à divers paramètres, reflétant les exigences difficiles des applications d'IA.
De plus, les serveurs OVX certifiés NVIDIA, alimentés par des GPU NVIDIA L40S et intégrés à des solutions logicielles et réseau complètes, offrent une architecture flexible pour s'adapter à divers environnements de centres de données. Cette approche accélère non seulement le calcul là où résident les données, mais répond également aux besoins uniques de l'IA générative, garantissant efficacité et rentabilité. Les serveurs NVIDIA OVX sont équipés de GPU robustes, offrant des capacités de calcul améliorées, un accès au stockage à haut débit et une mise en réseau à faible latence. Ceci est particulièrement vital pour les applications exigeantes telles que les chatbots et les outils de recherche qui nécessitent un traitement approfondi des données.
Actuellement disponibles et expédiés par des fournisseurs mondiaux tels que GIGABYTE, Hewlett Packard Enterprise, Lenovo et Supermicro, les serveurs OVX certifiés NVIDIA représentent une avancée significative dans la gestion des charges de travail d'IA complexes, promettant des performances, une sécurité et une évolutivité de niveau entreprise.
Réflexions de clôture
De plus, des annonces ont été faites dans les domaines de l'automobile, de la robotique, de la santé et de l'IA générative. Toutes ces annonces témoignent de la quête incessante d'innovation de NVIDIA, proposant des outils et des plates-formes avancés pour façonner l'avenir de l'IA et de l'informatique dans de multiples domaines. Tous sont hautement techniques et présentent de nombreuses complexités, notamment dans le cas de l’informatique quantique et des versions logicielles. Restez à l’écoute pour l’analyse des annonces à mesure que nous obtiendrons plus d’informations sur chacune de ces nouvelles versions.
S'engager avec StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS