StorageReview.com

NVIDIA dévoile sa feuille de route lors du AI Infra Summit : de Blackwell Ultra à l'architecture Vera Rubin CPX

AI  ◇  Entreprise

AI Infra Summit met en évidence les résultats d'inférence MLPerf d'AMD et de NVIDIA, ainsi que la feuille de route Vera Rubin 2026 de NVIDIA, en particulier Rubin CPX.

Lors de l'AI Infra Summit 2025, NVIDIA a présenté son élan sur deux fronts : de nouveaux résultats impressionnants d'inférence MLPerf provenant de ses systèmes Blackwell Ultra et, plus important encore, une feuille de route détaillée pour la génération Vera Rubin 2026, y compris Rubin CPX, une nouvelle classe de GPU spécialement conçue pour l'inférence de contexte massif.

Blackwell Ultra établit de nouvelles normes de performance

Les systèmes rackables NVL300 GB72 de NVIDIA ont déjà atteint des performances remarquables dans MLPerf Inference v5.1, démontrant la maturité architecturale de la plateforme Blackwell Ultra, alors même que les logiciels continuent d'exploiter tout leur potentiel. Cette puissance est clairement démontrée par le benchmark Llama 2 70B, où la plateforme a atteint un impressionnant débit de 12,934 12,701 jetons par seconde par GPU en mode hors ligne. Les performances lors du test de diffusion en ligne étaient quasiment identiques, avec XNUMX XNUMX jetons par seconde, témoignant de l'efficacité exceptionnelle de l'architecture sur différentes charges de travail.

La compatibilité de la plateforme avec les applications concrètes a été démontrée par la nouvelle catégorie interactive, qui impose des contraintes de latence nettement plus strictes, notamment un délai d'obtention du premier jeton inférieur à 500 ms et un seuil de 33 jetons par seconde et par utilisateur. Malgré ces exigences de qualité de service élevées, Blackwell Ultra a maintenu un débit élevé, délivrant 7,856 1 jetons par seconde et par GPU. Lors du benchmark de raisonnement DeepSeek-R5,842, la plateforme a établi une nouvelle référence définitive à XNUMX XNUMX jetons par seconde et par GPU.

En définitive, ces résultats indiquent que les capacités du matériel surpassent celles de la pile logicielle actuelle. Une marge de performance significative reste à exploiter, car des frameworks comme TensorRT-LLM et NVIDIA Dynamo évoluent pour exploiter pleinement les avantages architecturaux de Blackwell Ultra, tels que ses chemins de calcul NVFP4 améliorés et l'imposante capacité HBM288e de 3 Go par GPU.

Accélérer la cadence de l'innovation : la plateforme Vera Rubin

NVIDIA a adopté un cycle annuel de renouvellement de son architecture en réponse stratégique à la croissance exponentielle des besoins en calcul de l'IA. Fidèle à ce calendrier ambitieux, NVIDIA a révélé que la génération Vera Rubin est déjà finalisée et devrait être déployée en entreprise au second semestre 2026.

L'architecture Vera Rubin introduit une refonte complète de la plateforme, axée sur l'intégration des nouveaux processeurs Vera et GPU Rubin. Le processeur Vera représente une évolution significative par rapport aux trois dernières générations de systèmes NVIDIA Grace. Les processeurs Vera intègrent 88 cœurs ARM prenant en charge 176 threads. Ces processeurs doublent également la bande passante de la liaison puce à puce (C2C) à 1,800 XNUMX Go/s, permettant une liaison plus rapide entre le processeur, le GPU et leurs ressources de mémoire partagée.

Au niveau de la couche d'interconnexion, le NVLink de sixième génération offre une bande passante bidirectionnelle de 3,600 5 Go/s, soit le double de celle des commutateurs NVLink de cinquième génération actuels. Cette connectivité améliorée devient particulièrement cruciale à mesure que les modèles évoluent au-delà de la capacité mémoire des appareils individuels, nécessitant des stratégies d'exécution parallèle sophistiquées exigeant une latence de communication minimale et un débit maximal entre les nœuds.

Complétant l'avancée NVLink, le commutateur Spectrum-6, intégrant la technologie CPO (co-packaged optical), atteint une capacité de commutation de 102 To/s. L'intégration directe des composants optiques dans le boîtier du commutateur élimine les goulots d'étranglement traditionnels de la conversion électrique-optique, réduisant ainsi la latence tout en améliorant considérablement l'efficacité énergétique – des considérations cruciales à l'heure où les usines d'IA atteignent des niveaux de consommation de l'ordre du gigawatt.

Les systèmes VR NVL144 utiliseront toujours la plate-forme de rack Oberon éprouvée qui sous-tend actuellement les déploiements Grace Hopper, Grace Blackwell et Grace Blackwell Ultra.

Évolution de la nomenclature architecturale : des emballages aux matrices

NVIDIA modifie sa convention de nommage, passant d'un nombre de puces basé sur le boîtier à un nombre de puces basé sur le nombre de puces. Bien que ce changement puisse être controversé, il s'agit d'une initiative prospective qui apportera plus de clarté, notamment avec le lancement prévu des GPU Rubin Ultra fin 2026, qui devraient être équipés de quatre puces de la taille d'un réticule.

Avec la génération Rubin, NVIDIA adopte une nomenclature de nombre de puces qui reflète directement les ressources de calcul disponibles. La désignation NVL144 fait explicitement référence à 144 puces GPU tout en conservant la configuration physique à 72 boîtiers et offre une mesure plus précise de la capacité de calcul. Cette désignation est similaire à celle des systèmes NVL200 GB300 et GB72 de génération actuelle, qui contiennent 72 boîtiers GPU, chacun abritant deux puces GPU, pour un total de 144 puces de calcul.

Relever le défi du traitement du contexte

L'annonce de Rubin CPX, dont la disponibilité est prévue fin 2026, constitue la réponse architecturale de NVIDIA à l'un des défis les plus urgents de l'inférence LLM : l'inadéquation fondamentale entre les modèles de calcul lors des différentes phases de génération de jetons. Pour comprendre cette innovation, nous devons examiner les caractéristiques spécifiques des charges de travail d'inférence LLM et les limites des architectures GPU homogènes actuelles pour répondre à ces diverses exigences de calcul.

L'inférence d'un modèle de langage de grande taille s'effectue en deux phases de calcul fondamentalement différentes, qui sollicitent considérablement les ressources matérielles. L'étape de pré-remplissage traite l'invite de saisie initiale et calcule les matrices clé et valeur pour la génération suivante. Cette phase, gourmande en ressources de calcul, exploite efficacement le débit massif en virgule flottante des GPU modernes.

L'étape de décodage présente un défi informatique totalement différent. Lors du décodage, le modèle génère des jetons de sortie de manière autorégressive, produisant un jeton à la fois en tenant compte du contexte précédent. Chaque nouveau jeton nécessite que le mécanisme d'attention traite l'intégralité de l'historique de la séquence et calcule sa relation avec tous les jetons précédents. Cela crée un modèle de calcul unique où la bande passante mémoire, plutôt que le débit de calcul, devient le principal goulot d'étranglement. Le cache KV, qui stocke les représentations intermédiaires nécessaires à la maintenance du contexte, devient le principal consommateur de mémoire.

Les caractéristiques de mise à l'échelle du cache KV présentent des défis particuliers dans les environnements de production. Pour un modèle comme Llama 3.1 405B traitant des contextes étendus, le cache KV peut facilement consommer des dizaines de gigaoctets par séquence. Dans les scénarios d'inférence par lots, essentiels pour atteindre un débit élevé en production, la taille globale du cache KV dépasse souvent celle des pondérations du modèle elles-mêmes. Avec les tailles de lots importantes possibles dans les déploiements NVL72 à grande échelle, le cache KV peut atteindre plusieurs téraoctets. Bien que ces données doivent rester accessibles avec une latence raisonnable, tous les accès au cache KV ne nécessitent pas la bande passante extrême de la mémoire HBM. De nombreuses opérations d'attention présentent des modèles d'accès compatibles avec les architectures mémoire hiérarchiques.

Rubin CPX : architecture spécialement conçue pour le traitement du contexte

Rubin CPX corrige ces inadéquations architecturales grâce à une conception spécialement conçue pour l'inférence LLM à contexte long. Cette architecture repose sur 128 Go de mémoire GDDR7, offrant un pool de mémoire important et économique pour les opérations de cache KV. Les caractéristiques de bande passante de la GDDR7, bien que inférieures à celles du HBM4, sont suffisantes pour la majorité des opérations d'attention, notamment lorsqu'elles sont combinées à des stratégies de mise en cache intelligentes.

L'intégration avec la plateforme Vera Rubin, plus large, du rack VR NVL144 CPX s'effectue via des liaisons PCIe via les cartes réseau ConnectX-9 et les puces de commutation, facilitant ainsi les modèles d'exécution hybrides où les opérations gourmandes en ressources de calcul sont effectuées sur des GPU traditionnels. La gestion du contexte, gourmande en mémoire, migre vers les processeurs CPX.

Architectures de déploiement flexibles et options de configuration

L'architecture modulaire de la plateforme Vera Rubin offre une flexibilité de déploiement, permettant aux entreprises d'optimiser leurs configurations en fonction des charges de travail spécifiques. La configuration rack standard du VR NVL144 intègre des GPU Vera Rubin et huit cartes réseau ConnectX-9, offrant ainsi une architecture équilibrée adaptée à diverses charges de travail d'IA. Cette configuration offre 3.6 exaflops de calcul NVFP4, soit une amélioration de 3.3 fois par rapport aux systèmes GB300 NVL72 actuels, ainsi qu'une bande passante HBM1.4 de 4 Po/s (soit 2.5 fois supérieure à celle de la génération actuelle) et une capacité mémoire HBM75 de 4 To (soit 2 fois supérieure à celle de la génération actuelle).

Pour les organisations optimisant l'inférence et le RL à contexte long après l'apprentissage, le plateau de calcul ultra-dense VR NVL144 CPX est disponible. Chaque plateau intègre quatre packages de GPU VR, chacun contenant huit puces GPU, préservant ainsi la densité de calcul de la configuration standard, tout en ajoutant huit GPU Rubin CPX. Les huit puces de carte réseau/commutateur ConnectX-9 assurent la fluidité du flux de données, essentielle à l'inférence distribuée.

La modularité de l'architecture permet des stratégies de déploiement exceptionnellement flexibles. Les entreprises peuvent initialement déployer des racks VR NVL144 standard, puis les compléter avec des racks Rubin CPX dédiés à mesure que leurs besoins en traitement de contexte augmentent. Cette approche permet à l'infrastructure d'évoluer parallèlement aux capacités du modèle, évitant ainsi le surprovisionnement.

La configuration complète du VR NVL144 CPX établit une nouvelle référence en matière de puissance de calcul. Le système offre 8 exaflops de calcul NVFP4, soit une amélioration de 7.5 fois par rapport aux systèmes GB300 NVL72 de la génération actuelle. Cette capacité de calcul massive est combinée à une bande passante mémoire cumulée de 1.7 Po/s, exploitant à la fois HBM4 et GDDR7 pour atteindre un débit mémoire trois fois supérieur à celui des systèmes actuels. La capacité mémoire totale atteint 100 To, soit 2.5 fois les ressources mémoire des plateformes de la génération actuelle.

NVIDIA vise une disponibilité fin 2026. Cela ouvrira la voie à de nouvelles catégories d'applications d'IA et rendra les fenêtres contextuelles de plusieurs millions de jetons pratiques pour la production, permettant aux systèmes d'IA de traiter des bases de code entières ou de longs documents en une seule passe. Ces innovations permettent également aux entreprises de prendre en charge des lots plus importants, réduisant ainsi le coût d'inférence et optimisant le calcul des dépenses d'exploitation.

Plan directeur d'infrastructure à l'échelle du gigawatt

Au-delà des innovations système individuelles, NVIDIA a également dévoilé des architectures de référence pour des usines d'IA à l'échelle du gigawatt. Développées en collaboration avec des partenaires d'infrastructure tels que Jacobs, Schneider Electric, Siemens Energy et Vertiv, ces architectures couvrent l'ensemble de la pile d'infrastructure, de la production d'électricité à la fourniture de données informatiques. Ces conceptions de référence reconnaissent que les déploiements d'IA de nouvelle génération nécessitent une optimisation globale qui va bien au-delà des composants informatiques eux-mêmes.

Ces plans architecturaux utilisent les jumeaux numériques NVIDIA Omniverse pour faciliter la simulation complète des installations avant le déploiement physique. Les organisations peuvent modéliser la distribution électrique, les systèmes de refroidissement et les charges de calcul dans des simulations unifiées, identifiant et résolvant les goulots d'étranglement avant de s'engager dans une infrastructure physique.

Conclusion

NVIDIA continue de dominer le marché des infrastructures d'IA grâce à une approche avant-gardiste, centrée sur les développeurs, qui répond directement aux difficultés rencontrées par les organisations et les laboratoires d'IA. La transition d'une accélération généraliste vers des architectures spécifiques aux charges de travail, illustrée par l'approche ciblée de Rubin CPX en matière de traitement contextuel, indique que les futurs systèmes d'IA comprendront de plus en plus de ressources de calcul hétérogènes optimisées pour chaque phase des workflows d'IA. Cette évolution architecturale exige que les organisations qui planifient des investissements pluriannuels dans des infrastructures d'IA prennent en compte non seulement le débit de calcul brut, mais aussi l'adéquation entre les capacités matérielles et l'évolution des architectures de modèles.

L'accélération de l'innovation, de Blackwell Ultra à Rubin CPX en passant par Vera Rubin, et ce, dans un délai très court, est véritablement impressionnante. Un rythme aussi rapide exige des organisations qu'elles conçoivent des systèmes capables d'intégrer les nouveaux paradigmes architecturaux dès leur apparition, évitant ainsi le verrouillage qui caractérisait les précédentes générations d'infrastructures de centres de données. Pour relever ce défi, les conceptions de référence AI Factory et les jumeaux numériques Omniverse de NVIDIA fournissent les plans et outils de simulation essentiels pour pérenniser ces investissements critiques. Alors que les modèles d'IA poursuivent leur trajectoire vers des échelles de plusieurs milliards de paramètres et des contextes de plusieurs millions de jetons, les innovations architecturales dévoilées lors de l'AI Infrastructure Summit constituent les bases essentielles de cet avenir du calcul. Elles établissent les cadres et les technologies qui définiront les capacités d'IA des entreprises tout au long de la décennie.

Articles référencés : Actualités Nvidia GTC25

Toutes les diapositives et images proviennent de Nvidia

S'engager avec StorageReview

Bulletin |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS

Divyansh Jain

Ingénieur en apprentissage automatique, passionné de laboratoires personnels et de technologies, je travaille chez Storage Review sur l'IA et les tests de charges de travail émergentes afin de fournir des analyses de performance et des informations pratiques.