StorageReview.com

NVIDIA présente l'architecture Vera Rubin au CES 2026 : le rack VR NVL72

AI  ◇  DPU  ◇  Entreprise  ◇  Networking  ◇  Server  ◇  Serveur

Lors du CES 2026, NVIDIA a dévoilé la plateforme Rubin, articulée autour du système rack Vera Rubin NVL72. Il s'agit de l'architecture rack de troisième génération de NVIDIA, intégrant six puces conçues conjointement au sein d'un système unifié. La plateforme sera disponible auprès des partenaires au cours du second semestre 2026. Les six puces sont déjà sorties de production et font actuellement l'objet de tests de validation avec des charges de travail réelles.

Vera Rubin NVL72 : Six puces, un système unifié

La puce Vera Rubin NVL72 utilise ce que NVIDIA appelle une « conception conjointe extrême », dans laquelle six puces distinctes sont développées ensemble pour fonctionner comme un système unifié.

Processeur Vera : Puce ARM conçue pour les usines d'IA

La première puce présentée était le processeur NVIDIA Vera, témoignant de l'investissement continu de NVIDIA dans les puces ARM personnalisées pour les charges de travail d'IA. Basé sur 88 cœurs ARM Olympus personnalisés et entièrement compatible Armv9.2, Vera est conçu spécifiquement pour répondre aux exigences de transfert de données et de traitement automatisé des centres de données d'IA modernes. Il intègre une connectivité NVLink-C2C, offrant une bande passante de 1.8 To/s aux GPU Rubin, soit le double de la bande passante C2C des générations précédentes et une vitesse sept fois supérieure à celle du PCIe Gen 6. Le processeur Vera double les performances de traitement des données, de compression et de compilation de code par rapport au processeur Grace de la génération précédente.

Comparaison générationnelle : Blackwell Ultra vs. Vera Rubin NVL72

Spécifications GB300 NVL72 (Blackwell Ultra) VR NVL72 (Vera Rubin)
Nombre de GPU 72 GPU Blackwell Ultra 72 GPU Rubin
Nombre de CPU 1 248 processeurs Grace 36 processeurs Vera
Cœurs de CPU 72 cœurs ARM par processeur 88 cœurs ARM Olympus par processeur
Performances d'inférence FP4 1.44 ExaFLOPS 3.6 ExaFLOPS
NVFP4 par GPU (Inférence) 20hXNUMX FPLOPS 50hXNUMX FPLOPS
NVFP4 par GPU (entraînement) 10hXNUMX FPLOPS 35hXNUMX FPLOPS
Type de mémoire GPU HBM3e HBM4
Bande passante mémoire GPU ~8 To/s ~22 To/s
Génération NVLink NVLink 5 NVLink 6
Bande passante NVLink (par GPU) 1.8 TB / s 3.6 TB / s
Bande passante NVLink à l'échelle du rack 130 TB / s 260 TB / s
Carte réseau à extension horizontale ConnectX-8 (800 Gb/s) ConnectX-9 (1.6 To/s)
Interconnexion CPU-GPU NVLink-C2C (900 Go/s) NVLink-C2C (1.8 To/s)

GPU Rubin : Moteurs Transformer, NVFP4 et HBM4

Vient ensuite la vedette du salon : le GPU NVIDIA Rubin, doté d'un moteur Transformer de troisième génération avec compression adaptative accélérée par matériel. Ce dernier ajuste dynamiquement la précision entre les couches Transformer, optimisant ainsi le débit là où la précision peut être réduite, tout en préservant l'exactitude là où elle est cruciale. Cette implémentation NVFP4 offre une puissance de calcul de 50 pétaflops pour l'inférence (5 fois supérieure à celle de Blackwell) et de 35 pétaflops pour l'entraînement (3.5 fois supérieure à celle de Blackwell). Le GPU Rubin est le premier à intégrer de la mémoire HBM4 avec une bande passante allant jusqu'à 22 To/s, un progrès considérable qui permet de surmonter les limitations de bande passante mémoire rencontrées par les grands modèles MoE.

NVLink 6 : Communication globale à l’échelle du rack

Le commutateur NVIDIA NVLink 6 double la bande passante par GPU à 3.6 To/s, le rack complet offrant une capacité de mise en réseau évolutive de 260 To/s, soit plus du double de la bande passante moyenne d'Internet. Cette architecture évolutive permet à chaque GPU de communiquer simultanément avec tous les autres (une condition essentielle pour le parallélisme des experts du MoE), où tous les experts doivent partager leurs résultats au sein du cluster. Le calcul intégré au réseau accélère les opérations collectives et réduit la congestion, déchargeant ainsi les tâches qui consommeraient autrement des cycles GPU.

ConnectX-9 SuperNIC : redéfinir la mise en réseau à extension horizontale

La carte réseau NVIDIA ConnectX-9 SuperNIC gère l'extension horizontale du réseau, offrant une bande passante RDMA de 1.6 To/s par GPU pour les communications au-delà du rack. Conçue conjointement avec le processeur Vera pour optimiser l'efficacité du traitement des données, ConnectX-9 introduit un chemin de données entièrement programmable et accéléré, défini par logiciel, permettant aux laboratoires d'IA de mettre en œuvre des algorithmes de transfert de données personnalisés et optimisés pour leurs architectures de modèles spécifiques.

Architecture sécurisée BlueField-4 DPU et ASTRA

BlueField-4 est la quatrième génération d'unités de traitement de données (DPU) de NVIDIA et représente une refonte fondamentale du stockage et du réseau pour les charges de travail d'IA. Cette nouvelle DPU intègre un processeur NVIDIA à 64 cœurs, contre 16 cœurs ARM Cortex-A78 pour BlueField-3, offrant ainsi des performances de calcul six fois supérieures. Elle inclut une carte réseau ConnectX-9 SuperNIC intégrée (contre ConnectX-7 pour BlueField-3), doublant la bande passante réseau à 800 Gbit/s. L'accès du GPU au stockage de données est deux fois plus rapide que la génération précédente. Au-delà de ces améliorations techniques, l'importance de BlueField-4 réside dans ce qu'elle permet : une nouvelle infrastructure de stockage native pour l'IA, que NVIDIA considère comme essentielle au déploiement à grande échelle de l'IA agentielle.

BlueField-4 décharge les processeurs réseau, de stockage et de sécurité afin que les GPU Rubin et les CPU Vera se concentrent sur l'exécution des modèles. Il est entièrement intégré à l'architecture validée NVIDIA Enterprise AI Factory et bénéficie du soutien de l'écosystème de Red Hat, Palo Alto Networks, Fortinet et d'autres acteurs.

BlueField-4 introduit également ASTRA (Advanced Secure Trusted Resource Architecture). Cette architecture de confiance au niveau système offre un point de contrôle unique pour le provisionnement, l'isolation et l'exploitation sécurisés d'environnements d'IA à grande échelle sans compromettre les performances.

Informatique confidentielle sur l'ensemble du rack

La plateforme Vera Rubin NVL72 est la première plateforme rack à intégrer NVIDIA Confidential Computing sur l'ensemble du système. Cette solution de troisième génération garantit la sécurité des données sur le CPU, le GPU et l'ensemble du domaine NVLink, chaque bus étant chiffré lors de son transit. Elle répond ainsi à une préoccupation croissante des entreprises et des laboratoires d'IA exécutant des modèles propriétaires sur une infrastructure partagée : la possibilité de garantir la protection des modèles, des données d'entraînement et des charges de travail d'inférence, même lorsqu'ils sont déployés sur des systèmes tiers.

Le commutateur Ethernet NVIDIA Spectrum-6 alimente les réseaux scale-out de NVIDIA. Basé sur la technologie SerDes 200G avec optique intégrée (CPO), il atteint une capacité de commutation de 102 To/s et gère le trafic est-ouest sur les racks VR NVL72. Le passage à l'optique intégrée est significatif. En intégrant directement l'optique au silicium du commutateur, NVIDIA revendique une fiabilité 10 fois supérieure, une disponibilité 5 fois plus longue et une efficacité énergétique 5 fois meilleure par rapport aux optiques enfichables traditionnelles.

Améliorations en matière de coûts et d'efficacité des modèles du ministère de l'Éducation

NVIDIA affirme que le processeur graphique VR NVL72 offre un coût en jetons sept fois inférieur à celui de Blackwell pour l'inférence de modèles Mixture-of-Experts de grande taille, tout en conservant la même latence. Il nécessite quatre fois moins de GPU pour entraîner le même modèle MoE dans le même laps de temps. La plateforme atteint une puissance de calcul d'inférence huit fois supérieure par watt.

Ces améliorations répondent aux exigences des modèles MoE, qui n'activent qu'un sous-ensemble de leurs experts pour chaque jeton. Des modèles comme Kimi K2 Thinking utilisent 384 experts, mais n'en activent que huit simultanément, ce qui nécessite une communication GPU massive entre tous les experts. Le réseau évolutif de 260 To/s du VR NVL72 prend en charge ce type de communication.

Un rack sans câbles conçu pour les installations à grande échelle

Le VR NVL72 propose une conception modulaire sans câbles, sans ventilateurs et sans tuyaux, utilisant uniquement des circuits imprimés et des connecteurs, à l'exclusion du câblage interne. Les plateaux de calcul s'assemblent par des connecteurs à enclenchement automatique lors de leur insertion dans le rack, éliminant ainsi le besoin de câblage manuel. Les seules connexions externes sont deux tuyaux d'entrée et de sortie de liquide, reliés aux blocs de refroidissement liquide.

Les systèmes précédents, comme le GB300 NVL72, nécessitaient environ 100 minutes pour assembler un seul plateau de calcul. Chaque connexion de câble représentait un point de défaillance potentiel, un problème de plus en plus préoccupant à l'échelle de centaines de milliers de GPU. Le cheminement des câbles limitait les voies de refroidissement et occupait de l'espace, tandis que les ventilateurs ajoutaient de la complexité mécanique et du bruit.

La nouvelle conception réduit les temps d'assemblage et de maintenance d'un facteur 18. La plateforme intègre également un moteur RAS (Fiabilité, Disponibilité, Maintenance) de deuxième génération couvrant les GPU, les CPU et NVLink, assurant des contrôles d'état en temps réel, une tolérance aux pannes et une maintenance proactive. Les baies de commutation NVLink prennent désormais en charge la maintenance sans interruption de service, permettant aux racks de rester opérationnels pendant le retrait ou le remplacement partiel des baies. À l'échelle de centaines de milliers de GPU, ces améliorations de la maintenance se traduisent directement par une disponibilité et un débit accrus du cluster.

Cette architecture permet de futures configurations à plus haute densité. C'est également essentiel pour permettant ce qui avait été précédemment teasé Les conceptions de racks CPX de Vera Rubin que nous avons présentées lors du sommet AI Infra, qui ajoutent en outre des GPU de traitement contextuel à le même chariot de calcul dans une conception déjà dense.

Plateforme de stockage de mémoire du contexte d'inférence

NVIDIA a annoncé au CES 2026 la plateforme de stockage de mémoire de contexte d'inférence, une nouvelle infrastructure de stockage native pour l'IA conçue spécifiquement pour le cache clé-valeur. Cette plateforme s'appuie sur les technologies BlueField-4 et Ethernet Spectrum-X. Elle offre jusqu'à 5 fois plus de jetons par seconde que le stockage réseau traditionnel utilisé pour le contexte d'inférence, un rapport performance/coût total jusqu'à 5 fois supérieur, une efficacité énergétique jusqu'à 5 fois meilleure et un temps d'obtention du premier jeton 20 fois plus court. Le placement du cache clé-valeur accéléré par le matériel BlueField-4 élimine la surcharge liée aux métadonnées et réduit les transferts de données, tandis que l'Ethernet Spectrum-X fournit l'infrastructure à haut débit et faible latence nécessaire à l'accès RDMA.

Cette plateforme s'attaque à un goulot d'étranglement croissant dans l'inférence LLM : la gestion du cache KV. Les modèles Transformer utilisent un mécanisme d'attention où chaque jeton généré doit prendre en compte tous les jetons précédents. Sans mise en cache, cela nécessite le recalcul des vecteurs clé-valeur pour chaque jeton, ce qui engendre une complexité de O(n²). La mise en cache KV stocke ces matrices précalculées en mémoire pour une réutilisation ultérieure, réduisant la complexité à O(n). Le problème est que la taille du cache KV croît linéairement avec la longueur de la séquence et la taille du lot. Une seule conversation à contexte long peut consommer des gigaoctets de mémoire. Dans les environnements mutualisés, la gestion de milliers de requêtes simultanées sur des fenêtres de contexte s'étendant sur des millions de jetons sature la mémoire HBM des GPU. Les opérateurs doivent alors réduire la taille des lots, raccourcir les fenêtres de contexte ou acquérir davantage de GPU.

Le stockage réseau traditionnel n'a pas été conçu pour les modèles d'accès au cache KV, qui nécessitent un accès aléatoire à faible latence à des téraoctets de données transitoires potentiellement répartis sur de nombreuses sessions simultanées. La plateforme de stockage de mémoire de contexte d'inférence (Inference Context Memory Storage Platform) fournit un niveau de stockage dédié, optimisé pour cette charge de travail, se situant entre la mémoire HBM des GPU et le stockage conventionnel. Cela permet aux usines d'IA d'adapter leur capacité de contexte indépendamment des calculs GPU. Nous avons précédemment expliqué comment le déchargement du cache KV fonctionne avec NVIDIA Dynamo à l'aide d'un accélérateur de cache KV de Pliops. NVIDIA étend cette solution avec la plateforme de stockage de mémoire de contexte d'inférence NVIDIA et l'intègre à son projet open source Dynamo. Ce dernier fournit le framework logiciel qui coordonne les phases de pré-remplissage/décodage désagrégées, le routage intelligent et le déchargement hiérarchisé du stockage de cette nouvelle plateforme.

Les partenaires de stockage, notamment VAST Data, NetApp, DDN, Dell Technologies, HPE, Hitachi Vantara, IBM, Nutanix, Pure Storage et WEKA, développent des plateformes avec BlueField-4. Celles-ci seront disponibles au cours du second semestre 2026.

Alpamayo : IA physique basée sur le raisonnement pour les véhicules autonomes

NVIDIA a annoncé Alpamayo, une famille de modèles d'IA ouverts, d'outils de simulation et de jeux de données conçus pour accélérer le développement de véhicules autonomes (VA) sûrs et basés sur le raisonnement. Alpamayo introduit des modèles vision-langage-action basés sur le raisonnement en chaîne qui permettent aux VA de prendre des décisions similaires à celles de l'humain. Le système de sécurité NVIDIA Halo sous-tend ces systèmes.

Les architectures de véhicules autonomes traditionnelles dissocient perception et planification, ce qui peut limiter leur évolutivité face à des situations nouvelles ou inhabituelles. La gestion des scénarios rares et complexes demeure l'un des défis majeurs pour les systèmes autonomes. Alpamayo y remédie en permettant aux modèles de raisonner sur les relations de cause à effet et d'analyser progressivement les nouveaux scénarios afin d'améliorer les capacités de conduite et leur interprétabilité.

Plutôt que de s'exécuter directement dans le véhicule, les modèles Alpamayo servent de modèles d'apprentissage à grande échelle que les développeurs peuvent affiner et intégrer à la structure de base de leurs systèmes de véhicules autonomes. Ils peuvent ainsi adapter Alpamayo en modèles d'exécution plus petits pour le développement de véhicules, ou l'utiliser comme fondement pour des outils de développement de véhicules autonomes tels que des évaluateurs basés sur le raisonnement et des systèmes d'étiquetage automatique.

Modèles, simulations et jeux de données ouverts d'Alpamayo

Alpamayo 1 est le premier modèle VLA à raisonnement par chaîne de pensée du secteur, conçu pour la communauté de recherche en véhicules autonomes et disponible sur Hugging Face. Doté d'une architecture à 10 milliards de paramètres, Alpamayo 1 utilise l'entrée vidéo pour générer des trajectoires et des traces de raisonnement, illustrant ainsi la logique de chaque décision. Alpamayo 1 fournit des poids de modèle et des scripts d'inférence open source. Les futurs modèles de la famille offriront un plus grand nombre de paramètres, des capacités de raisonnement plus détaillées, une plus grande flexibilité des entrées et sorties, ainsi que des options pour une utilisation commerciale.

AlpaSim est un framework de simulation complet et open source pour le développement de véhicules autonomes haute fidélité, disponible sur GitHub. Il offre une modélisation réaliste des capteurs, une dynamique de trafic configurable et des environnements de test en boucle fermée évolutifs, permettant une validation rapide et un perfectionnement des politiques.

Les jeux de données ouverts de Physical AI contiennent plus de 1 700 heures de données de conduite collectées dans un large éventail de zones géographiques et de conditions, couvrant des cas limites rares et complexes du monde réel, essentiels au développement des architectures de raisonnement. Ces jeux de données sont disponibles sur Hugging Face.

Les développeurs peuvent optimiser les versions du modèle Alpamayo à l'aide de données de flotte propriétaires, les intégrer à l'architecture NVIDIA DRIVE Hyperion construite avec le calcul accéléré NVIDIA DRIVE AGX Thor et valider les performances en simulation avant le déploiement commercial.

NVIDIA DRIVE, systèmes AV redondants et Mercedes-Benz CLA

NVIDIA travaille depuis huit ans sur les voitures autonomes avec une équipe de plusieurs milliers de personnes. L'entreprise a conçu l'ensemble de la pile technologique : puces (doubles Orin, doubles Thor de nouvelle génération), infrastructure (Omniverse et Cosmos), modèles (Alpamayo) et couche applicative. Mercedes-Benz s'est associé à NVIDIA il y a cinq ans pour déployer cette pile.

La Mercedes-Benz CLA, premier véhicule autonome entièrement équipé du système NVIDIA, sera commercialisée au premier trimestre 2026 aux États-Unis, au deuxième trimestre en Europe et au troisième ou quatrième trimestre en Asie. Euro NCAP a attribué à la CLA la meilleure note en matière de sécurité active parmi tous les véhicules testés en 2025. Chaque ligne de code et chaque puce du système est certifiée conforme aux normes de sécurité.

Le système exécute deux piles logicielles de conduite autonome complètes en parallèle. La pile Alpamayo utilise un raisonnement séquentiel et gère des scénarios de conduite complexes. Une seconde pile logicielle classique, sous-jacente, est entièrement traçable et a nécessité six à sept ans de développement. Un évaluateur des politiques et de la sécurité détermine la pile à utiliser en fonction du niveau de confiance. Si Alpamayo rencontre un scénario pour lequel il n'est pas certain de la solution, le système bascule vers la pile classique. Cette diversité et cette redondance logicielles reflètent la manière dont les systèmes critiques gèrent la redondance matérielle.

NVIDIA continuera de mettre à jour le système avec de nouvelles versions d'Alpamayo. Ses partenaires du secteur de la mobilité, tels que JLR, Lucid, Uber et Berkeley DeepDrive, utilisent Alpamayo pour le développement d'une autonomie de niveau 4 basée sur le raisonnement.

Nouveaux modèles d'IA physique et annonces en robotique

Parallèlement à ses annonces concernant son infrastructure et ses systèmes, NVIDIA a profité du CES 2026 pour faire progresser sa stratégie d'IA physique en publiant de nouveaux modèles ouverts, frameworks et plateformes edge afin d'accélérer le développement de la robotique. L'entreprise a présenté des mises à jour de ses modèles du monde Cosmos et de ses modèles de raisonnement GR00T pour l'apprentissage robotique, ainsi que de nouveaux outils open source (dont Isaac Lab-Arena) pour l'évaluation de robots à grande échelle. OSMO est un framework d'orchestration edge-to-cloud conçu pour simplifier les flux de travail d'entraînement dans des environnements de calcul hétérogènes.

NVIDIA a mis en avant l'adoption généralisée de sa plateforme robotique par l'industrie, avec des partenaires tels que Boston Dynamics, Caterpillar, LG Electronics et NEURA Robotics, qui ont présenté des machines autonomes de nouvelle génération basées sur les technologies NVIDIA. L'entreprise a également annoncé une collaboration renforcée avec Hugging Face pour intégrer les modèles NVIDIA Isaac et GR00T au sein du framework open source LeRobot, élargissant ainsi l'accès à ces technologies pour la communauté mondiale des développeurs en robotique.

En périphérie de réseau, NVIDIA a confirmé la disponibilité du module Jetson T4000 basé sur la technologie Blackwell, offrant un gain significatif en puissance de calcul IA et en efficacité énergétique pour les machines autonomes et la robotique industrielle. Ces annonces témoignent de la volonté de NVIDIA d'étendre sa plateforme d'IA complète au-delà des centres de données, couvrant la simulation, la modélisation, le calcul en périphérie et le déploiement concret dans les systèmes robotiques et autonomes.

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS

Divyansh Jain

Ingénieur en apprentissage automatique, passionné de laboratoires personnels et de technologies, je travaille chez Storage Review sur l'IA et les tests de charges de travail émergentes afin de fournir des analyses de performance et des informations pratiques.