StorageReview.com

NVIDIA stellt auf der CES 2026 die Vera-Rubin-Architektur vor: Das VR NVL72 Rack

AI  ◇  DPU  ◇  Unternehmen  ◇  Netzwerken  ◇  Server  ◇  Server-Rack

Auf der CES 2026 präsentierte NVIDIA die Rubin-Plattform, deren Herzstück das Rack-Scale-System Vera Rubin NVL72 bildet. Diese Rack-Scale-Architektur der dritten Generation von NVIDIA vereint sechs gemeinsam entwickelte Chips in einem einzigen, einheitlichen System. Die Plattform wird in der zweiten Jahreshälfte 2026 über Partner verfügbar sein. Alle sechs Chips sind bereits aus der Fertigung zurück und werden derzeit mit realen Workloads validiert.

Vera Rubin NVL72: Sechs Chips, ein einheitliches System

Der Vera Rubin NVL72 nutzt das von NVIDIA so genannte „extreme Co-Design“, bei dem sechs verschiedene Chips gemeinsam entwickelt werden, um als einheitliches System zu funktionieren.

Vera-CPU: ARM-Silizium für KI-Fabriken

Der erste vorgestellte Chip war die NVIDIA Vera CPU. NVIDIA investiert weiterhin in kundenspezifische ARM-Chips für KI-Anwendungen. Die Vera basiert auf 88 angepassten Olympus ARM-Kernen mit voller Armv9.2-Kompatibilität und ist speziell für die Anforderungen moderner KI-Systeme an Datenbewegung und agentenbasierte Verarbeitung konzipiert. Sie bietet NVLink-C2C-Konnektivität und liefert eine Bandbreite von 1.8 TB/s an Rubin-GPUs. Dies verdoppelt die C2C-Bandbreite gegenüber Vorgängergenerationen und ist siebenmal schneller als PCIe Gen 6. Die Vera CPU verdoppelt die Leistung bei Datenverarbeitung, Komprimierung und Codekompilierung im Vergleich zur Vorgängergeneration Grace.

Generationenvergleich: Blackwell Ultra vs. Vera Rubin NVL72

Normen GB300 NVL72 (Blackwell Ultra) VR NVL72 (Vera Rubin)
GPU-Anzahl 72 Blackwell Ultra-GPUs 72 Rubin-GPUs
CPU-Anzahl 36 Grace-CPUs 36 Vera-CPUs
CPU-Kerne 72 ARM-Kerne pro CPU 88 Olympus ARM-Kerne pro CPU
FP4-Inferenzleistung 1.44 ExaFLOPS 3.6 ExaFLOPS
NVFP4 pro GPU (Inferenz) 20 PFLOPS 50 PFLOPS
NVFP4 pro GPU (Training) 10 PFLOPS 35 PFLOPS
GPU-Speichertyp HBM3e HBM4
GPU-Speicherbandbreite ~8 TB/s ~22 TB/s
NVLink-Generierung NVLink 5 NVLink 6
NVLink-Bandbreite (pro GPU) 1.8 TB / s 3.6 TB / s
Rack-Scale NVLink Bandbreite 130 TB / s 260 TB / s
Scale-Out NIC ConnectX-8 (800 Gbit/s) ConnectX-9 (1.6 TB/s)
CPU-GPU-Verbindung NVLink-C2C (900 GB/s) NVLink-C2C (1.8 TB/s)

Rubin GPU: Transformer Engines, NVFP4 und HBM4

Als nächstes wurde der Star der Show präsentiert: die NVIDIA Rubin GPU mit ihrer Transformer Engine der dritten Generation und hardwarebeschleunigter adaptiver Komprimierung. Diese passt die Präzision dynamisch über alle Transformer-Layer hinweg an und erzielt so einen höheren Durchsatz, wo die Präzision reduziert werden kann, während die Genauigkeit dort erhalten bleibt, wo sie entscheidend ist. Die NVFP4-Implementierung liefert 50 Petaflops Rechenleistung für Inferenz (5x Blackwell) und 35 Petaflops für Training (3.5x Blackwell). Die Rubin GPU integriert als erste HBM4-Speicher mit einer Bandbreite von bis zu 22 TB/s – ein bedeutender Fortschritt, der die Speicherbandbreitengrenze großer MoE-Modelle überwindet.

NVLink 6: Rackweite All-to-All-Kommunikation

Der NVIDIA NVLink 6 Switch verdoppelt die Bandbreite pro GPU auf 3.6 TB/s, wobei das gesamte Rack eine Scale-up-Netzwerkkapazität von 260 TB/s bietet – mehr als das Doppelte der Gesamtbandbreite des globalen Internets. Diese Scale-up-Architektur ermöglicht es jeder GPU, gleichzeitig mit jeder anderen GPU zu kommunizieren (eine Voraussetzung für die Parallelverarbeitung von Experten im MoE-Bereich), wobei alle Experten ihre Ergebnisse clusterweit teilen müssen. Integrierte Netzwerk-Computing-Funktionen beschleunigen kollektive Operationen und reduzieren Engpässe, indem sie Aufgaben auslagern, die andernfalls GPU-Zyklen beanspruchen würden.

ConnectX-9 SuperNIC: Scale-Out-Netzwerke neu definiert

Die NVIDIA ConnectX-9 SuperNIC ermöglicht Scale-Out-Netzwerke und bietet 1.6 TB/s RDMA-Bandbreite pro GPU für die Kommunikation über das Rack hinaus. ConnectX-9 wurde gemeinsam mit der Vera-CPU entwickelt, um die Datenpfadeffizienz zu maximieren. Sie führt einen vollständig softwaredefinierten, programmierbaren und beschleunigten Datenpfad ein, der es KI-Laboren erlaubt, benutzerdefinierte Datenbewegungsalgorithmen zu implementieren, die für ihre spezifischen Modellarchitekturen optimiert sind.

BlueField-4 DPU und ASTRA Secure-Architektur

BlueField-4 ist NVIDIAs Datenverarbeitungseinheit der vierten Generation und stellt eine grundlegende Neuausrichtung von Speicher und Netzwerk für KI-Workloads dar. Die neue DPU verfügt über eine 64-Kern-CPU in NVIDIA-Qualität (im Vergleich zu den 16 ARM Cortex-A78-Kernen der BlueField-3) und bietet damit die sechsfache Rechenleistung. Sie beinhaltet eine integrierte ConnectX-9 SuperNIC (anstelle der ConnectX-7 in der BlueField-3) und verdoppelt so die Netzwerkbandbreite auf 800 Gbit/s. Der GPU-Zugriff auf den Datenspeicher ist doppelt so schnell wie bei der Vorgängergeneration. Neben den verbesserten Spezifikationen liegt die Bedeutung der BlueField-4 in dem, was sie ermöglicht: eine neue Ebene KI-nativer Speicherinfrastruktur, die NVIDIA als essenziell für agentenbasierte KI im großen Maßstab positioniert.

BlueField-4 lagert Netzwerk-, Speicher- und Sicherheitsverarbeitung aus, sodass sich Rubin-GPUs und Vera-CPUs auf die Modellausführung konzentrieren können. Es ist vollständig in das von der NVIDIA Enterprise AI Factory validierte Design integriert und wird vom Ökosystem von Red Hat, Palo Alto Networks, Fortinet und anderen unterstützt.

BlueField-4 führt außerdem ASTRA (Advanced Secure Trusted Resource Architecture) ein. Diese Systemarchitektur für Vertrauenswürdigkeit bietet einen zentralen Kontrollpunkt für die sichere Bereitstellung, Isolierung und den Betrieb von KI-Umgebungen im großen Maßstab, ohne die Leistung zu beeinträchtigen.

Vertrauliche Datenverarbeitung im gesamten Rack

Vera Rubin NVL72 ist die erste Rack-Scale-Plattform, die NVIDIA Confidential Computing systemweit bereitstellt. Confidential Computing der dritten Generation gewährleistet Datensicherheit auf CPU, GPU und im gesamten NVLink-Netzwerk, wobei jeder Bus während der Übertragung verschlüsselt wird. Dies trägt einem wachsenden Anliegen von Unternehmen und KI-Laboren Rechnung, die proprietäre Modelle auf gemeinsam genutzter Infrastruktur betreiben: die Gewährleistung, dass Modelle, Trainingsdaten und Inferenz-Workloads auch beim Einsatz auf Systemen von Drittanbietern geschützt bleiben.

Der NVIDIA Spectrum-6 Ethernet-Switch bildet die Grundlage für Nvidias Scale-Out-Netzwerke. Er basiert auf der 200G SerDes-Technologie mit Co-Packaged Optics (CPO) und erreicht eine Schaltkapazität von 102 TB/s. Damit ermöglicht er den Ost-West-Verkehr zwischen VR NVL72-Racks. Der Umstieg auf CPO ist ein bedeutender Schritt. Durch die direkte Integration der Optik in den Switch-Chip erzielt NVIDIA laut eigenen Angaben eine zehnfach höhere Zuverlässigkeit, eine fünffach längere Verfügbarkeit und eine fünffach bessere Energieeffizienz im Vergleich zu herkömmlichen steckbaren Optiken.

Kosten- und Effizienzverbesserungen für MoE-Modelle

NVIDIA gibt an, dass die VR NVL72 bei gleicher Latenz im Vergleich zu Blackwell nur ein Siebtel der Token-Kosten für die Inferenz großer Mixture-of-Experts-Modelle (MoE) liefert. Sie benötigt nur ein Viertel der GPUs, um dasselbe große MoE-Modell in der gleichen Zeit zu trainieren. Die Plattform erreicht die achtfache Inferenzleistung pro Watt.

Diese Verbesserungen erfüllen die Anforderungen von MoE-Modellen, die für jedes Token nur eine Teilmenge ihrer Experten aktivieren. Modelle wie Kimi K2 Thinking nutzen 384 Experten, aktivieren aber jeweils nur acht gleichzeitig, was eine massive GPU-Kommunikation zwischen allen Experten erfordert. Die skalierbare Netzwerkarchitektur des VR NVL72 mit 260 TB/s bewältigt dieses Kommunikationsmuster.

Ein kabelloses Rack, das für große Dimensionen konzipiert wurde

Das VR NVL72 zeichnet sich durch ein modulares, kabelloses, lüfterloses und schlauchloses Tray-Design aus, das ausschließlich Leiterplatten und Steckverbinder anstelle interner Verkabelung verwendet. Die Recheneinschübe werden beim Einsetzen in das Rack über Blindsteckverbinder verbunden, wodurch die manuelle Kabelführung entfällt. Die einzigen externen Anschlüsse sind zwei Flüssigkeitseinlass- und -auslassschläuche, die mit den Flüssigkeitskühlblöcken verbunden werden.

Frühere Systeme wie das GB300 NVL72 benötigten etwa 100 Minuten für die Montage eines einzelnen Rechenträgers. Jede Kabelverbindung stellte eine potenzielle Fehlerquelle dar, was bei Hunderttausenden von GPUs erheblich ins Gewicht fällt. Die Kabelführung behinderte die Kühlung und beanspruchte Platz, während Lüfter die mechanische Komplexität und den Geräuschpegel erhöhten.

Das neue Design reduziert Montage- und Wartungszeiten um das 18-Fache. Die Plattform verfügt zudem über eine RAS-Engine (Zuverlässigkeit, Verfügbarkeit, Wartungsfreundlichkeit) der zweiten Generation, die GPU, CPU und NVLink umfasst und Echtzeit-Zustandsprüfungen, Fehlertoleranz und proaktive Wartung ermöglicht. NVLink-Switch-Einschübe unterstützen jetzt die Wartung ohne Ausfallzeiten, sodass Racks auch beim Entfernen oder Teilbestücken der Switch-Einschübe betriebsbereit bleiben. Bei Hunderttausenden von GPUs führen diese Verbesserungen der Wartungsfreundlichkeit direkt zu höherer Clusterverfügbarkeit und höherem Datendurchsatz.

Diese Architektur ermöglicht zukünftige Konfigurationen mit höherer Dichte. Dies ist auch der Schlüssel zu die zuvor angedeutete Vera Rubin CPX Rack-Designs, die wir auf dem AI Infra Summit vorgestellt haben., die außerdem Kontextverarbeitungs-GPUs hinzufügen den gleichen Rechenschlitten in einer bereits dichten Bauweise.

Inferenzkontext-Speicherplattform

NVIDIA hat auf der CES 2026 die Inference Context Memory Storage Platform vorgestellt, eine neue Klasse KI-nativer Speicherinfrastruktur speziell für KV-Cache. Die Plattform basiert auf BlueField-4 und Spectrum-X Ethernet-Netzwerktechnologie. Sie bietet bis zu fünfmal mehr Token pro Sekunde als herkömmliche Netzwerkspeicher für Inferenzkontexte, eine bis zu fünfmal bessere Performance pro TCO-Dollar, eine bis zu fünfmal höhere Energieeffizienz und eine 20-fach schnellere Verarbeitung der Time-to-First-Token. Die hardwarebeschleunigte KV-Cache-Platzierung von BlueField-4 eliminiert den Metadaten-Overhead und reduziert den Datentransfer, während Spectrum-X Ethernet die hohe Bandbreite und geringe Latenz für RDMA-basierten Zugriff bereitstellt.

Diese Plattform adressiert einen zunehmenden Engpass bei der LLM-Inferenz: die KV-Cache-Verwaltung. Transformer-Modelle verwenden einen Aufmerksamkeitsmechanismus, bei dem jedes generierte Token alle vorherigen Token berücksichtigen muss. Ohne Caching müssen die Schlüssel-Wert-Vektoren für jedes Token neu berechnet werden, was zu einer Komplexität von O(n²) führt. KV-Caching speichert diese vorab berechneten Matrizen zur Wiederverwendung im Speicher und reduziert die Komplexität auf O(n). Das Problem besteht darin, dass die Größe des KV-Caches linear mit der Sequenzlänge und der Batchgröße wächst. Eine einzelne Konversation mit langem Kontext kann Gigabytes an Speicher belegen. In Multi-Tenant-Umgebungen, in denen Tausende von gleichzeitigen Anfragen über Kontextfenster mit Millionen von Token verarbeitet werden, stößt der GPU-HBM an seine Grenzen. Betreiber müssen entweder die Batchgrößen reduzieren, die Kontextfenster verkürzen oder zusätzliche GPUs erwerben.

Herkömmliche Netzwerkspeicher wurden nicht für KV-Cache-Zugriffsmuster entwickelt, die latenzarmen Direktzugriff auf potenziell Terabytes an temporären Daten erfordern, die über viele gleichzeitige Sitzungen verteilt sind. Die Inference Context Memory Storage Platform bietet eine dedizierte Speicherebene, die für diese Arbeitslast optimiert ist und zwischen GPU-HBM und herkömmlichem Speicher positioniert ist. Dadurch können KI-Systeme die Kontextkapazität unabhängig von der GPU-Rechenleistung skalieren. Wir haben bereits beschrieben, wie KV-Cache-Offloading mit NVIDIA Dynamo mithilfe eines KV-Cache-Beschleunigers von Pliops funktioniert. NVIDIA skaliert dies mit der NVIDIA Inference Context Memory Storage Platform und integriert sie in sein Open-Source-Projekt Dynamo. Dies stellt das Software-Framework bereit, das die disaggregierten Prefill-/Decode-Phasen, das intelligente Routing und das gestaffelte Speicher-Offloading dieser neuen Plattform miteinander verbindet.

Speicherpartner wie VAST Data, NetApp, DDN, Dell Technologies, HPE, Hitachi Vantara, IBM, Nutanix, Pure Storage und WEKA entwickeln Plattformen mit BlueField-4. Diese werden in der zweiten Jahreshälfte 2026 verfügbar sein.

Alpamayo: Schlussfolgerungsbasierte physikalische KI für autonome Fahrzeuge

NVIDIA hat die Alpamayo-Familie offener KI-Modelle, Simulationstools und Datensätze vorgestellt, die die Entwicklung sicherer, auf logischem Denken basierender autonomer Fahrzeuge (AV) beschleunigen sollen. Die Alpamayo-Familie führt Denkketten-basierte, auf Bildverarbeitung, Sprache und Handlung beruhende Modelle ein, die menschenähnliches Denken in die Entscheidungsfindung autonomer Fahrzeuge integrieren. Das Sicherheitssystem NVIDIA Halo bildet die Grundlage dieser Systeme.

Herkömmliche Architekturen autonomer Fahrzeuge trennen Wahrnehmung und Planung, was die Skalierbarkeit bei neuen oder ungewöhnlichen Situationen einschränken kann. Die Vielzahl seltener, komplexer Szenarien stellt nach wie vor eine der größten Herausforderungen für autonome Systeme dar. Alpamayo begegnet diesem Problem, indem es Modellen ermöglicht, Ursache und Wirkung zu analysieren und neuartige Szenarien schrittweise durchzuspielen, um die Fahrfähigkeit und die Erklärbarkeit zu verbessern.

Anstatt direkt im Fahrzeug zu laufen, dienen Alpamayo-Modelle als groß angelegte Lehrmodelle, die Entwickler feinabstimmen und in die Grundstruktur ihrer kompletten AV-Systeme integrieren können. Entwickler können Alpamayo in kleinere Laufzeitmodelle für die Fahrzeugentwicklung anpassen oder es als Grundlage für AV-Entwicklungswerkzeuge wie datenbasierte Evaluatoren und automatische Kennzeichnungssysteme verwenden.

Alpamayo-Modelle, Simulationen und offene Datensätze

Alpamayo 1 ist das branchenweit erste VLA-Modell mit Gedankenkettenlogik, das speziell für die AV-Forschungsgemeinschaft entwickelt wurde und auf Hugging Face verfügbar ist. Mit einer Architektur aus 10 Milliarden Parametern generiert Alpamayo 1 mithilfe von Videoeingaben Trajektorien und Entscheidungsspuren, die die Logik hinter jeder Entscheidung verdeutlichen. Alpamayo 1 stellt Open-Source-Modellgewichte und Inferenzskripte bereit. Zukünftige Modelle dieser Familie werden eine höhere Parameteranzahl, detailliertere Analysemöglichkeiten, größere Flexibilität bei Ein- und Ausgaben sowie Optionen für die kommerzielle Nutzung bieten.

AlpaSim ist ein vollständig quelloffenes, durchgängiges Simulationsframework für die Entwicklung hochpräziser autonomer Fahrzeuge und ist auf GitHub verfügbar. Es bietet realistische Sensormodellierung, konfigurierbare Verkehrsdynamik und skalierbare Testumgebungen mit geschlossenem Regelkreis, wodurch eine schnelle Validierung und Richtlinienoptimierung ermöglicht wird.

Die Physical AI Open Datasets enthalten über 1,700 Stunden Fahrdaten, die unter verschiedensten geografischen Bedingungen und in unterschiedlichsten Umgebungen erfasst wurden. Sie decken seltene und komplexe reale Grenzfälle ab, die für die Weiterentwicklung von KI-Architekturen unerlässlich sind. Diese Datensätze sind auf Hugging Face verfügbar.

Entwickler können Alpamayo-Modellfreigaben anhand proprietärer Flottendaten feinabstimmen, sie in die mit NVIDIA DRIVE AGX Thor-beschleunigter Rechenleistung ausgestattete NVIDIA DRIVE Hyperion-Architektur integrieren und die Leistung in Simulationen vor der kommerziellen Einführung validieren.

NVIDIA DRIVE, redundante AV-Stacks und Mercedes-Benz CLA

NVIDIA arbeitet seit acht Jahren mit einem Team von mehreren Tausend Mitarbeitern an selbstfahrenden Autos. Das Unternehmen entwickelte die gesamte Technologie: Chips (zwei Orin-Chips, zwei Thor-Chips der nächsten Generation), Infrastruktur (Omniverse und Cosmos), Modelle (Alpamayo) und die Anwendungsschicht. Mercedes-Benz ging vor fünf Jahren eine Partnerschaft mit NVIDIA ein, um diese Technologie zu implementieren.

Der Mercedes-Benz CLA, das erste vollständig auf NVIDIA basierende autonome Fahrzeug, kommt im ersten Quartal 2026 in den USA, im zweiten Quartal in Europa und im dritten/vierten Quartal in Asien auf den Markt. Euro NCAP bewertete den CLA mit der höchsten Punktzahl für aktive Sicherheit aller im Jahr 2025 eingereichten Fahrzeuge. Jede Codezeile und jeder Chip im System ist sicherheitszertifiziert.

Das System betreibt zwei vollständige AV-Stacks parallel. Der Alpamayo-Stack nutzt logisches Denken und bewältigt komplexe Fahrszenarien. Ein zweiter, klassischer AV-Stack im Hintergrund ist vollständig nachvollziehbar und wurde über sechs bis sieben Jahre entwickelt. Ein Experten für Richtlinien und Sicherheit entscheidet anhand des Vertrauensniveaus, welcher Stack zum Einsatz kommt. Tritt Alpamayo auf ein Szenario, in dem es sich nicht sicher ist, greift das System auf den klassischen Stack zurück. Diese Vielfalt und Redundanz in der Software spiegelt die Hardware-Redundanz in sicherheitskritischen Systemen wider.

NVIDIA wird das System weiterhin mit neuen Versionen von Alpamayo aktualisieren. Mobilitätspartner wie JLR, Lucid, Uber und Berkeley DeepDrive nutzen Alpamayo für die Entwicklung von auf Schlussfolgerungen basierender Autonomie der Stufe 4.

Neue Ankündigungen zu physikalischen KI-Modellen und Robotik

Neben Ankündigungen zu Infrastruktur und Systemen nutzte NVIDIA die CES 2026 auch, um seine Strategie für physikalische KI voranzutreiben. Dazu wurden neue offene Modelle, Frameworks und Edge-Plattformen veröffentlicht, die die Robotikentwicklung beschleunigen sollen. Das Unternehmen präsentierte Updates seiner Cosmos-Weltmodelle und GR00T-Modelle für das maschinelle Lernen von Robotern sowie neue Open-Source-Tools (darunter Isaac Lab-Arena) für die groß angelegte Roboterbewertung. OSMO ist ein Framework zur Orchestrierung von Edge-zu-Cloud-Umgebungen, das Trainingsabläufe in heterogenen Rechenumgebungen vereinfacht.

NVIDIA hob die breite Branchenakzeptanz seiner Robotik-Plattform hervor. Partner wie Boston Dynamics, Caterpillar, LG Electronics und NEURA Robotics präsentierten autonome Maschinen der nächsten Generation, die auf NVIDIA-Technologien basieren. Das Unternehmen kündigte zudem eine engere Zusammenarbeit mit Hugging Face an, um die Modelle NVIDIA Isaac und GR00T in das Open-Source-Framework LeRobot zu integrieren und so den Zugang für die globale Entwicklergemeinschaft im Bereich Robotik weiter zu verbessern.

NVIDIA bestätigte die Verfügbarkeit des Blackwell-basierten Jetson T4000-Moduls für Edge-Computing, das eine deutliche Steigerung der KI-Rechenleistung und Energieeffizienz für autonome Maschinen und Industrieroboter ermöglicht. Diese Ankündigungen unterstreichen NVIDIAs Bestrebungen, seine umfassende KI-Plattform über das Rechenzentrum hinaus zu erweitern und Simulation, Modellierung, Edge-Computing sowie den realen Einsatz in Robotik und autonomen Systemen abzudecken.

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed

Divyansh Jain

Machine-Learning-Ingenieur, Heimlabor-Enthusiast und Technologie-Fan. Bei Storage Review beschäftige ich mich mit KI und dem Testen neuer Workloads, um praxisnahe Erkenntnisse und Leistungsanalysen zu liefern.