Auf der GTC 2026 präsentierte VDURA Updates seiner Datenplattform, die die GPU-Auslastung und Speichereffizienz in KI-Umgebungen verbessern. Die Ankündigung umfasst die allgemeine Verfügbarkeit von Remote Direct Memory Access (RDMA), eine Vorschau der Context-Aware Tiering-Technologie sowie validierte Infrastrukturkonfigurationen auf Basis von AMD EPYC Turin-Prozessoren und NVIDIA ConnectX-7-Netzwerktechnologie.
Die Aktualisierungen zielen darauf ab, Datentransferengpässe zwischen GPU-Clustern und Speichern zu beseitigen und die Datenplatzierung über verschiedene Speicherebenen hinweg für umfangreiche KI-Trainings- und Inferenz-Workloads zu optimieren. RDMA ermöglicht GPU-direkte Datenpfade.
VDURA hat RDMA-Unterstützung auf seiner gesamten Plattform implementiert, wodurch GPU-Server direkt über das Netzwerk auf den Speicher zugreifen können, ohne dass die CPU beteiligt ist. Dies ermöglicht GPU-zu-Speicher-Datenübertragungen, die herkömmliche, vom Kernel und der CPU vermittelte Pfade umgehen, wodurch die Latenz reduziert und der Durchsatz erhöht wird.
Die Implementierung integriert sich in VDURA DirectFlow, die Datentransferschicht des Unternehmens, um sicherzustellen, dass der gesamte GPU-Server-Datenverkehr über RDMA abgewickelt wird. Durch die Eliminierung des CPU-Overheads im Datenpfad bleiben die Rechenressourcen für Modelltraining und Inferenzaufgaben reserviert. Dieser Ansatz zielt darauf ab, eine höhere GPU-Auslastung bei gleichzeitiger Minimierung der Pipeline-Latenz in verteilten KI-Clustern zu gewährleisten.
Kontextbezogene Tiering-Ziele: Effizienz der Datenplatzierung
VDURA stellte außerdem die erste Phase seiner kontextsensitiven Tiering-Funktion vor, deren Veröffentlichung für später in diesem Jahr geplant ist. Diese Funktion ermöglicht die automatische Datenplatzierung auf verschiedenen Speicherebenen basierend auf dem Arbeitslastverhalten und den Zugriffsmustern.
In der ersten Phase wird der DirectFlow-Puffer auf lokale NVMe-SSDs erweitert, sodass häufig abgerufene Daten näher an den Rechenressourcen gespeichert werden. Dies reduziert die Abhängigkeit von gemeinsam genutztem oder netzwerkgebundenem Speicher für häufig abgerufene Daten und verbessert die Antwortzeiten für aktive Workloads.
Die Plattform führt außerdem KVCache-Writeback-Steuerungen ein, die gezielt nur kritische Inferenzdaten dauerhaft speichern. Dadurch werden unnötige Schreibvorgänge reduziert, während gleichzeitig die für produktive Inferenzpipelines erforderlichen Persistenzgarantien eingehalten werden.
Darüber hinaus implementiert VDURA ein einheitliches Context Cache Tiering Framework, das DRAM und lokale SSDs umfasst. Dies ermöglicht schnelle Lese- und Schreibzugriffe, die der Leistung eines LMCache entsprechen, und unterstützt Anwendungsfälle wie die Inferenz von Long-Context-LLM und die generische Abfrageoptimierung.
VDURA wies darauf hin, dass zukünftige Phasen des Context-Aware Tiering auf die anwendungsbezogene Datenplatzierung, eine verbesserte Cache-Kohärenz über Knoten hinweg und die Unterstützung neuer Infrastrukturkomponenten wie NVIDIA BlueField-4 DPUs ausgeweitet werden.
Das Unternehmen stellte außerdem optimierte Plattformkonfigurationen vor, die AMD EPYC Turin-Prozessoren mit NVIDIA ConnectX-7-Netzwerkadaptern kombinieren. Diese Konfigurationen sind darauf ausgelegt, RDMA-fähige Datenpfade zu ergänzen und eine Kommunikation mit hohem Durchsatz und geringer Latenz zwischen GPU-Clustern und Speichersystemen zu unterstützen.
Fokus auf eine vollständige KI-Datenpipeline
VDURA-CEO Ken Claffey hob die KI-Speicherplattform des Unternehmens hervor, die die gesamte Datenhierarchie vom Arbeitsspeicher bis zum Langzeitspeicher abdeckt, und betonte deren Leistungsfähigkeit. Er erklärte, die Plattform nutze RDMA für den direkten, CPU-freien Datenzugriff und verfüge über Context-Aware Tiering zur Positionierung von Daten auf verschiedenen Speicherebenen. Claffey merkte an, dass diese Innovationen Unternehmen dabei helfen, größere Modelle zu unterstützen, mehr Inferenzanfragen zu verarbeiten und die KI-Infrastruktur zu skalieren, während gleichzeitig die Anforderungen an die Zuverlässigkeit von KI im Produktivbetrieb erfüllt werden.
Der kombinierte Ansatz soll größere Modellgrößen unterstützen, den Inferenzdurchsatz erhöhen und die Infrastruktureffizienz verbessern, während gleichzeitig die Zuverlässigkeitsanforderungen für produktive KI-Implementierungen aufrechterhalten werden.
Verfügbarkeit
RDMA ist jetzt auf den VDURA V5000- und V7000-Plattformen verfügbar. Die allgemeine Verfügbarkeit von Context-Aware Tiering Phase 1 wird voraussichtlich im Laufe des Jahres 2026 erreicht; Vorabzugangsprogramme laufen bereits.




Amazon