CoreWeave hat sein erstes Dell XE9712 GB200 NVL-72-System vorgestellt – inklusive Leistungseinblicken!
CoreWeave hat das neueste GB200 NVL-72-System mit den neuen Dell XE9712-Servern implementiert. Das System wurde in einer Live-Demonstration in einem hochmodernen Switch-Rechenzentrum präsentiert, wo seine bahnbrechende Leistung und fortschrittliche Kühlinfrastruktur hervorgehoben wurden.
Das GB200 NVL-72-System von CoreWeave, das in Rob Roys Evo Chamber untergebracht ist, ist für die anspruchsvollsten Rechenlasten ausgelegt. Die Live-Demo begann mit dem NCCL All-Reduce-Test, einem Benchmark, der die ultrahohe Bandbreite und geringe Latenz der Nvidia NVLink-Verbindung zwischen den 72 GPUs des Racks demonstriert. Der Test stellt eine nahtlose Kommunikation zwischen den GPUs sicher.
BDarauf aufbauend veranschaulichte der GPU Blaze Test die reine Rechenleistung des Systems. Die GPUs bewältigten komplexe Matrixmultiplikationsaufgaben und simulierten Operationen, die beim KI-Training, bei wissenschaftlichen Simulationen und bei der fortgeschrittenen Datenverarbeitung verwendet werden.
Live-Training mit CoreWeaves Sunk
Der GB200 NVL-72 wurde außerdem mit einem Live-Trainingslauf mit Slurm auf Kubernetes (Sunk) getestet, bei dem das Megatron-Modell trainiert wurde. Die Trainingssitzung validierte das Rack mit einer realen Arbeitslast und demonstrierte die daraus resultierende Belastung der Kühl- und Stromversorgungsinfrastruktur.
Bei zunehmender GPU-Aktivität passte die Cooling Distribution Unit (CDU) im Rack die Kühlleistung dynamisch an, um optimale Hardwaretemperaturen aufrechtzuerhalten. Echtzeitdaten der CDU zeigten, wie die Flüssigkeitsrücklauftemperaturen bei steigender GPU-Arbeitslast anstiegen, wodurch ein effizientes Wärmemanagement ohne Leistungseinbußen gewährleistet wurde.
Das Power-Dashboard des GB200 NVL-72 bot einen kontinuierlichen Überblick über den Energiebedarf des Systems und demonstrierte dessen Effizienz und Transparenz im Energiemanagement.
Rob Roys Evo-Kammer
Der NVL72 ist in Rob Roys Evo Chamber untergebracht, die beeindruckende 1 MW Leistung und Kühlleistung pro Rack bietet. Dieser Infrastrukturfortschritt kombiniert 250 kW Luftkühlung mit 750 kW Direct-to-Chip-Flüssigkeitskühlungsleistung und gewährleistet so optimale Leistung für die anspruchsvollsten KI- und HPC-Workloads. Das ausgeklügelte Design der Kammer sorgt für effizienten Stromverbrauch und Wärmemanagement und unterstützt gleichzeitig die Computeranforderungen der nächsten Generation.
Fazit
CoreWeave ist ein klarer Branchenführer, wenn es darum geht, KI-Infrastruktur als Service anzubieten. Ein Großteil ihres Erfolgs ist auf ihre Fähigkeit zurückzuführen, die neueste KI-Infrastruktur schneller als andere Clouds zu integrieren. Die neuen Dell GB200 NVL-72-Systeme repräsentieren eine neue Ära des High-Performance-Computing. Sie kombinieren modernste GPU-Leistung, fortschrittliche Kühllösungen und Energieeffizienz, um den Anforderungen von KI, wissenschaftlicher Forschung und datenintensiven Anwendungen gerecht zu werden – ein großer Gewinn für ihre Kunden, die KI-Workloads in großem Maßstab ausführen.
Beteiligen Sie sich an StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed