CoreWeave ha presentado su primer sistema Dell XE9712 GB200 NVL-72, ¡completo con información sobre el rendimiento!
CoreWeave ha implementado el último sistema GB200 NVL-72 con los nuevos servidores Dell XE9712. El sistema se exhibió en una demostración en vivo en un centro de datos de última generación de Switch, donde se destacó su rendimiento innovador y su infraestructura de refrigeración avanzada.
El sistema GB200 NVL-72 de CoreWeave, alojado en la Evo Chamber de Rob Roy, está diseñado para manejar las cargas de trabajo computacionales más exigentes. La demostración en vivo comenzó con la prueba NCCL All-Reduce, un punto de referencia que demuestra el ancho de banda ultraalto y la baja latencia de la interconectividad Nvidia NVLink en las 72 GPU del rack. La prueba garantiza una comunicación fluida entre las GPU.
BSobre esta base, la prueba GPU Blaze ilustró la potencia computacional bruta del sistema. Las GPU abordaron cargas de trabajo complejas de multiplicación de matrices, simulando operaciones utilizadas en el entrenamiento de IA, simulaciones científicas y procesamiento avanzado de datos.
Entrenamiento en vivo con Sunk de CoreWeave
El GB200 NVL-72 también se probó con una ejecución de entrenamiento en vivo utilizando Slurm en Kubernetes (Sunk), para entrenar el modelo Megatron. La sesión de entrenamiento validó el rack con una carga de trabajo real y demostró la carga resultante en la infraestructura de refrigeración y energía.
A medida que aumentaba la actividad de la GPU, la unidad de distribución de refrigeración (CDU) en rack ajustaba dinámicamente la salida de refrigeración para mantener temperaturas óptimas del hardware. Los datos en tiempo real de la CDU ilustraron cómo las temperaturas de retorno del fluido aumentaban con las cargas de trabajo de la GPU, lo que garantizaba una gestión térmica eficiente sin comprometer el rendimiento.
El tablero de control de energía del GB200 NVL-72 proporcionó una descripción general continua de los requisitos de energía del sistema, demostrando su eficiencia y transparencia en la gestión de la energía.
La cámara evolutiva de Rob Roy
El NVL72 está alojado en la cámara Evo de Rob Roy, que proporciona una impresionante capacidad de potencia y refrigeración de 1 MW por rack. Este avance en la infraestructura combina 250 kW de refrigeración por aire con 750 kW de capacidad de refrigeración líquida directa al chip, lo que garantiza un rendimiento óptimo para las cargas de trabajo de IA y HPC más exigentes. El sofisticado diseño de la cámara mantiene un uso eficiente de la energía y la gestión térmica al tiempo que admite los requisitos informáticos de próxima generación.
Conclusión
CoreWeave es un claro líder de la industria en lo que se refiere a la prestación de servicios de infraestructura de IA. Gran parte de su éxito se debe a su capacidad para incorporar la infraestructura de IA más reciente más rápido que otras nubes. Los nuevos sistemas Dell GB200 NVL-72 representan una nueva era en la informática de alto rendimiento. Combinan un rendimiento de GPU de vanguardia, soluciones de refrigeración avanzadas y eficiencia energética para satisfacer las demandas de la IA, la investigación científica y las aplicaciones con uso intensivo de datos, una gran victoria para sus clientes que ejecutan cargas de trabajo de IA a gran escala.
Interactuar con StorageReview
Boletín | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed