NVIDIA ha revelado que la supercomputadora Colossus de xAI, que cuenta con 100,000 GPU NVIDIA Hopper Tensor Core, ya está en pleno funcionamiento en Memphis, Tennessee.
NVIDIA ha revelado que la supercomputadora Colossus de xAI, que cuenta con la notable cantidad de 100,000 GPU NVIDIA Hopper Tensor Core, ya está completamente operativa en Memphis, Tennessee. Este logro fue posible gracias a Spectrum-X™ de NVIDIA Plataforma de redes Ethernet diseñada para ofrecer un rendimiento sólido para centros de datos de IA de múltiples inquilinos y a gran escala. Spectrum-X utiliza redes Ethernet basadas en estándares con RDMA para garantizar una comunicación eficiente y un manejo optimizado de los datos dentro de estos entornos a gran escala.
Como la supercomputadora de IA más grande del mundo, Colossus actualmente potencia el entrenamiento de la familia de modelos de lenguaje Grok de xAI, que incluye funcionalidades de chatbot para suscriptores de X Premium. xAI tiene planes adicionales para expandir Colossus a 200,000 GPU NVIDIA Hopper, lo que refuerza su estatus como un recurso de computación de IA de primer nivel. xAI y NVIDIA construyeron esta instalación y la infraestructura de computación avanzada en un récord de 122 días, mientras que proyectos similares suelen durar varios meses o años. Colossus comenzó las operaciones de entrenamiento dentro de los 19 días posteriores a la instalación inicial del bastidor.
Colossus está logrando un rendimiento de red excepcional mientras entrena modelos a gran escala, beneficiándose del control de congestión y el manejo de flujo de Spectrum-X. Esto ha dado como resultado que el sistema experimente una degradación de latencia cero o pérdida de paquetes debido a colisiones de flujo y mantenga una tasa de rendimiento de datos del 95 %, una mejora significativa con respecto a Ethernet tradicional, que generalmente solo registra un rendimiento de datos del 60 % y colisiones de flujo frecuentes.
El avance de la implementación de Spectrum-X de NVIDIA radica en su enfoque para manejar la congestión de la red en este enorme clúster de GPU. Las redes Ethernet tradicionales tienen problemas con el problema de la "incast" cuando miles de GPU se comunican simultáneamente, lo que genera pérdidas de paquetes y una degradación significativa del rendimiento. Si bien InfiniBand tradicionalmente resolvió esto con su control de flujo prioritario (PFC) integrado y la gestión de la congestión a nivel de hardware, Spectrum-X logra resultados similares utilizando RoCE v2 con mecanismos de control de congestión mejorados. Esto permite a xAI mantener características de rendimiento similares a las de InfiniBand al tiempo que aprovecha los beneficios de costos y la flexibilidad de la infraestructura Ethernet estándar.
Las capacidades de enrutamiento adaptativo y ubicación directa de datos de Spectrum-X crean una estructura de red resistente que puede manejar los patrones de tráfico masivos de este a oeste típicos de las cargas de trabajo de entrenamiento de IA distribuidas. El resultado es un sistema que mantiene una baja latencia y un alto rendimiento constantes incluso cuando las 100,000 XNUMX GPU participan activamente en operaciones colectivas.
Gilad Shainer, vicepresidente sénior de redes de NVIDIA, destacó que “la IA es fundamental para la misión” y requiere una combinación de rendimiento, seguridad, escalabilidad y rentabilidad. Destacó cómo la plataforma Spectrum-X de NVIDIA permite a empresas como xAI acelerar el procesamiento, el análisis y la ejecución de cargas de trabajo de IA, lo que da como resultado un desarrollo y una implementación más rápidos de soluciones de IA.
Un portavoz de xAI reconoció las GPU Hopper y la tecnología Spectrum-X de NVIDIA, y citó la escala y el rendimiento del sistema como fundamentales para permitir una “fábrica” de IA optimizada basada en estándares Ethernet.
El conmutador Ethernet Spectrum SN5600 es fundamental para Spectrum-X y admite velocidades de hasta 800 Gb/s con el ASIC del conmutador Spectrum-4. xAI emparejó estratégicamente este conmutador con las SuperNIC BlueField-3® de NVIDIA, logrando niveles de rendimiento que antes eran exclusivos de InfiniBand. La red Ethernet Spectrum-X presenta características como enrutamiento adaptativo con ubicación directa de datos, control de congestión sofisticado y mejor visibilidad de la estructura de IA y aislamiento del rendimiento, lo que satisface los exigentes requisitos de los entornos de IA de múltiples inquilinos y las implementaciones de IA a nivel empresarial.
Interactuar con StorageReview
Boletín | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed