Inicio Empresa Revisión de Supermicro X13 SuperBlade: el dispositivo de inteligencia artificial que lo hace todo

Revisión de Supermicro X13 SuperBlade: el dispositivo de inteligencia artificial que lo hace todo

by Jordan Ranous

El chasis Supermicro X13 SuperBlade y los blades de GPU son una opción robusta y altamente adaptable, especialmente para tareas de IA de tamaño mediano.

Supermicro ha sido pionero en la tecnología de servidores Blade y sus sistemas SuperBlade son prueba de ello. La introducción del chasis y los blades Supermicro X13 SuperBlade abre un nuevo capítulo para la tecnología con blades habilitados para GPU y la integración de las últimas CPU Emerald Rapids y GPU NVIDIA H100. Estos avances aportan una potencia de procesamiento y una eficiencia excepcionales, lo que convierte al X13 en un candidato ideal para diversas aplicaciones de alta gama.

Chasis Supermicro X13 SuperBlade

Diseño y especificaciones

El chasis Supermicro X13 SuperBlade conserva el familiar diseño de chasis 8U, conocido por su alta densidad y flexibilidad. Cada chasis admite hasta 20 blades, y la última oferta se ha mejorado significativamente al integrar CPU Emerald Rapids y GPU NVIDIA H100. Esta potente combinación promete ofrecer capacidades computacionales sin precedentes. Además, el chasis tiene comunicaciones InfiniBand de 200G y Ethernet de 25G, lo que garantiza una transferencia de datos de alta velocidad y eficiencia de red.

Casos de uso populares:

  1. Data Analytics: Con la potencia de procesamiento avanzada de las CPU Emerald Rapids y las capacidades informáticas aceleradas de las GPU NVIDIA H100, las X13 SuperBlades son excepcionalmente adecuadas para tareas exigentes de análisis de datos. Estas tareas incluyen el procesamiento de datos en tiempo real y extensas operaciones de extracción de datos, que son cada vez más críticas en el mundo actual basado en datos.
  2. Inteligencia Artificial y Aprendizaje Automático: Los X13 SuperBlades ofrecen la potencia necesaria para los modelos de inteligencia artificial y aprendizaje automático, en particular los algoritmos de aprendizaje profundo que requieren importantes recursos computacionales.
  3. Computación de alto rendimiento: Las simulaciones científicas, la investigación médica y las tareas computacionales avanzadas en ingeniería se beneficiarán significativamente del rendimiento mejorado del X13, lo que lo convierte en una excelente opción para aplicaciones informáticas de alto rendimiento.
  4. Computación en la nube (Cloud Computing): La mayor densidad y rendimiento de los blades los hacen ideales para proveedores de servicios en la nube. Pueden manejar muchas aplicaciones y servicios basados ​​en la nube, incluidos aquellos que requieren virtualización y contenedorización intensivas.
  5. Redes y Comunicaciones: Equipado con comunicaciones InfiniBand de 200G y Ethernet de 25G, el X13 destaca en aplicaciones de gran ancho de banda y baja latencia, lo que lo hace adecuado para tareas exigentes de redes y comunicaciones. Gracias a su red externa, SuperBlade puede actuar como un centro, proporcionando comunicaciones InfiniBand y Ethernet con servidores tradicionales no blade en el mismo rack o centro de datos.

En nuestro banco de pruebas proporcionado por Supermicro, teníamos cinco palas en total. Cuatro estaban equipados con un solo procesador y capacidad para aceptar un acelerador PCIe, en nuestro caso, cuatro NVIDIA H100 y un blade de doble procesador. Continuaremos con una revisión posterior del Comput Blade, la extensión de esta revisión hizo que su inclusión fuera un poco excesiva.

Hoja de datos de Supermicro X13 SuperBlade

Componente Descripción
Cubierta 1x SBE-820H2-630
PSW 6x PWS-3K01A-BR
Ventilador 2xPWS-DF006-2F
BBP 1x AOC-MB-BBP01-P
CMM MBM-CMM-6
Interruptor IB 1x SBM-IBS-H4020
ES Cambiar 2x SBM-25G-200
Configuración de la hoja
  • SBI-411E-5G:
    • 1 CPU 8562Y+
    • 8x MEM-DR532L-CL01-ER48
    • 2x HDS-SMN0-MZ1L23T8HBLAA7 (unidad Samsung 3840G M.2)
    • 1x GPU-NVH100-80
    • 1x SNK-P0088P
    • 1x AOC-IBH-X6HS-P
  • SBI-411E-5G: [Igual que arriba]
  • SBI-411E-5G: [Igual que el anterior, con unidad Micron 480G M.2]
  • SBI-411E-5G: [Igual que el anterior, con unidad Micron 480G M.2]
  • SBI-421E-5T3N:
    • 2x8562Y+
    • 512Gb DDR5
    • 1x HDS-MMN-MTFDKBA480TFR1BC (unidad Micron 480G M.2)
    • 1x HDS-MUN-MTFDKCC3T8TDZ1AZ (unidad Micron 3840G U.2)
    • 2x SNK-P0088P
    • 1x AOC-IBH-X6HS-P

SuperBlades GPU Supermicro X13

A primera vista, las placas de GPU desmienten su potencia, con una entrada en la parte frontal, y nuestra placa de procesador dual tiene algunas bahías NVMe de 2.5 ″ en lugar de la GPU.

GPU Supermicro X13 SuperBlade y blades de computación

En la parte posterior hay una increíble cantidad de pines para conectar el blade al chasis, transportando toda la energía y los datos.

Mirando hacia adentro, podemos ver los SSD de arranque m.2 en la hoja de la GPU.

Desde arriba podemos ver las guías desconcertantes del aire. Observe la diferencia entre un blade de GPU y un blade de CPU dual. La placa base GPU blade es idéntica a la CPU dual, pero solo la mitad posterior de E/S.

En el frente, podemos comenzar a ver las diferentes implementaciones. El módulo de GPU tiene un elevador PCIe, mientras que el módulo de CPU tiene un elevador PCIe U.2 y puede acomodar varios componentes en sus ranuras PCIe. El chasis está diseñado para una refrigeración óptima de las GPU pasivas al introducir primero aire fresco en la GPU.

Continuando, comenzando en la parte posterior del chasis, podemos ver las fuentes de alimentación y la conectividad de red. El conmutador superior de ancho completo es para NVIDIA Quantum InfiniBand de 200 Gbit. El más grande de los dos conmutadores inferiores es el Ethernet de 25G y el módulo pequeño en el medio es para el módulo de administración del chasis.

Supermicro X13 SuperBlade chasis trasero

Gestión e implementación del chasis Supermicro X13 SuperBlade

La integración de un módulo de administración de chasis (CMM) en el chasis SuperBlade X13 de Supermicro ofrece una variedad de beneficios que se extienden más allá de los blades individuales para abarcar todo el rack, elevando la eficiencia general y la capacidad de administración de las operaciones del centro de datos. La CMM sirve como punto de control centralizado, agilizando la gestión del sistema SuperBlade X13.

Gestión del chasis Supermicro X13 SuperBlade

Un único panel de vidrio para todas las funciones del chasis es fundamental para plataformas integradas como un chasis blade. Aunque la capacidad de apagar y encender blades individuales puede ser importante para algunos, una serie de otras funciones desempeñan un papel valioso en las rutinas de gestión diarias.

La CMM de Supermicro ofrece un punto de aterrizaje central para monitorear el chasis, ver los blades instalados y administrar los interruptores integrados instalados en la parte posterior del chasis. Esta administración fuera de banda también obtiene las direcciones IP de los dispositivos, por lo que desde ese punto central, puede acceder fácilmente a cada dispositivo conectado.

La gestión de cada blade instalado es similar a la de un servidor Supermicro independiente. Actividades como las actualizaciones del BIOS se realizan a través de su BMC, como se experimenta en un experimento anterior. Este enfoque centralizado permite una implementación rápida y actualizaciones consistentes en todos los blades, lo que garantiza que cada componente funcione con el firmware y la configuración más recientes. Esta uniformidad es vital para mantener la estabilidad y el rendimiento del sistema, especialmente en entornos informáticos densos donde las disparidades de configuración pueden generar ineficiencias significativas.

La función de la CMM en la gestión del SuperBlade X13 se extiende al monitoreo y control del estado de todo el bastidor. Supervisa el consumo de energía, la refrigeración, las redes y el estado del sistema, proporcionando una visión holística del rendimiento del rack. Esta vigilancia es crucial para identificar y abordar problemas potenciales antes de que se agraven, minimizar el tiempo de inactividad y mantener una eficiencia operativa óptima.

El CMM, además de administrar los servidores blade, también maneja la administración de la red a través de la misma interfaz única. Esto permite a los usuarios acceder y ver fácilmente las pantallas de administración de conmutadores de ambos conmutadores conectados, con sus respectivas direcciones IP mostradas. El CMM también puede comunicarse con sistemas vecinos para implementaciones más grandes, proporcionando un paquete de gestión integral.

En esencia, la CMM transforma la gestión de SuperBlade X13 de una serie de tareas individuales a un proceso cohesivo y optimizado. Es similar a tener un centro de comando que simplifica la administración de cada blade y mejora el rendimiento y la confiabilidad general de todo el rack. Este enfoque de administración de blades y racks es útil para los equipos de administración de hardware, especialmente en centros de datos donde la escalabilidad, la confiabilidad y el uso eficiente del tiempo son primordiales.

Supermicro SuperBlade SBI-411E-5G – Rendimiento NVIDIA H100

En informática de alto rendimiento, el SuperBlade SBI-411E-5G, con NVIDIA H100, es una herramienta versátil y potente para entrenamiento distribuido e inferencia de una sola hoja. Esta flexibilidad es particularmente evidente cuando las demandas computacionales fluctúan significativamente, como en los centros de datos que administran cargas de trabajo variables.

Supermicro X13 SuperBlade - GPU NVIDIA H100

Escenarios de entrenamiento distribuido

Los nodos SuperBlade H100 destacan en el entrenamiento distribuido, un proceso vital para modelos complejos de IA. Imagine un escenario en el que se entrena un modelo de red neuronal a gran escala en un vasto conjunto de datos. El entrenamiento del modelo se distribuye en múltiples blades, cada uno de los cuales aprovecha la potencia de las GPU avanzadas del H100. Esta distribución acelera el proceso de capacitación y permite manejar modelos más grandes y conjuntos de datos poco prácticos en máquinas individuales.

La InfiniBand 200G juega un papel fundamental aquí. Su comunicación de gran ancho de banda y baja latencia es esencial para la capacitación distribuida, donde el intercambio de datos rápido y eficiente entre blades es crucial. Esta conectividad garantiza que los datos y los parámetros de aprendizaje se sincronicen de manera consistente y rápida en todos los blades, minimizando los cuellos de botella que a menudo se encuentran en el procesamiento de datos de gran volumen.

Entrenamiento distribuido en el laboratorio

La capacitación distribuida ha revolucionado la forma en que abordamos las tareas de aprendizaje automático y aprendizaje profundo a gran escala. Los datos son los reyes y la capacidad de procesar grandes cantidades de datos de entrenamiento de manera eficiente ha sido el cuello de botella durante algún tiempo. Aquí es donde las bibliotecas de código abierto y el hardware potente, como el Supermicro SuperBlade X13 con cuatro GPU PCIe, cambian las reglas del juego, especialmente cuando se conectan a través de una red InfiniBand 200G de alta velocidad.

Las bibliotecas de código abierto, como TensorFlow y PyTorch, se han convertido en elementos básicos de la comunidad de aprendizaje automático, con el apoyo y la validación de todos los fabricantes. Ofrecen marcos robustos, flexibles y en constante evolución para desarrollar y escalar modelos de aprendizaje automático. Los requisitos computacionales pueden ser asombrosos cuando se entrenan modelos complejos, como los utilizados en el procesamiento del lenguaje natural o la visión por computadora. Aquí es donde interviene el SuperBlade X13.

Blade X13 habilitado para GPU

La plataforma SuperBlade X13 es bien conocida por sus capacidades informáticas de alta densidad, lo que la convierte en una excelente opción para entornos HPC. Utilizando blades SBI-411E-5G de doble ancho y media altura equipados con GPU PCIe H100, el SuperBlade X13 admite hasta 10 GPU con refrigeración por aire y hasta 20 GPU con refrigeración líquida por chasis para manejar inmensas tareas de procesamiento paralelo. . Es importante destacar que los blades se pueden reconfigurar en cualquier momento, lo que los hace extremadamente flexibles a medida que cambian las cargas de trabajo de IA de una empresa.

Incorporar InfiniBand al chasis, con una latencia extremadamente baja y un alto rendimiento, ayuda a que los datos y los parámetros del modelo se trasladen constantemente entre nodos. Esta red de alta velocidad reduce significativamente el tiempo de transferencia de datos, lo que suele ser un cuello de botella en los sistemas distribuidos, especialmente cuando se trata de conjuntos de datos a gran escala y arquitecturas de modelos complejos.

La integración de bibliotecas de código abierto para la capacitación distribuida sobre esta configuración implicó varios pasos clave. Primero, tuvimos que seleccionar contenedores y bibliotecas optimizados para utilizar plenamente las capacidades de la GPU. Esto consiste en utilizar versiones de estas bibliotecas habilitadas para CUDA, lo que garantiza que puedan aprovechar directamente la potencia de procesamiento de la GPU. En segundo lugar, InfiniBand debe aprovecharse con NCCL (Biblioteca de comunicaciones colectivas de NVIDIA), que proporciona rutinas de comunicación optimizadas para la comunicación colectiva de múltiples GPU y múltiples nodos.

En la práctica, al configurar una tarea de entrenamiento distribuido en esta plataforma, cada nodo (en este caso, cada SuperBlade) ejecuta una parte del modelo. Los parámetros del modelo se sincronizan entre los nodos en tiempo real, lo que facilita la velocidad y la baja latencia de la red InfiniBand. Esta sincronización es crucial para la convergencia y precisión del modelo.

TensorRT y LLM

El modelo de lenguaje grande (LLM) TensorRT de NVIDIA representa un avance significativo en inteligencia artificial y aprendizaje automático. Diseñado para brindar eficiencia y velocidad, TensorRT LLM es un componente fundamental en el ecosistema de los sistemas de servidores Blade, conocido por su rendimiento excepcional en el procesamiento de tareas complejas de IA. Su diseño satisface las necesidades de los profesionales técnicos y los tomadores de decisiones de TI, ofreciendo una solución sólida para manejar los exigentes requisitos computacionales de los centros de datos modernos.

El marco técnico de TensorRT LLM de NVIDIA está diseñado para aprovechar todo el potencial de la IA y el aprendizaje profundo. Está diseñado para optimizar la inferencia de redes neuronales, lo que lo convierte en una opción ideal para entornos informáticos de alto rendimiento. TensorRT LLM logra una eficiencia notable a través de su capacidad para convertir modelos entrenados en motores de tiempo de ejecución optimizados, lo que reduce significativamente la latencia y aumenta el rendimiento. Esta característica beneficia principalmente a los sistemas de servidores Blade, donde el procesamiento rápido de datos y los tiempos de respuesta mínimos son cruciales. Además, su compatibilidad con la amplia gama de GPU de NVIDIA mejora su versatilidad, convirtiéndola en una solución escalable en diversas configuraciones de TI.

Una de las características destacadas de TensorRT LLM de NVIDIA es su capacidad para capacitación distribuida. Este aspecto es particularmente crucial en entornos donde los modelos de aprendizaje automático a gran escala son la norma. La capacitación distribuida permite a TensorRT LLM aprovechar múltiples sistemas, distribuyendo la carga computacional de manera eficiente. Esto conduce a una reducción significativa del tiempo de entrenamiento para modelos complejos sin comprometer la precisión o el rendimiento. La capacidad de realizar capacitación distribuida en varios nodos hace que TensorRT LLM sea altamente adaptable a infraestructuras de TI expansivas, que a menudo se encuentran en grandes organizaciones e instalaciones de investigación. Además, este enfoque distribuido facilita el manejo de conjuntos de datos masivos, un desafío común en proyectos avanzados de IA, permitiendo así un desarrollo de modelos de IA más robustos y sofisticados.

Las capacidades de optimización e inferencia de alto rendimiento de TensorRT LLM se adaptan idealmente a la naturaleza densa e interconectada de los servidores Blade. Al aprovechar TensorRT LLM, los sistemas Blade pueden ejecutar modelos complejos de IA de manera más eficiente, lo que genera tiempos de procesamiento más rápidos y una latencia reducida. Esto es especialmente crítico en escenarios donde el análisis de datos y la toma de decisiones en tiempo real son esenciales, como los modelos financieros o los diagnósticos de atención médica.

La combinación de Supermicro SuperBlade con las capacidades de capacitación distribuida y la adaptabilidad de TensotRT LLM en múltiples sistemas aumenta el valor del activo para los profesionales técnicos y los tomadores de decisiones de TI. Al aprovechar esta poderosa combinación, las organizaciones pueden manejar de manera eficiente proyectos de IA a gran escala, garantizando un procesamiento más rápido, una latencia reducida e implementaciones de IA escalables. Para facilitar esto, utilizamos la red Quantum InfiniBand dentro del chasis.

Punto de referencia de rendimiento de inferencia de una sola hoja con MLPerf

La arquitectura de una CPU a una GPU por nodo en los blades de GPU ofrece beneficios potenciales para cargas de trabajo de inteligencia artificial y análisis de datos, especialmente para tareas de inferencia de un solo blade. Este diseño proporciona una proporción equilibrada de potencia de procesamiento, lo que permite una utilización óptima de las capacidades de la GPU.

Para probar el rendimiento de Single Blade Inferencing, ejecutamos MLPerf 3.1 Inference, tanto fuera de línea como en el servidor. BERT (Representaciones de codificador bidireccional de Transformers) es un modelo basado en transformadores que se utiliza principalmente para tareas de procesamiento del lenguaje natural, como responder preguntas, comprender el lenguaje y clasificar oraciones. ResNet-50 es un modelo de red neuronal convolucional (CNN) ampliamente utilizado para tareas de clasificación de imágenes. Es una variante del modelo ResNet con 50 capas, conocida por su arquitectura profunda pero su rendimiento eficiente.

Inferencia de nodo único
ResNet-50 – Sin conexión: 46,326.6
ResNet-50 – Servidor: 47,717.4
BERT K99 – Sin conexión: 3,702.4
BERT K99 – Servidor: 4,564.11
  • Modo sin conexión: este modo mide el rendimiento de un sistema cuando todos los datos están disponibles para su procesamiento simultáneamente. Es similar al procesamiento por lotes, donde el sistema procesa un gran conjunto de datos en un solo lote. Este modo es crucial para escenarios donde la latencia no es una preocupación principal, pero sí el rendimiento y la eficiencia.
  • Modo servidor: por el contrario, el modo servidor evalúa el rendimiento del sistema en un escenario que imita un entorno de servidor real, donde las solicitudes llegan una a la vez. Este modo es sensible a la latencia y mide la rapidez con la que el sistema puede responder a cada solicitud. Es crucial para aplicaciones en tiempo real donde es necesaria una respuesta inmediata, como en servidores web o aplicaciones interactivas.

En las tareas de inferencia, la GPU es la principal responsable del trabajo pesado computacional. Al vincularlo con una CPU dedicada, el sistema garantiza que la GPU pueda funcionar de manera eficiente sin verse obstaculizada por la CPU compartida o los recursos de la plataforma. Esto es crucial en escenarios de procesamiento de datos en tiempo real, como el análisis de video en vivo o la traducción de idiomas sobre la marcha.

Curiosamente, observamos que esta relación CPU-GPU de 1:1 permite una mayor previsibilidad en el rendimiento. Cada nodo opera de forma independiente, lo que garantiza tiempos de procesamiento consistentes y reduce la variabilidad en las tareas de inferencia. Esta previsibilidad es vital en entornos donde el tiempo de respuesta es crítico.

En general, la configuración de una CPU por una GPU en el SuperBlade H100 maximiza la efectividad de ambos componentes. Esto garantiza que cada nodo ofrezca un rendimiento óptimo para las tareas de inferencia, y que cada nodo opere modelos y procesos independientes. Esta arquitectura mejora la capacidad del sistema para manejar las demandas de procesamiento de datos en tiempo real de manera eficiente y confiable.

Gestión adaptativa de la carga de trabajo

Después de considerar toda la información, resulta evidente que el sistema SuperBlade es altamente adaptable. Durante las horas pico, cuando la demanda de inferencia es alta, se pueden asignar dinámicamente más blades habilitados para GPU para manejar estas tareas, lo que garantiza un manejo eficiente de las solicitudes en tiempo real. Por el contrario, durante las horas de menor actividad, estos recursos podrían cambiarse para centrarse en ajustar los modelos de IA o procesar tareas menos urgentes. Esta flexibilidad permite una utilización óptima de los recursos, lo que garantiza que el sistema SuperBlade sea robusto y eficiente en la gestión de diversas cargas computacionales.

Beneficios del 200G NVIDIA cuántica InfiniBand en estos escenarios

La inclusión de 200G InfiniBand en el sistema SuperBlade H100 mejora estos escenarios al proporcionar la columna vertebral para la transferencia de datos de alta velocidad. La capacitación distribuida permite una sincronización más rápida de datos entre blades, lo cual es esencial para mantener la coherencia y la velocidad del proceso de capacitación. La inferencia de un solo blade garantiza que grandes conjuntos de datos se puedan mover rápidamente al blade para su procesamiento, lo que reduce la latencia y aumenta el rendimiento.

¿Qué pasa con Quantum InfiniBand?

InfiniBand, piedra angular de la informática de alto rendimiento, es una tecnología de interconexión de alta velocidad desarrollada inicialmente para abordar las demandas de comunicación y transferencia de datos cada vez mayores dentro de los grupos de supercomputación. Esta solución de red altamente especializada ha evolucionado a lo largo de los años y ofrece una latencia extremadamente baja y un gran ancho de banda, lo que la hace ideal para conectar servidores, sistemas de almacenamiento y otros componentes en entornos HPC.

Los blades Supermicro X13 que nos enviaron venían equipados con redes InfiniBand de 200G y Ethernet de 25G. Esto fue particularmente útil cuando se trabajaba en capacitación distribuida y otras tareas de latencia y uso intensivo de datos. Después de algunas épocas de capacitación altamente variables (y que consumen mucho tiempo) mencionadas anteriormente, determinamos que necesitábamos una métrica diferente para proporcionar las métricas de prueba del mundo real de la red InfiniBand ocultas en los innumerables pines del chasis blade. Dada la extrema variabilidad del ajuste entre ejecuciones, sería irresponsable intentar cuantificar el impacto, o la falta del mismo, del uso de un sistema de múltiples nodos como este para estas tareas. Los resultados fueron más que sorprendentes.

Participar Kit de clúster NVIDIA. NVIDIA ClusterKit es un conjunto de herramientas diseñado para probar todo el potencial de los clústeres de GPU multinodo, ofreciendo a los profesionales de IA y HPC un interesante conjunto de herramientas para medir el rendimiento, la eficiencia y la escalabilidad de sus cargas de trabajo.

Nos centramos en dos herramientas clave en ClusterKit:

  • Pruebas de ancho de banda: el ancho de banda es una métrica crítica en HPC, que refleja la cantidad de datos que se pueden transmitir a través de la red en un tiempo determinado. Utilizamos NVIDIA ClusterKit para medir el ancho de banda bidireccional (dúplex) entre nodos en la configuración Supermicro SuperBlade. Las mediciones dúplex son esenciales ya que reflejan el escenario del mundo real donde los datos fluyen simultáneamente en ambas direcciones.
  • Pruebas de latencia: la latencia, o el tiempo que tarda un mensaje en viajar de un punto a otro en la red, es otra métrica de rendimiento crucial. La baja latencia es importante en aplicaciones HPC estrechamente acopladas. La capacidad de NVIDIA ClusterKit para medir con precisión las latencias dúplex proporcionó información valiosa sobre la capacidad de respuesta de la red InfiniBand en los SuperBlades.

Resultados de la evaluación comparativa de GPU SuperBlade InfiniBand y H100 con ClusterKit

Al entrar en esta sección, es importante comprender que cada nodo se identifica mediante una etiqueta única (por ejemplo, smci-a7, smci-a1, etc.). La denotación -1, -3, -5 y -7 es el nombre de host, que refleja la posición física del blade en el chasis.

La primera prueba se centró en medir el ancho de banda bidireccional entre varios nodos del clúster. La prueba involucró un tamaño de mensaje de 8,388,608 bytes, iterado 16 veces.

Pruebas directas de GPU

Primero, echamos un vistazo a las pruebas de GPU Direct. Esto informa el rendimiento máximo absoluto de la plataforma Blade, utilizando los mejores y más recientes SDK y kits de herramientas disponibles al momento de escribir este artículo. Es importante tener en cuenta que la prueba informa el ancho de banda en dúplex, lo que significa que el ancho de banda es total en ambas direcciones. La dirección única sería aproximadamente la mitad. La conclusión clave es que el factor limitante del ancho de banda es la InfiniBand de 200G, pero como veremos más adelante, esto no es motivo de gran preocupación.

Prueba de Infiniband ClusterKit en Supermicro SuperBlades con Divyansh Jain

La siguiente matriz muestra el ancho de banda bidireccional usando GPUDirect.

Matriz de ancho de banda MB/s
Rango/Nodo smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0.0 49,221.6 49,193.6 49,223.6
1 (smci-a1) 49,221.6 0.0 49,219.5 49,142.7
2 (smci-a3) 49,193.6 49,219.5 0.0 49,219.7
3 (smci-a5) 49,223.6 49,142.7 49,219.7 0.0
Latencia uSec

Lo siguiente fueron los notables resultados de las pruebas de latencia, que se midieron en microsegundos. Las pruebas de GPU Direct fueron tan buenas como tener varias GPU locales en un host.

Rango smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0.00 1.38 1.24 1.38
1 (smci-a1) 1.38 0.00 1.25 1.36
2 (smci-a3) 1.24 1.25 0.00 1.32
3 (smci-a5) 1.38 1.36 1.32 0.00

Pruebas de vecinos de GPU

Pasando a las pruebas de vecinos de GPU, nuevamente, el ancho de banda se informa en dúplex, lo que significa que el ancho de banda es total en ambas direcciones. La dirección única sería aproximadamente la mitad. Esta matriz a continuación muestra el ancho de banda bidireccional. entre las tarjetas H100 en cada uno de los cuatro nodos. Esto no utiliza la aceleración de las bibliotecas GPUDirect. La denotación 1, 3, 5 y 7 es el nombre de host, que refleja la posición física del blade en el chasis.

Interruptor Supermicro X13 SuperBlade InfiniBand

Conmutador InfiniBand HRD SBS-IBS-H4020

Ancho de banda vecino de GPU (MB/s)

La prueba "Ancho de banda vecina de GPU" mide la velocidad de transferencia de datos entre GPU vecinas dentro del mismo sistema o nodo. Esta métrica es crucial para aplicaciones que requieren intercambios frecuentes de datos entre GPU cercanas, como tareas de procesamiento paralelo de múltiples GPU. Cuanto mayor sea el ancho de banda, más rápida será la transferencia de datos, lo que conducirá a un rendimiento potencialmente mejorado en aplicaciones con uso intensivo de GPU.

GPU Ancho de banda (MB/s)
smci-a7 con smci-a1 30,653.9
smci-a3 con smci-a5 30,866.7
Normal 30,760.3
Ancho de banda de memoria de GPU (MB/s)

La prueba "Ancho de banda de memoria de la GPU" evalúa la velocidad a la que la propia GPU puede leer o almacenar datos en la memoria de una GPU. Este ancho de banda es un aspecto crítico del rendimiento, particularmente para aplicaciones que involucran grandes conjuntos de datos o requieren un alto rendimiento para tareas como procesamiento de imágenes, simulaciones o aprendizaje profundo. Un mayor ancho de banda de memoria indica una mejor capacidad de una GPU para manejar grandes volúmenes de datos de manera eficiente. Esta prueba nos muestra que los X13 Blades no tienen problemas para sostener las GPU H100.

GPU Ancho de banda
smci-a7-GPU0 55,546.3
smci-a1-GPU0 55,544.9
smci-a3-GPU0 55,525.5
smci-a5-GPU0 55,549.8
Normal 55,541.6
Ancho de banda de GPU a GPU (MB/s)

Esta prueba mide el ancho de banda bidireccional entre diferentes GPU. Es esencial para tareas que involucran cálculos complejos distribuidos en múltiples GPU, donde la velocidad de transferencia de datos entre las GPU puede afectar significativamente el tiempo de procesamiento general. Un alto ancho de banda de GPU a GPU es beneficioso para acelerar los flujos de trabajo de varias GPU y las tareas informáticas paralelas.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7-GPU0 0.0 30,719.8 30,817.7 30,823.8
smci-a1-GPU0 30,719.8 0.0 30,710.0 30,670.9
smci-a3-GPU0 30,817.7 30,710.0 0.0 30,835.1
smci-a5-GPU0 30,823.8 30,670.9 30,835.1 0.0
Normal 30,762.9
Ancho de banda de GPU0 a host remoto (MB/s)

La prueba “Ancho de banda de GPU0 a host remoto” cuantifica la velocidad de transferencia de datos entre la GPU principal (GPU0) y un sistema host remoto. Esto es vital en entornos informáticos distribuidos donde los datos deben moverse con frecuencia entre la GPU principal y otras partes de un sistema en red, lo que afecta tareas como la capacitación en aprendizaje profundo distribuido o el análisis de datos en servidores remotos.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0.0 30,804.3 30,753.5 30,768.1
smci-a1 30,804.3 0.0 30,732.9 30,679.7
smci-a3 30,753.5 30,732.9 0.0 30,970.8
smci-a5 30,768.1 30,679.7 30,970.8 0.0
Latencia del vecino GPU (μs)

La prueba de “latencia de GPU vecina” mide el tiempo que tarda una pequeña cantidad de datos en viajar de una GPU a la GPU vecina. Es deseable una latencia más baja, especialmente en aplicaciones que requieren procesamiento de datos en tiempo real o comunicación de alta velocidad entre GPU, como renderizado en tiempo real o simulaciones científicas complejas.

GPU Estado latente
smci-a7 con smci-a1 11.03
smci-a3 con smci-a5 11.01
Latencia de GPU a host remoto (µs)

La prueba "Latencia de GPU0 a host remoto" mide el retraso en la comunicación de datos entre la GPU principal (GPU0) y un sistema host remoto. Esta latencia es un factor crítico en entornos informáticos distribuidos, que influye en la capacidad de respuesta y la eficiencia de las aplicaciones que dependen de la interacción entre una GPU y sistemas remotos, como los juegos basados ​​en la nube o el procesamiento de datos remoto.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0.00 3.35 3.36 3.33
smci-a1 3.35 0.00 3.41 3.37
smci-a3 3.36 3.41 0.00 3.37
smci-a5 3.33 3.37 3.37 0.00
Normal 3.37

Las pruebas de NVIDIA ClusterKit revelaron métricas de rendimiento impresionantes para la red InfiniBand en Supermicro SuperBlades. Las pruebas de ancho de banda dúplex revelaron altas tasas de transferencia de datos, lo que indica una utilización eficiente de las capacidades de InfiniBand. De manera similar, las pruebas de latencia mostraron retrasos mínimos, lo que subraya la idoneidad de la red para tareas HPC exigentes. Esto significa que esta plataforma funciona a la par de los sistemas independientes y ofrece una densidad mucho mayor de computación y redes, todo en una solución unificada.

Pruebas de servidor GPU independiente

A continuación, trasladamos las 4x NVIDIA H100 a una Servidor GPU Supermicro 4U AMD EPYC que puede admitir los 4 al mismo tiempo, buscamos probar la GPU con GPU y la latencia. Es fundamental comprender que solo estamos tratando de comprender el perfil de rendimiento de las tarjetas en este servidor, sin las comunicaciones entre servidores. Si bien este servidor 4U es flexible en términos de las tarjetas que puede admitir, no tiene la capacidad de composición extrema que ofrece el chasis Supermicro X13 SuperBlade. Por supuesto, Supermicro, como siempre, ofrece una solución para cada aplicación, incluidas también las GPU con zócalo refrigeradas por líquido.

Primero, veamos el ancho de banda peer-to-peer de las 4 GPU en una plataforma.

 Ancho de banda de escritura (GB/s): unidireccional

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 54.29 39.50 40.51
GPU1 54.60 0.00 40.55 40.22
GPU2 40.60 38.73 0.00 54.03
GPU3 40.99 40.33 53.79 0.00

Ancho de banda de lectura (GB/s): unidireccional

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 53.17 39.23 35.69
GPU1 53.70 0.00 36.96 41.02
GPU2 36.28 39.88 0.00 53.32
GPU3 40.40 37.08 53.68 0.00

Es importante tener en cuenta aquí que las GPU GPU0 y GPU1 están en un nodo NUMA, y GPU2 y GPU3 están en otro nodo NUMA. Puede ver claramente aquí el impacto de cruzar el nodo NUMA en el rendimiento.

Motor de copia (CE): latencia de escritura (nosotros)

Finalmente, midiendo la latencia de GPU a GPU.

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 1.67 1.64 1.64
GPU1 1.57 0.00 1.61 1.61
GPU2 1.66 1.69 0.00 1.65
GPU3 1.65 1.66 1.61 0.00

Como era de esperar, mover todas las GPU a una sola plataforma nos otorga el doble de ancho de banda en comparación con las conexiones IB de 2G del Blade. El ancho de banda aquí puede ser una consideración para la aplicación, pero cuando se habla de números de latencia, trabajando en el orden de microsegundos, no hay un cambio masivo que reportar al pasar de un promedio de 200us GPU a GPU mientras todo en un chasis, a solo 1.6us en los blades al tener que atravesar el bus PCIe, el conmutador IB y volver a la GPU es notable. Pero eso es no la historia completa.

Conclusión

El Supermicro X13 SuperBlade, con sus CPU Emerald Rapids y GPU NVIDIA H100, es una evolución bienvenida de lo que pueden ser los servidores Blade. Sus capacidades se extienden a diversas tareas computacionales intensivas, lo que la convierte en una solución versátil y sólida para industrias que van desde el análisis de datos hasta la inteligencia artificial y la computación en la nube. A medida que la demanda de informática de alto rendimiento continúa creciendo, el X13 está listo para enfrentar estos desafíos, lo que demuestra el compromiso de Supermicro con la innovación y la excelencia en la tecnología de servidores.

Considerando todo lo relacionado con las pruebas, estamos particularmente interesados ​​en esta plataforma gracias a su naturaleza única y altamente adaptable desde una perspectiva holística. Es importante contextualizar la aplicación de la plataforma.

Imagine un escenario en un departamento de investigación donde tiene el sistema Supermicro X13 Blade en su rack para toda su alta potencia de cómputo. Puede utilizar la infraestructura de administración centralizada integrada en la plataforma no solo para controlar los blades y la plataforma en sí, sino también como un centro para el control, la conexión en red y la administración de otros equipos. Al conectar un servidor de almacenamiento lo suficientemente potente al SuperBlade para alimentar las GPU que consumen datos, podrá ingerir a velocidad de línea todos los bits en sus modelos. En este escenario ficticio, podemos hacer que diferentes investigadores utilicen todas nuestras GPU durante el día y luego, cuando llegue el momento, vincular todas las hojas a través de InfiniBand y hacer que funcionen juntas.

Las pruebas de ancho de banda de la relación uno a uno entre la CPU y la GPU también mostraron que, dado un chasis blade completamente cargado, se puede superar a un solo servidor con tarjetas GPU adicionales con el sistema blade. Con un flujo de trabajo de capacitación distribuido correctamente diseñado, podría ver un rendimiento que es esencialmente tan bueno o mejor que tener todas las GPU en un solo nodo, pero ahora obtiene una plataforma que puede realizar fácilmente una doble función, reduciendo a la mitad el costo inicial de la GPU. . Gracias al soporte de las últimas CPU, una vez implementadas, esperamos pasar de HDR InfiniBand a NDR, ya que eso pondría a los SuperBlades por encima y más allá del rendimiento que podría obtener en una plataforma de servidor de GPU única.

El chasis Supermicro X13 SuperBlade y los blades de GPU son una opción robusta y altamente adaptable para quienes tienen necesidades de IA en evolución o que cambian periódicamente. Durante nuestro largo tiempo con la plataforma, encontramos necesidades de cambios en DRAM, CPU y GPU, o como se conoce en el mundo de la IA, "otro día", todo manejado por la plataforma con facilidad. En general, la plataforma es sólida y se presenta como un dispositivo intrigante y poderoso para el espacio de la IA sin dejar mucho más que pedirle. Dado el precio de los sistemas de la competencia, si puede aprovechar la flexibilidad de una hoja, esto es casi imbatible.

Supermicro X13 SuperBlade 

Interactuar con StorageReview

BOLETÍN  | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed