La creación de puntos de control es fundamental para el entrenamiento de modelos de IA, ya que garantiza la resiliencia, la eficiencia y la capacidad de reanudar o ajustar el entrenamiento a partir de estados guardados.
La creación de puntos de control es fundamental para el entrenamiento de modelos de IA, ya que garantiza la resiliencia, la eficiencia y la capacidad de reanudar o ajustar el entrenamiento a partir de estados guardados. Sin embargo, las demandas de las cargas de trabajo de IA modernas, con modelos cada vez más complejos y conjuntos de datos de entrenamiento extensos, llevan el almacenamiento al límite.
El papel de los puntos de control en los flujos de trabajo de IA
La creación de puntos de control en el entrenamiento de IA es un proceso fundamental que implica guardar periódicamente el estado completo del modelo durante el entrenamiento. Este estado incluye los pesos y parámetros del modelo, los estados del optimizador, los cronogramas de la tasa de aprendizaje y los metadatos de entrenamiento. La creación de puntos de control crea una instantánea completa del proceso de entrenamiento en intervalos específicos, lo que proporciona continuidad y recuperación del entrenamiento en caso de interrupciones.
Los puntos de control se toman normalmente en intervalos basados en iteraciones (por ejemplo, cada mil pasos de entrenamiento). El entrenamiento LLM moderno, que puede durar semanas o meses y consumir enormes recursos computacionales, depende en gran medida de estos puntos de control como red de seguridad contra posibles fallas. Por ejemplo, el entrenamiento de un modelo como la clase GPT-4 puede generar puntos de control que van desde varios cientos de gigabytes hasta varios terabytes, según el tamaño del modelo y la configuración de entrenamiento.

Proceso de entrenamiento generado por DALL-E
El objetivo principal de los puntos de control va más allá de la mera función de copia de seguridad. Sirven como un mecanismo crucial para la resiliencia del entrenamiento, ya que permiten reanudar el entrenamiento desde el último estado guardado en lugar de empezar desde cero en caso de fallos del sistema, cortes de energía o problemas de hardware. Además, los puntos de control son invaluables para el análisis de modelos, ya que permiten a los investigadores examinar la evolución del modelo en diferentes etapas de entrenamiento y, potencialmente, volver a estados anteriores si se detecta una degradación del rendimiento.
Los patrones de escritura durante la creación de puntos de control son particularmente interesantes desde una perspectiva de almacenamiento. Cuando se activa un punto de control, el sistema debe escribir cantidades masivas de datos en un patrón de ráfagas. Esto crea un perfil de E/S distintivo que se caracteriza por períodos de actividad de almacenamiento relativamente baja durante los cálculos de entrenamiento, seguidos de operaciones de escritura intensas de gran ancho de banda durante la creación de puntos de control. Estas operaciones de escritura suelen ser secuenciales y pueden beneficiarse significativamente de los sistemas de almacenamiento optimizados para escrituras secuenciales de gran ancho de banda.
Las diferentes estrategias de paralelismo en el entrenamiento distribuido pueden afectar significativamente el comportamiento de los puntos de control. Estas estrategias de paralelismo afectan el momento en que se producen los puntos de control durante el entrenamiento y la parte del modelo que se está controlando. En las configuraciones de entrenamiento distribuido modernas, varias GPU pueden escribir simultáneamente diferentes partes de la misma capa, lo que crea patrones de E/S complejos. Esta capacidad de escritura en paralelo es clave para la eficiencia, pero exige una coordinación cuidadosa y sistemas de almacenamiento robustos que puedan manejar operaciones de escritura simultáneas y, al mismo tiempo, mantener la coherencia de los datos. El sistema de almacenamiento debe ser capaz de gestionar estas escrituras simultáneas de manera eficaz, ya que cualquier cuello de botella en este proceso puede generar demoras generales en el entrenamiento.
La lentitud en la creación de puntos de control puede generar cuellos de botella importantes en el proceso de entrenamiento, ya que todo el proceso de entrenamiento debe pausarse mientras se escribe el punto de control en el almacenamiento. Por ejemplo, en una configuración de entrenamiento a gran escala, si la creación de puntos de control demora 30 minutos cada pocas horas, esto podría generar varias horas de tiempo de inactividad acumulado durante todo el período de entrenamiento. Esto afecta directamente la eficiencia del entrenamiento y aumenta los costos operativos, especialmente en entornos de nube donde los recursos informáticos se facturan por tiempo.
Con puntos de control más rápidos, los equipos también pueden permitirse crear puntos de control con mayor frecuencia, lo que reduce la pérdida máxima de datos potencial en caso de fallas. Esto permite enfoques de entrenamiento más agresivos y mejores ciclos de iteración experimental. Además, los tiempos de carga rápidos de los puntos de control facilitan una experimentación más rápida con diferentes configuraciones de entrenamiento y arquitecturas de modelos, ya que los investigadores pueden restaurar más fácilmente desde estados anteriores para probar enfoques alternativos.
La capacidad del sistema de almacenamiento para manejar de manera eficiente estas operaciones de puntos de control se convierte en un factor fundamental en la infraestructura de entrenamiento general. Las soluciones de almacenamiento de alto rendimiento que pueden gestionar tanto los patrones de escritura en ráfagas de puntos de control como las operaciones de lectura/escritura sostenidas del entrenamiento pueden tener un impacto significativo en el tiempo total y el costo del entrenamiento de modelos de lenguaje grandes. Por lo tanto, las características de rendimiento del subsistema de almacenamiento, particularmente en el manejo de escrituras secuenciales grandes y el mantenimiento de un ancho de banda alto y constante, son consideraciones cruciales en el diseño de la infraestructura de entrenamiento LLM.
Para este informe, queríamos evaluar el rendimiento de los SSD para los puntos de control de IA y evaluar los beneficios de los últimos SSD Gen5 cuando la velocidad del punto de control es fundamental, en comparación con los SSD QLC más grandes del mercado, que pueden almacenar una gran cantidad de puntos de control si eso fuera más beneficioso para el modelo que se está entrenando.
Rendimiento de puntos de control: evaluación comparativa con DLIO
Para evaluar el rendimiento real del SSD Solidigm en entornos de entrenamiento de IA, utilizamos el Herramienta de referencia de entrada/salida de datos y aprendizaje (DLIO)DLIO, desarrollado por Argonne National Laboratory, está diseñado específicamente para probar patrones de E/S en cargas de trabajo de aprendizaje profundo. Proporciona información sobre cómo los sistemas de almacenamiento manejan los desafíos de puntos de control, ingesta de datos y entrenamiento de modelos.
Al trabajar con DLIO, nuestro objetivo era medir el rendimiento, la latencia y la confiabilidad de la unidad en escenarios de puntos de control intensivos. Si bien esta prueba se realizó en el D61.44-P5 de 5336 TB, los datos de rendimiento iniciales mostraron que la versión Solidigm D5-P5336 de 122 TB ofrece un perfil de rendimiento similar. También incluimos resultados de un D7-PS1010 basado en TLC para mostrar las ventajas de PCIe Gen5 en esta prueba. Elegimos estas dos unidades para mostrar ambos ángulos en los puntos de control, uno es el tiempo de punto de control más rápido posible y el otro almacena la mayor cantidad de puntos de control en un solo SSD.
La plataforma elegida para este trabajo fue nuestro Dell PowerEdge R760 con Ubuntu 22.04.02 LTS. Usamos la versión 2.0 de DLIO, publicada el 13 de agosto de 2024. La configuración de nuestro sistema se describe a continuación:
- 2 procesadores Intel Xeon Gold 6430 (32 núcleos, 2.1 GHz)
- 16 x 64GB DDR5-4400
- Unidad de estado sólido Dell BOSS de 480 GB
- Cables seriales Gen5 JBOF
- Disco duro Solidigm D7.68-PS7 de 1010 TB
- Disco duro Solidigm D61.44-P5 de 5336 TB
Para garantizar que nuestra evaluación comparativa reflejara escenarios del mundo real, basamos nuestras pruebas en la arquitectura del modelo LLAMA 3.1 405B, implementando puntos de control a través de Torch.save() para capturar parámetros del modelo, estados del optimizador y estados de capa. Nuestra configuración simuló un sistema de 8 GPU, implementando una estrategia de paralelismo híbrido con procesamiento paralelo de tensor de 4 vías y procesamiento paralelo de canalización de 2 vías distribuidos entre las ocho GPU. Esta configuración dio como resultado tamaños de puntos de control de 1,636 GB, representativos de los requisitos de entrenamiento de modelos de lenguaje modernos de gran tamaño.
Nuestro proceso de prueba para la carga de trabajo de punto de control de DLIO consistió en llenar cada unidad hasta un nivel de utilización similar. Para el Solidigm D61.44-P5 de 5336 TB, cada pasada incluyó 33 intervalos de punto de control, con un total de 54 TB. El D7.68-PS7, más pequeño, de 1010 TB, acomodó cómodamente tres intervalos de punto de control, con un espacio total de 4.9 TB. Un punto de control adicional podría caber en el D7-PS1010, aunque elevó su utilización ligeramente por encima de lo que queríamos.
La carga de trabajo del punto de control DLIO arrojó resultados interesantes cuando comparamos el D4-P61.44 de 5 TB basado en QLC Gen5536 con el D5-PS7.68 de 7 TB basado en TLC Gen1010. Durante la primera pasada, a medida que las unidades se llenaban, presenciamos una brecha más amplia en el rendimiento entre los dos modelos de SSD. El PS5 Gen1010 más rápido completó cada punto de control en promedio en 464 segundos, en comparación con los 623 segundos del P4 Gen5336. En las pasadas dos y tres, la brecha se redujo a 579 y 587 segundos para el PS1010 y a 676 y 680 segundos para el P5336.
Para las empresas que buscan tener la brecha más pequeña posible en los intervalos de puntos de control, el Gen5 PS1010 basado en TLC ofrece una ventaja en el tiempo de finalización más rápido. Si el objetivo es retener muchos puntos de control de manera rentable, el Gen4 P5336 basado en QLC puede hacer exactamente eso. Medimos una diferencia en los tiempos de control promedio de menos del 17 % entre ambas unidades durante las pasadas dos y tres.
Ancho de banda de almacenamiento de GPUDirect
Si bien DLIO muestra el rendimiento de flash en un flujo de trabajo de IA, la carga de trabajo se basa completamente en escritura hasta que se restablece un punto de control. Para ofrecer una imagen más completa de Solidigm D7-PS1010 y D5-P5336 en cargas de trabajo de IA, incluimos mediciones de ancho de banda de lectura mediante GDSIO.
Cómo funciona el almacenamiento directo en GPU
Tradicionalmente, cuando una GPU procesa datos almacenados en una unidad NVMe, los datos primero deben pasar por la CPU y la memoria del sistema antes de llegar a la GPU. Este proceso genera cuellos de botella, ya que la CPU se convierte en un intermediario, lo que agrega latencia y consume valiosos recursos del sistema. El almacenamiento directo en la GPU elimina esta ineficiencia al permitir que la GPU acceda a los datos directamente desde el dispositivo de almacenamiento a través del bus PCIe. Esta ruta directa reduce la sobrecarga asociada con el movimiento de datos, lo que permite transferencias de datos más rápidas y eficientes.
Las cargas de trabajo de IA, especialmente las que implican aprendizaje profundo, requieren un uso intensivo de datos. El entrenamiento de redes neuronales de gran tamaño requiere el procesamiento de terabytes de datos, y cualquier retraso en la transferencia de datos puede provocar que las GPU se subutilicen y que los tiempos de entrenamiento sean más prolongados. El almacenamiento directo en la GPU aborda este desafío al garantizar que los datos se entreguen a la GPU lo más rápido posible, lo que minimiza el tiempo de inactividad y maximiza la eficiencia computacional.
Al igual que la prueba DLIO, el objetivo es comprender y caracterizar mejor las diferencias entre los SSD Gen5 de alta velocidad y las unidades QLC de alta capacidad. No todas las cargas de trabajo de IA son iguales y cada unidad ofrece ventajas distintas, según la necesidad.
Matriz de configuración de prueba
Probamos sistemáticamente cada combinación de los siguientes parámetros con una NVIDIA L4 en nuestra plataforma de prueba:
- Tamaños de bloque: 1M, 128K, 64K, 16K, 8K
- Número de hilos: 128, 64, 32, 16, 8, 4, 1
- Número de trabajos: 16
- Tamaños de lote: 16
Nuestro primer análisis fue el D5-P5336 basado en QLC, que alcanzó un máximo de 4.2 GiB/s utilizando un tamaño de transferencia de 1 M a una profundidad de E/S de 128. El efecto de los tamaños de bloque produjo un aumento sustancial en el ancho de banda, pasando de 8 K a 1 M. La ventaja de una mayor profundidad de E/S comenzó a disminuir en 32, donde las cargas de trabajo comenzaron a estabilizarse.
A continuación, analizamos el PS-5 Gen1010, que puede escalar hasta 6.2 GiB/s con un tamaño de bloque de 1 M y una profundidad de E/S de 128. En general, superó al P4 basado en Gen5336, y en determinadas cargas de trabajo demostró una mejora sustancial. Un área de mejora notable se produjo en el tamaño de bloque de 128 K, donde con una profundidad de E/S de 64 y 128, el PS1010 ofreció el doble de ancho de banda de lectura que el P5336.
Es importante señalar que ambos SSD se probaron con NVIDIA L4. Si bien el Gen4 D5-P5336 está en el extremo superior o cerca de él, las GPU NVIDIA de modelos superiores como la H100 demostraron un mayor rendimiento con el D7-PS1010. La velocidad de una unidad es el factor decisivo para algunos clientes, mientras que otros priorizan la densidad general. solidigma proporciona soluciones para ambos, con su Ofertas de SSD QLC y TLC.
Conclusión
A medida que la escala y la complejidad del entrenamiento de IA siguen aumentando, la infraestructura de almacenamiento subyacente no solo debe seguir el ritmo, sino también marcarlo. Nuestras pruebas con dos SSD muy diferentes ilustran la importancia de alinear las soluciones de almacenamiento con prioridades de entrenamiento específicas, como minimizar la latencia del punto de control o maximizar la densidad del punto de control para lograr una escalabilidad rentable.
En nuestra evaluación, probamos el Solidigm D5-P5336 (61.44 TB) y el D7-PS1010 (7.68 TB) en condiciones de entrenamiento de IA realistas utilizando el punto de referencia DLIO y un flujo de trabajo de puntos de control LLM híbrido-paralelo extenso. Capturamos métricas que reflejan el rendimiento de escritura de puntos de control en múltiples ejecuciones a medida que se llenaban las unidades, lo que resalta las diferencias en los tiempos de finalización entre el D4-P5 basado en QLC Gen5336 y el D5-PS7 basado en TLC Gen1010.
Mientras que el D7-PS1010 ofrecía las escrituras de punto de control más rápidas posibles, el D5-P5336 demostró ventajas convincentes en cuanto a costo-beneficio y capacidad con solo una modesta penalización en el rendimiento. Examinamos más a fondo los anchos de banda de lectura de GPU Direct Storage con GDSIO a través de una GPU NVIDIA L4. Descubrimos que el Solidigm D5-P5336 ofrecía hasta 4.2 GiB/s de ancho de banda de lectura con un tamaño de transferencia de 1 M, mientras que el D7-PS1010 ofrecía un aumento sustancial a 6.2 GiB/s. Vería un rendimiento aún más sólido si aprovechara una GPU aún más grande, como NVIDIA L40s o H100/H200.
De cara al futuro, la capacidad sin precedentes del SSD Solidigm D5-P5336 de 122 TB puede transformar el entrenamiento y la implementación de la IA. A medida que los tamaños de los modelos y los requisitos de puntos de control siguen aumentando, estas unidades gigantescas abren las puertas a nuevos niveles de eficiencia y flexibilidad, lo que permite estrategias de entrenamiento que antes estaban fuera de su alcance. El liderazgo de Solidigm en soluciones SSD de alta capacidad permite a las organizaciones almacenar más datos y puntos de control en menos unidades y ayuda a preparar sus infraestructuras para la próxima ola de complejidad de la IA.
Unidad de estado sólido Solidigm D5-P5336 de 122 TB
Este informe está patrocinado por Solidigm. Todos los puntos de vista y opiniones expresados en este informe se basan en nuestra visión imparcial de los productos bajo consideración.
Interactuar con StorageReview
Boletín informativo | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed