Inicio Empresa Análisis del SSD DapuStor J5060: SSD QLC de alta densidad optimizado para cargas de trabajo centradas en la lectura

Análisis del SSD DapuStor J5060: SSD QLC de alta densidad optimizado para cargas de trabajo centradas en la lectura

by lyle smith

Si bien es adecuado para cargas de trabajo de lectura intensiva, el bajo rendimiento de escritura limita su versatilidad en entornos de IA y uso intensivo de datos.

El SSD DapuStor J5060 es una unidad NVMe de alta capacidad, enfocada en empresas, diseñada para satisfacer la creciente demanda de almacenamiento denso y de bajo consumo en entornos con uso intensivo de datos. Se basa en 3D Enterprise QLC NAND Flash y es compatible con la interfaz PCIe 4.0 x4 con NVMe 1.4a, alojado en un formato U.2 estándar de 15 mm. La unidad está diseñada para situaciones donde el rendimiento de lectura y el coste por terabyte son esenciales. Esto la hace potencialmente adecuada para aplicaciones como infraestructura en la nube, inferencia de IA, plataformas de big data y procesos de fabricación inteligentes, donde las operaciones de escritura son poco frecuentes o predecibles.

DapuStor J5060

Características y perfil de rendimiento del DapuStor J5060

Con capacidades que escalan hasta 61.44 TB, el J5060 ofrece una solución interesante para organizaciones que buscan consolidar el almacenamiento manteniendo bajo control la densidad física y el consumo energético. Este nivel de capacidad en una sola unidad U.2 es especialmente relevante para entornos empresariales e hiperescalables que gestionan conjuntos de datos de varios petabytes, donde el espacio en rack y la eficiencia energética son limitaciones reales. El J5060 incluye características de nivel empresarial como compatibilidad con dos puertos, protección avanzada contra cortes de energía y optimización del voltaje a nivel flash para garantizar la integridad y estabilidad de los datos en implementaciones de alta disponibilidad.

Carcasa trasera del DapuStor J5060

En cuanto a su rendimiento, el J5060 está diseñado para cargas de trabajo con alta carga de lectura. Se estima que tiene un rendimiento de lectura secuencial de hasta 7,300 MB/s y admite hasta 1.5 millones de IOPS de lectura aleatoria de 4K, lo cual es una cifra considerable para una unidad basada en QLC. Sin embargo, su rendimiento de escritura es significativamente más limitado, con una especificación de tan solo 30 16 IOPS para escrituras aleatorias de 3,000 KB, limitación que se mantiene constante durante nuestras pruebas de carga de trabajo. El ancho de banda de escritura de la unidad es de XNUMX MB/s. Sin embargo, este ancho de banda no se mantiene bien en operaciones de escritura sostenidas o de alta profundidad, lo que podría afectar su idoneidad para tareas mixtas o de escritura intensiva.

Puerto DapuStor J5060

El uso de QLC NAND permite a DapuStor ofrecer estas altas capacidades a un menor coste, pero con desventajas. Su resistencia se estima en tan solo 0.5 DWPD (escrituras de unidad por día) durante cinco años, lo que convierte a la J5060 en la unidad ideal para aplicaciones centradas en la lectura con volúmenes de escritura bajos a moderados. Las cargas de trabajo que implican puntos de control frecuentes, registro de transacciones o almacenamiento en caché activo pueden poner a prueba la resistencia de la unidad y revelar limitaciones en el rendimiento de escritura.

Placa de circuito impreso DapuStor J5060

En cuanto a la alimentación, la unidad consume aproximadamente 12 vatios durante la lectura, hasta 23 vatios durante la escritura y tan solo 5 vatios en reposo. Estas cifras se ajustan perfectamente a las expectativas de los centros de datos empresariales modernos, especialmente para implementaciones de alta densidad, donde la potencia por terabyte es una preocupación creciente.

En esta revisión, nos centramos en el modelo de 61.44 TB y examinaremos su perfil de rendimiento en el mundo real a través de una serie de cargas de trabajo sintéticas y alineadas con las aplicaciones.

Especificaciones del DapuStor J5060

J5060
Capacidad (TB) 61.44
Factor de forma U.2 15mm
Fácil de usar PCIe 4.0 x4, NVMe 1.4a, compatible con dos puertos
Ancho de banda de lectura/escritura (128K) MB/s 7400 / 3000
Lectura/escritura aleatoria (4 KB) K IOPS 1500 / 30 (16 KB)
Latencia aleatoria 4K (típ.) R/W µs 105 (4 KB) / 33 (16 KB)
Latencia secuencial 4K (típica) R/W µs 7 (4 KB) / 12 (16 KB)
Potencia típica (W) 23
Potencia inactiva (W) 5
Tipo de flash Memoria flash NAND QLC empresarial 3D
Trabajadora 0.5 DWPD
MTBF 2 millón de horas
UBER 1 sector por 10^17 bits leídos
Garantía 5 años

Rendimiento del DapuStor J5060

Punto de control

Para evaluar el rendimiento real del SSD Dapustor J5060 en entornos de entrenamiento de IA, utilizamos el Herramienta de referencia de entrada/salida de datos y aprendizaje (DLIO)Desarrollado por el Laboratorio Nacional de Argonne, DLIO está diseñado específicamente para probar patrones de E/S en cargas de trabajo de aprendizaje profundo. Proporciona información sobre cómo los sistemas de almacenamiento gestionan desafíos como la creación de puntos de control, la ingesta de datos y el entrenamiento de modelos. El gráfico a continuación ilustra cómo ambas unidades gestionan el proceso en 99 puntos de control. Al entrenar modelos de aprendizaje automático, los puntos de control son esenciales para guardar el estado del modelo periódicamente, lo que evita la pérdida de progreso durante interrupciones o cortes de energía. Esta demanda de almacenamiento requiere un rendimiento robusto, especialmente bajo cargas de trabajo sostenidas o intensivas.

La plataforma elegida para este trabajo fue nuestro Dell PowerEdge R760 con Ubuntu 22.04.02 LTS. Utilizamos la versión 2.0 de DLIO, publicada el 13 de agosto de 2024. La configuración de nuestro sistema se describe a continuación:

  • 2 procesadores Intel Xeon Gold 6430 (32 núcleos, 2.1 GHz)
  • 16 x 64GB DDR5-4400
  • Unidad de estado sólido Dell BOSS de 480 GB
  • Cables seriales Gen5 JBOF
    • Disco duro externo Dapustor J61.44 de 5060 TB
    • Disco duro Solidigm D61.44-P5 de 5336 TB

Para garantizar que nuestra evaluación comparativa reflejara escenarios reales, basamos nuestras pruebas en la arquitectura del modelo LLAMA 3.1 405B. Implementamos puntos de control mediante torch.save() para capturar los parámetros del modelo, los estados del optimizador y los estados de las capas. Nuestra configuración simuló un sistema de 8 GPU, implementando una estrategia de paralelismo híbrido con procesamiento paralelo de tensor de 4 vías y paralelo de canalización de 2 vías distribuido entre las ocho GPU. Esta configuración resultó en tamaños de puntos de control de 1,636 GB, representativos de los requisitos de entrenamiento de modelos de lenguaje modernos de gran tamaño.

En general, el Dapustor J5060 demostró una consistencia sólida durante la fase inicial de pruebas, con tiempos que rondaron los 575.66 segundos en los primeros 33 puntos de control. El 5060J logró mantener un rendimiento superior antes de llenar la unidad por primera vez. Por otro lado, el Solidigm P5336, aunque inicialmente más lento que el J5060, mostró un rendimiento constante a medida que continuaban las pruebas.

 

Cuándo Considerando los promedios generales, el Dapustor J5060 registró un tiempo de 769.44 segundos, mientras que el Solidigm P5336 terminó en 640.17 segundosEsto coloca al Solidigm P5336 por delante en términos de guardar puntos de control más rápido.

En general, el Dapustor J5060 gestiona bien las operaciones cortas, pero presenta dificultades con escrituras sostenidas superiores a 30 minutos. Por otro lado, el Solidigm P5336 ofrece un mejor rendimiento consistente en tareas prolongadas. Este menor rendimiento de escritura del Dapustor J5060 se hace evidente cuando su velocidad de puntos de control se deteriora a medida que continúa la prueba.

Almacenamiento directo de GPU

El almacenamiento directo en la GPU (GDS) es una tecnología que permite la transferencia directa de datos entre dispositivos de almacenamiento y GPU, sin pasar por la CPU ni por la memoria del sistema. En la transferencia de datos tradicional, los datos se leen del almacenamiento a la memoria de la CPU y luego se copian a la memoria de la GPU. Este proceso implica múltiples copias de datos, lo que aumenta la latencia y reduce el rendimiento. La CPU actúa como un cuello de botella, ya que necesita gestionar la transferencia de datos entre el almacenamiento y la GPU. GDS elimina este cuello de botella al permitir que los dispositivos de almacenamiento transfieran datos directamente hacia y desde la memoria de la GPU.

Probamos sistemáticamente cada combinación de los siguientes parámetros en cargas de trabajo de lectura y escritura:

  • Tamaños de bloque: 1M, 128K, 16K
  • Profundidad de E/S: 128, 64, 32, 16, 8, 4, 1

Al revisar nuestros resultados de GDSIO, examinamos el rendimiento de lectura y escritura del Dapustor J61.44 de 5060 TB y del Solidigm P5336.

Rendimiento de lectura secuencial de GDSIO

El Dapustor J5060 alcanza un rendimiento máximo de lectura de 4.2 GiB/s con un tamaño de bloque de 1 MB y profundidades de E/S de 64 y 128. Con el tamaño de bloque más pequeño (16 K), el rendimiento oscila entre 0.1 GiB/s y 0.8 GiB/s a medida que aumenta la profundidad de E/S. Esto demuestra una clara preferencia por bloques de mayor tamaño con alta profundidad de E/S para un rendimiento óptimo. El rendimiento máximo se alcanza con bloques de gran tamaño, lo que indica la eficiencia de la unidad al gestionar transferencias masivas de datos.

En comparación, el Solidigm P5336 alcanzó un rendimiento máximo similar de 4.3 GiB/s con el mismo tamaño de bloque (1 M), pero lo alcanzó antes con una profundidad de E/S de 32 y lo mantuvo constante a mayores profundidades. Esto sugiere una eficiencia ligeramente superior en el manejo de bloques grandes con un rango más amplio de profundidades de E/S para el Solidigm P5336.

Para ofrecer una mejor perspectiva comparativa, presentamos un gráfico diferencial que compara ambas unidades. Un bloque más verde muestra una ventaja del SSD Dapustor, mientras que un bloque que se mueve hacia el lado rojo del espectro muestra una debilidad. En este caso, el J5060 supera al P5336 en el tamaño de bloque de 128K, excepto en las profundidades de E/S de 4 a 8. Sin embargo, se observan caídas de rendimiento a mayores profundidades de E/S con tamaños de bloque de 16K y 1M, lo que indica una menor eficiencia en estos escenarios.

En la comparación de latencia de lectura secuencial, el Solidigm P5336 mantiene consistentemente una latencia más baja que el Dapustor J5060 en casi todos los tamaños de bloque y profundidades de E/S. Con un tamaño de bloque de 16K, la diferencia se acentúa a medida que aumenta la profundidad de la cola: el J5060 alcanza un máximo de 2,329 μs a una profundidad de 128, mientras que el P5336 se mantiene más bajo, con 1,365 μs. A 128K, Solidigm vuelve a liderar en la mayoría de las profundidades, con la excepción de las cargas altas (4,080 μs en el J5060 frente a 5539 μs en el P5336) a la profundidad 128. Con un tamaño de bloque de 1 M, ambas unidades experimentan aumentos de latencia como se esperaba, pero el P5336 se mantiene ligeramente mejor controlado, con 29,138 29,512 μs frente a XNUMX XNUMX μs en la profundidad de cola más alta.

 

Rendimiento de escritura secuencial GDSIO

El Dapustor J5060 muestra un rendimiento de escritura constante de 2.7 a 2.8 GiB/s para tamaños de bloque de 128 K y 1 M en todas las profundidades de E/S (excepto 128 K, tamaño de profundidad de 1 E/S, que registró 2.2 GiB/s. Para tamaños de bloque de 16 K, el rendimiento varía de 0.5 GiB/s a 1.4 GiB/s, dependiendo de la profundidad de IO, alcanzando un máximo de 1.4 GiB/s en profundidades de IO mayores.

En comparación, el Solidigm P5336 ofrece un mejor rendimiento con bloques de 128 K y 1 M, alcanzando un máximo de 3.2 GiB/s. Para bloques más pequeños (16 K), el Solidigm P5336 también muestra un mayor rendimiento, alcanzando un máximo de 1.4 GiB/s con profundidades de E/S de 16 a 64. Esto indica que el Solidigm P5336 es ligeramente más eficiente con bloques más pequeños durante las operaciones de escritura.

En una perspectiva diferencial, observamos una mayor brecha entre el Dapustor J5060 y el rendimiento de escritura del Solidigm P5336. Nuestra comparación de rendimiento muestra que el J5060 se queda atrás del P5336 en la mayoría de los aspectos, especialmente con bloques de gran tamaño (1 M) en todas las profundidades de E/S. Las caídas de rendimiento alcanzan los -0.5 GiB/s en las 4 profundidades de E/S. Si bien se observan mejoras de rendimiento a mayores profundidades de E/S con bloques de 128 K, estas no son lo suficientemente significativas como para compensar el bajo rendimiento general.

Al comparar la latencia de escritura secuencial entre Dapustor J5060 y Solidigm P5336, ambas unidades muestran un comportamiento similar en tamaños de bloque más pequeños, como 16 K. Solidigm mantiene una ligera ventaja en profundidades de E/S más bajas, mientras que Dapustor cierra la brecha en profundidades más altas (64 y 128). En tamaños de bloque de 128 K, Solidigm vuelve a liderar en profundidades de cola bajas, pero Dapustor ofrece consistentemente una latencia menor a medida que aumenta la profundidad de E/S, lo que indica un mejor escalamiento bajo carga. Sin embargo, con tamaños de bloque de 1 M, Solidigm mantiene una clara ventaja en latencia en todas las profundidades de E/S, mostrando tiempos de respuesta significativamente más rápidos bajo cargas de trabajo de escritura secuencial intensas. En general, Solidigm tiene un rendimiento más consistente, mientras que la fortaleza de Dapustor es más visible en bloques de tamaño medio y colas más profundas.

Resumen de la carga de trabajo de FIO

Flexible I/O Tester (FIO) es una herramienta de evaluación comparativa, estándar en la industria, que se utiliza para medir el rendimiento de dispositivos de almacenamiento en una amplia variedad de escenarios de carga de trabajo. Reconocida por su versatilidad y fiabilidad, FIO simula condiciones reales, proporcionando información sobre las capacidades y los límites de rendimiento de un SSD. StorageReview utiliza FIO para ofrecer análisis exhaustivos que miden el rendimiento, la latencia y las IOPS en patrones de carga de trabajo, tamaños de bloque y profundidades de cola.

Cargas de trabajo aplicadas:

  • Lectura y escritura secuencial de 128 K
  • 64 XNUMX lecturas y escrituras aleatorias
  • 16 XNUMX lecturas y escrituras aleatorias
  • 4 XNUMX lecturas y escrituras aleatorias

Estas cargas de trabajo representan un amplio espectro de casos de uso empresarial, incluidas grandes transferencias secuenciales, E/S aleatorias intensivas típicas de las bases de datos y accesos aleatorios a bloques pequeños que se ven comúnmente en entornos virtualizados.

Esta sección de rendimiento resume el rendimiento del Dapustor J5060 en cargas de trabajo sintéticas clave, incluyendo operaciones de lectura/escritura secuenciales y aleatorias con diferentes tamaños de bloque y profundidades de cola. Las métricas se extraen directamente de la salida fio analizada e incluyen ancho de banda (MB/s), IOPS y percentiles de latencia de hasta el 99.9999 %, lo que ofrece información sobre el rendimiento y el comportamiento de cola bajo carga.

Rendimiento de lectura y escritura secuencial de 128 K

De cadena Profundidad de subproceso/IO Ancho de banda (MB/s) IOPS 99.0% 99.9% 99.99%
Lectura del Dapustor J5060 1T/64Q 7,482 57,081 1.66 ms 2.02 ms 2.83 ms
Solidigm P5336 Leer 1T/64Q 7,479 57,057 1.51 ms 1.66 ms 1.81 ms
Dapustor J5060 Escritura 1T/16Q 3,023 23,063 0.69 ms 0.69 ms 0.70 ms
Solidigm P5336 Escritura 1T/16Q 3,364 25,669 2.67 ms 3.48 ms 4.42 ms

El Dapustor J5060 ofrece un impresionante rendimiento de lectura secuencial a 128K, alcanzando los 7.48 GB/s con un control de latencia preciso, incluso en percentiles más altos. En comparación con el Solidigm P5336, el rendimiento del J5060 es prácticamente el mismo (7.48 GB/s frente a 7.47 GB/s). Sin embargo, Solidigm mantiene una ligera ventaja en la consistencia de la latencia, mostrando una latencia de cola ligeramente inferior.

Con 128K de escritura secuencial (QD16), el J5060 alcanza un sólido rendimiento de 3,023 MB/s con una latencia muy baja. Sin embargo, el Solidigm P5336 lo supera con creces, alcanzando los 3,364 MB/s, aunque con una latencia notablemente mayor, especialmente en el percentil del 99.99 % (4.42 ms frente a los notablemente bajos 0.70 ms de Dapustor). Esto indica que el J5060 es un candidato más sólido para escenarios de escritura secuencial sensibles a la latencia.

Rendimiento de lectura y escritura aleatoria de 64K

De cadena Profundidad de E/S Ancho de banda (MB/s) IOPS 99.0% 99.9% 99.99%
Lectura del Dapustor J5060 8T/32Q 7,475 114,058 20.05 ms 21.89 ms 25.82 ms
Solidigm P5336 Leer 8T/32Q 7,472 114,014 21.36 ms 21.89 ms 22.68 ms
Dapustor J5060 Escritura 8T/32Q 534 8,151 574.6 ms 708.8 ms 742.39 ms
Solidigm P5336 Escritura 8T/32Q 857 13,070 196.1 ms 208.6 ms 221.24 ms

En lecturas aleatorias de 64K (QD256), el Dapustor J5060 destaca con un rendimiento cercano a los 7.4 GB/s y una latencia bien controlada. Los resultados de Solidigm son muy similares (7.47 GB/s), con una latencia percentil máxima ligeramente mejor. Ambas unidades ofrecen un rendimiento excepcional en este caso, con mínimas diferencias prácticas.

El rendimiento de escritura a 64K aleatorios es donde el J5060 presenta notables dificultades, con una caída drástica del rendimiento a 534 MB/s y un aumento significativo de la latencia (742.39 ms al 99.99%). En comparación, el Solidigm P5336 supera significativamente al J5060, ofreciendo 857 MB/s y una latencia drásticamente menor (221.24 ms al mismo percentil), lo que lo hace mucho más adecuado para aplicaciones sensibles a la latencia y un rendimiento de escritura sostenido.

Rendimiento de lectura y escritura aleatoria de 16K

De cadena Profundidad de E/S Ancho de banda (MB/s) IOPS 99.0% 99.9% 99.99%
Lectura del Dapustor J5060 8T/32Q 7,430 453,461 5.28 ms 6.39 ms 8.16 ms
Solidigm P5336 Leer 8T/32Q 7,431 453,527 5.01 ms 5.21 ms 5.47 ms
Dapustor J5060 Escritura 8T/32Q 531 32,404 143.65 ms 149.94 ms 181.40 ms
Solidigm P5336 Escritura 8T/32Q 847 51,724 57.9 ms 65.8 ms 71.8 ms

Con una carga de trabajo de lectura aleatoria de 16 256 Mbps (QD453), el Dapustor alcanza excelentes resultados con 5336 5.47 IOPS y una latencia controlada. El Solidigm P8.16 prácticamente refleja este rendimiento, superando ligeramente al Dapustor en latencia (99.99 ms frente a XNUMX ms al XNUMX %), lo que sugiere una consistencia de latencia ligeramente mejor para Solidigm en escenarios de lectura aleatoria intensa.

El rendimiento de escritura aleatoria de 16 32 IOPS del SSD Dapustor se reduce significativamente a 181.4 99.99 IOPS, y la latencia aumenta a 51.7 ms (71.8 %). En este caso, Solidigm supera con creces a la unidad Dapustor, con 99.99 XNUMX IOPS y un perfil de latencia significativamente mejorado (XNUMX ms al XNUMX %), lo que subraya la ventaja de Solidigm para cargas de trabajo de escritura aleatoria sensibles a la latencia.

Rendimiento de lectura y escritura aleatoria de 4K

De cadena Profundidad de E/S Ancho de banda (MB/s) IOPS 99.0% 99.9% 99.99%
Lectura del Dapustor J5060 8T/32Q 6,941 1,694,464 1.43 ms 1.58 ms 1.79 ms
Solidigm P5336 Leer 8T/32Q 3,994 975,108 2.31 ms 2.41 ms 2.64 ms
Dapustor J5060 Escritura 8T/32Q 131 31,923 143.65 ms 145.75 ms 179.31 ms
Solidigm P5336 Escritura 8T/32Q 197 48,030 58.5 ms 64.2 ms 68.7 ms

El escenario de lectura aleatoria 4K es un punto a destacar para el Dapustor J5060, con un rendimiento máximo superior a 1.69 millones de IOPS a QD256, combinado con una latencia impresionantemente baja. En comparación, el Solidigm P5336 se queda muy por detrás, logrando tan solo 975 5060 IOPS con una latencia notablemente mayor en todos los percentiles. Para lecturas aleatorias intensivas de bloques pequeños, el Dapustor JXNUMX es claramente la mejor opción.

Lamentablemente, el rendimiento de escritura aleatoria 5060K del J4 disminuye drásticamente, alcanzando tan solo 131 MB/s y 31.9 179.31 IOPS con alta latencia (99.99 ms al 197 %). El SSD Solidigm gestiona esta situación con mayor comodidad, ofreciendo 48 MB/s, 68.7 99.99 IOPS y una latencia de cola significativamente menor (4 ms al XNUMX %). A pesar de que Solidigm también experimenta picos de latencia, sigue siendo una unidad mucho más potente para cargas de trabajo exigentes de escritura aleatoria XNUMXK.

Conclusión

En definitiva, el DapuStor J5060 es un SSD QLC empresarial de alta capacidad, diseñado para cargas de trabajo de lectura intensiva donde la densidad de almacenamiento y el coste por terabyte priorizan el rendimiento de escritura sostenido. Con capacidades de hasta 61.44 TB y una interfaz PCIe Gen4, es ideal para entornos como redes de distribución de contenido (CDR), archivos en la nube o sistemas de inferencia de IA que dependen de grandes lecturas secuenciales y escrituras poco frecuentes.

Con ese objetivo en mente, sometimos el J5060 a diversas pruebas para comprobar su rendimiento en la práctica, en particular frente al Solidigm P5336. El J5060 ofrece un sólido rendimiento de lectura secuencial y ofrece almacenamiento de alta densidad, lo que puede resultar eficaz en entornos de lectura intensiva. En algunos casos, especialmente con profundidades de E/S más bajas y tamaños de bloque más grandes, el J5060 supera al Solidigm P5336. Su latencia y rendimiento en estos escenarios demuestran que se ha diseñado para priorizar la eficiencia de lectura de bloques grandes.

Sin embargo, el rendimiento se ve afectado significativamente al considerar la actividad de escritura. En casi todas las métricas de escritura (incluyendo IOPS, latencia y rendimiento), el J5060 presenta un rendimiento consistentemente inferior al esperado. Esta debilidad es más evidente bajo presión de escritura secuencial a altas profundidades de E/S y grandes tamaños de bloque, donde la latencia es relativamente alta y el rendimiento se estabiliza. Incluso durante cargas de trabajo de puntos de control relacionadas con IA, el J5060 comienza con buen rendimiento, pero este se degrada rápidamente, lo que indica problemas con la consistencia de escritura sostenida.

Para las organizaciones con necesidades de lectura intensiva y gran capacidad, el J5060 ofrece un valor claro, pero sus limitaciones lo hacen más difícil de vender para cargas de trabajo mixtas o de escritura intensiva.

Interactuar con StorageReview

Boletín | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed