Para validar las ventajas de la DRAM en sistemas de IA, realizamos una serie de pruebas utilizando ocho módulos de memoria Kingston KSM56R46BD4PMI-64HAI DDR5.
La DRAM del sistema juega un papel importante en la IA, particularmente en la inferencia de la CPU. A medida que las aplicaciones de IA se vuelven más complejas, la demanda de soluciones de memoria más rápidas y eficientes se vuelve cada vez más crítica. Queríamos analizar la importancia de la DRAM del sistema en la IA, centrándonos en la inferencia de la CPU y el papel vital de la utilización de múltiples canales de memoria.
Kingston KSM56R46BD4PMI-64HAI DDR5
La importancia del sistema DRAM en la IA
System DRAM es el centro central de datos en los sistemas de IA. Los datos se almacenan temporalmente para que la CPU pueda acceder rápidamente a ellos, lo que permite un procesamiento rápido de los datos.
Esto es particularmente crucial en las aplicaciones de IA, donde lidiar con grandes conjuntos de datos de manera rápida y eficiente no es solo una ventaja sino una necesidad. A continuación se ofrece un vistazo más de cerca al papel multifacético de System DRAM en la mejora de las capacidades de IA:
- Velocidad y eficiencia: los algoritmos de IA, particularmente en la inferencia, requieren memoria de alta velocidad para procesar grandes cantidades de datos. La DRAM del sistema proporciona esta velocidad, lo que reduce la latencia y aumenta el rendimiento general del sistema.
- Capacidad: las aplicaciones modernas de IA exigen grandes capacidades de memoria. La DRAM de alta capacidad garantiza que se puedan procesar conjuntos de datos más grandes en la memoria, evitando el proceso más lento de recuperar datos de los dispositivos de almacenamiento.
- Fiabilidad: en la IA, la integridad de los datos es primordial. La DRAM del sistema, con sus capacidades de corrección de errores, garantiza que se minimice la corrupción de datos, algo esencial en aplicaciones donde la precisión es crítica.
- Escalabilidad: a medida que los modelos de IA se vuelven cada vez más complejos, la capacidad de escalar los recursos de memoria se vuelve extremadamente importante. System DRAM ofrece la escalabilidad necesaria para adaptarse a las crecientes demandas de las aplicaciones de IA en evolución y sus crecientes requisitos de datos.
- Ancho de banda: el mayor ancho de banda de la DRAM del sistema permite velocidades de transferencia de datos más rápidas, lo que permite un acceso más rápido a los datos. Esto es especialmente beneficioso para entrenar redes neuronales complejas y gestionar tareas de procesamiento de datos a gran escala.
Inferencia de CPU y DRAM
En inteligencia artificial, la inferencia de CPU (el proceso de utilizar un modelo entrenado para hacer predicciones o decisiones) y el papel de la DRAM son componentes críticos que influyen significativamente en la eficiencia y la velocidad de las aplicaciones de IA. Esta fase consume mucha memoria debido a la necesidad de acceder y procesar rápidamente grandes conjuntos de datos. Es particularmente exigente con la memoria del sistema debido a la naturaleza compleja y el tamaño de los datos involucrados.
La DRAM es fundamental para optimizar la inferencia de la CPU para las operaciones de IA a través de varias mejoras clave. En primer lugar, proporciona el ancho de banda necesario para lograr un alto rendimiento de datos, lo cual es esencial para el procesamiento rápido de datos y la toma de decisiones en la inferencia de la CPU. Este mayor rendimiento se traduce directamente en un rendimiento más rápido en tareas complejas.
Además, al almacenar datos cerca de la CPU, la DRAM del sistema reduce significativamente el tiempo de acceso a los datos, minimizando así la latencia general de inferencia. Esta proximidad es crucial para mantener un sistema rápido y receptivo. Por último, a medida que los datos se procesan rápidamente y los tiempos de acceso se acortan, la potencia total requerida para las tareas de inferencia de la CPU se reduce notablemente. Esto conduce a operaciones más eficientes energéticamente y garantiza un entorno más sostenible y rentable para las aplicaciones de IA.
El papel de múltiples canales de memoria
La arquitectura de la memoria del sistema es un elemento esencial para definir el rendimiento de las aplicaciones de IA. Utilizar múltiples canales de memoria es como ampliar una autopista: facilita un mayor flujo de tráfico de datos al mismo tiempo, lo que mejora significativamente el rendimiento general del sistema. Así es como el empleo de múltiples canales puede optimizar las operaciones de IA:
- Mayor ancho de banda: múltiples canales aumentan el ancho de banda de la memoria. Esto es crucial para las aplicaciones de IA, ya que pueden procesar y analizar más datos simultáneamente, lo que permite tiempos de inferencia más rápidos.
- Procesamiento paralelo: con múltiples canales, los datos se pueden procesar en paralelo, lo que acelera significativamente los cálculos de IA que involucran grandes conjuntos de datos.
- Reducción de cuellos de botella: múltiples canales de memoria ayudan a reducir los cuellos de botella del sistema. La distribución de la carga de memoria permite que cada canal funcione de manera más eficiente, mejorando el rendimiento general del sistema.
Datos de prueba
Para validar las ventajas de la DRAM en los sistemas de IA, en particular la inferencia de CPU, realizamos una serie de pruebas utilizando ocho módulos de memoria Kingston KSM56R46BD4PMI-64HAI DDR5 en diferentes configuraciones de canales.
KSM48R40BD4TMM-64HMR 64GB 2Rx4 8G x 80 bits PC5-4800 CL40 registrado EC8 DIMM de 288 pines | KSM56R46BD4PMI-64HAI 64GB 2Rx4 8G x 80 bits PC5-5600 CL46 registrado EC8 DIMM de 288 pines | |
Velocidad de transferencia | 4800 MT / s | 5600 MT / s |
CL (IDD) | 40 ciclos | 46 ciclos |
Tiempo de ciclo de fila (tRCmin) | 48 ns (mín.) | 48 ns (mín.) |
Actualizar a Activo/Actualizar tiempo de comando (tRFCmin) | 295 ns (mín.) | 295 ns (mín.) |
Tiempo activo de fila | 32 ns (mín.) | 32 ns (mín.) |
Tiempo de precarga de fila | 16 ns (mín.) | 16 ns (mín.) |
Calificación UL | 94 V - 0 | 94 V - 0 |
Temperatura de Funcionamiento | 0 C hasta +95 C | 0 C hasta +95 C |
Temperatura de almacenamiento | -55 C a + 100 C | -55 C a + 100 C |
Para establecer una línea de base, iniciamos evaluaciones comparativas de CPU enfocadas y pruebas Geekbench, midiendo las capacidades aisladas de la CPU. Para estresar seriamente todo el sistema, incluida la memoria y el almacenamiento, seleccionamos y-cruncher por sus rigurosas exigencias. Este enfoque nos permite evaluar la cohesión y resistencia de todo el sistema en condiciones extremas, proporcionando una imagen clara del rendimiento y la estabilidad generales.
En última instancia, estos resultados proporcionarán datos concretos sobre cómo la DRAM del sistema y la cantidad de canales de memoria impactan directamente la velocidad computacional, la eficiencia y el rendimiento general del sistema en aplicaciones de IA.
Geekbench 6
En primer lugar es Geekbench 6, un punto de referencia multiplataforma que mide el rendimiento general del sistema. Puede encontrar comparaciones con cualquier sistema que desee en el Navegador geekbench. Las puntuaciones más altas son mejores.
Geekbench 6 | Memoria DDR5 2 Canales |
Memoria DDR5 4 Canales |
Memoria DDR5 8 Canales |
Punto de referencia de la CPU: Núcleo simple |
2,083 | 2,233 | 2,317 |
Punto de referencia de la CPU: Multi-Core |
14,404 | 18,561 | 19,752 |
Los resultados de Geekbench 6 para Kingston DDR5 muestran una variedad de variaciones al comparar configuraciones de 2, 4 y 8 canales. En las pruebas de un solo núcleo, las puntuaciones aumentan modesta pero consistentemente de 2,083 con dos canales a 2,317 con ocho canales, lo que indica una mayor eficiencia y rendimiento para las operaciones centrales individuales a medida que aumenta el número de canales. Sin embargo, la mejora de rendimiento más espectacular se observa en las pruebas multinúcleo, donde las puntuaciones saltan de 14,404 con dos canales a 19,752 sustanciales con ocho canales.
trituradora
y-cruncher, un programa escalable y de subprocesos múltiples, puede calcular Pi y otras constantes matemáticas hasta billones de dígitos. Desde su lanzamiento en 2009, y-cruncher se ha convertido en una popular aplicación de evaluación comparativa y pruebas de estrés para overclockers y entusiastas del hardware. Cuanto más rápido, mejor en esta prueba.
trituradora (Tiempo total de cálculo) |
Memoria DDR5 2 Canales |
Memoria DDR5 4 Canales |
Memoria DDR5 8 Canales |
1 billón de dígitos | 18.117 Segundos | 10.856 Segundos | 7.552 Segundos |
2.5 billón de dígitos | 51.412 Segundos | 31.861 segundos | 20.981 segundos |
5 billón de dígitos | 110.728 Segundos | 64.609 segundos | 46.304 segundos |
10 billón de dígitos | 240.666 Segundos | 138.402 segundos | 103.216 segundos |
25 mil millones de dígitos | 693.835 Segundos | 396.997 segundos | XNUMX tabletas |
El punto de referencia de y-cruncher en 2, 4 y 8 canales demuestra una mejora clara y consistente en la velocidad computacional a medida que aumenta el número de canales. Para calcular mil millones de dígitos de Pi, el tiempo total de cálculo disminuye significativamente de 1 segundos con dos canales a sólo 18.117 segundos con ocho canales.
Esta tendencia de reducción del tiempo de cálculo continúa en todas las escalas probadas, y el tiempo para calcular 25 mil millones de dígitos cae de 693.835 segundos a 396.997 segundos al pasar de 2 a 4 canales.
3DMark – Perfil de CPU
La prueba de perfil de CPU en 3DMark mide específicamente el rendimiento del procesador en una variedad de subprocesos, ofreciendo una visión detallada de cómo las diferentes configuraciones de los canales de RAM DDR5 afectan el manejo y la eficiencia de la carga de trabajo de la CPU. Esta prueba es beneficiosa para comprender los matices de rendimiento en operaciones con uso intensivo de memoria y aplicaciones multiproceso cuando se utilizan varias configuraciones de canales de RAM DDR5.
3DMark – Perfil de CPU – Puntuaciones | |||
Número de hilos | Memoria DDR5 2 Canales |
Memoria DDR5 4 Canales |
Memoria DDR5 8 Canales |
Subprocesos máximos | 15,822 | 15,547 | 15,457 |
Hilos 16 | 10,632 | 9,515 | 10,367 |
Hilos 8 | 4,957 | 6,019 | 5,053 |
Hilos 4 | 3,165 | 3,366 | 3,323 |
Hilos 2 | 1,726 | 1,765 | 1,781 |
hilo 1 | 907 | 911 | 884 |
Las puntuaciones del perfil de CPU 3DMark para la RAM Kingston DDR5 muestran una imagen algo compleja, lo que indica que la cantidad óptima de canales puede variar según el número de subprocesos y la carga de trabajo específica.
En el número máximo de subprocesos, las puntuaciones son más altas con dos canales (15,822) y disminuyen ligeramente con más canales, lo que sugiere que los canales adicionales no brindan un beneficio para tareas altamente paralelas. Sin embargo, con ocho subprocesos, la configuración de 4 canales obtiene la puntuación más alta (6,019), lo que indica un punto ideal donde los canales adicionales mejoran el manejo del paralelismo de nivel medio. Las puntuaciones son similares en todas las configuraciones de canales con un número de subprocesos más bajo (4, 2 y 1 subproceso).
Estos resultados sugieren que si bien más canales pueden beneficiar ciertas operaciones multiproceso, el impacto varía según la naturaleza de la tarea y la arquitectura del sistema. Es decir, más no siempre es mejor para cada caso de uso.
Efecto del canal DRAM en la inferencia de IA
Todas las pruebas se realizaron en una CPU Intel Xeon w9-3475X, utilizando la API Intel OpenVINO a través de UL Labs Procyon Benchmark.
Con una variedad de motores de inferencia de IA de proveedores de primer nivel, UL Procyon AI Inference Benchmark atiende a un amplio espectro de configuraciones y requisitos de hardware. La puntuación de referencia proporciona un resumen conveniente y estandarizado del rendimiento de inferencia en el dispositivo. Esto nos permite comparar y contrastar varias configuraciones de hardware en situaciones del mundo real sin necesidad de soluciones internas.
Los resultados están dentro del margen de error en FP32, pero las cosas se ponen interesantes cuando pasas a INT, observando las puntuaciones granulares en lugar de la puntuación general.
Un número mayor es mejor en puntuación general, un número pequeño es mejor en tiempos.
El primero es FP32 Precision
FP 32 | ||
Precisión | 8 Channel | 2 Channel |
Puntuación Global | 629 | 630 |
Tiempo medio de inferencia de MobileNet V3 | 0.81 | 0.77 |
Tiempo de inferencia promedio de ResNet 50 | 1.96 | 1.82 |
Tiempo promedio de inferencia de Inception V4 | 6.93 | 7.31 |
Tiempo de inferencia promedio de DeepLab V3 | 6.27 | 6.17 |
Tiempo de inferencia promedio de YOLO V3 | 12.99 | 13.99 |
Tiempo de inferencia promedio REAL-ESRGAN | 280.59 | 282.45 |
El siguiente es FP16 Precision
FP 16 | ||
Precisión | 8 Channel | 2 Channel |
Puntuación Global | 645 | 603 |
Tiempo medio de inferencia de MobileNet V3 | 0.81 | 0.76 |
Tiempo de inferencia promedio de ResNet 50 | 1.91 | 1.94 |
Tiempo promedio de inferencia de Inception V4 | 7.11 | 7.27 |
Tiempo de inferencia promedio de DeepLab V3 | 6.27 | 7.13 |
Tiempo de inferencia promedio de YOLO V3 | 12.93 | 15.01 |
Tiempo de inferencia promedio REAL-ESRGAN | 242.24 | 280.91 |
Y finalmente INT
INT | ||
Precisión | 8 Channel | 2 Channel |
Puntuación Global | 1,033 | 1004 |
Tiempo medio de inferencia de MobileNet V3 | 0.71 | 0.73 |
Tiempo de inferencia promedio de ResNet 50 | 1.48 | 1.48 |
Tiempo promedio de inferencia de Inception V4 | 4.42 | 4.47 |
Tiempo de inferencia promedio de DeepLab V3 | 4.33 | 4.99 |
Tiempo de inferencia promedio de YOLO V3 | 5.15 | 5.12 |
Tiempo de inferencia promedio REAL-ESRGAN | 122.40 | 123.57 |
Rendimiento y latencia de DRAM
En primer lugar, observemos la latencia de la configuración DRAM de 2 y 8 canales. Creamos perfiles de toda la CPU y la memoria, pero nuestro único enfoque fue la transición de la caché de la CPU a la DRAM. Dado que nuestra CPU Xeon W9-3475X solo tiene 82.50 MB de caché L3, sacamos el gráfico al comienzo de esa transición.
Tamaño de prueba (KB) | Ancho de banda de 2 canales |
Latencia de 8 canales (ns)
|
65,536 | 48.70080 | 47.24411 |
98,304 | 68.16823 | 66.25920 |
131,072 | 85.38640 | 82.16685 |
262,144 | 114.32570 | 107.57450 |
393,216 | 121.74860 | 115.40340 |
524,288 | 129.38970 | 123.22100 |
1,048,576 | 144.32880 | 138.28380 |
Aquí podemos ver que agregar más canales mejoró la latencia por un pequeño margen.
Pasando al ancho de banda en las instrucciones AVX512, podemos ver una diferencia un poco más dramática en el ancho de banda entre 2 canales y 8 canales. El Delta aquí es el rendimiento alcanzado entre 2 y 8 canales.
Tamaño de prueba (KB) AVX512 | Ancho de banda de 2 canales (GB/s) | Ancho de banda de 8 canales (GB/s) | Delta(diferencia GB/s) |
65,536 | 3,455.28 | 3,767.91 | -312.63 |
98,304 | 1,801.88 | 2,011.83 | -209.95 |
131,072 | 1,009.21 | 1,436.50 | -427.28 |
262,144 | 178.52 | 508.65 | -330.13 |
393,216 | 114.76 | 433.91 | -319.15 |
524,288 | 94.81 | 396.90 | -302.09 |
1,048,576 | 71.12 | 293.26 | -222.13 |
1,572,864 | 66.98 | 267.44 | -200.46 |
2,097,152 | 65.08 | 262.50 | -197.42 |
3,145,728 | 63.63 | 253.12 | -189.50 |
Conclusión
En resumen, la DRAM del sistema es una piedra angular en la arquitectura de los sistemas de IA, especialmente en la inferencia de CPU. Su capacidad para proporcionar memoria amplia, confiable y de alta velocidad es indispensable. Además, aprovechar múltiples canales de memoria puede mejorar significativamente el rendimiento de las aplicaciones de IA al aumentar el ancho de banda, permitir el procesamiento paralelo y minimizar los cuellos de botella. A medida que la IA continúa evolucionando, la optimización de la DRAM del sistema seguirá siendo un enfoque clave para garantizar los más altos niveles de rendimiento y eficiencia.
Imagen generada por IA, impulsada por Jordan Ranous
Además, los datos de las pruebas refuerzan esta noción y demuestran los beneficios tangibles de las configuraciones de memoria mejoradas. A medida que ampliamos los límites de la IA y el procesamiento de datos, la mejora estratégica de la memoria del sistema será crucial para respaldar la próxima generación de innovación de IA y aplicaciones en el mundo real.
Interactuar con StorageReview
Boletín | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed