Inicio EmpresaAI Revisión de la GPU NVIDIA L4: asistente de inferencia de bajo consumo

Revisión de la GPU NVIDIA L4: asistente de inferencia de bajo consumo

by Jordan Ranous

En esta revisión, analizamos la poderosa pero pequeña GPU NVIDIA L4 en varios servidores con información comparativa de IA del mundo real.

En el incesante torrente de innovación del mundo actual de la IA, es fundamental medir y comprender las capacidades de diversas plataformas de hardware. No toda la IA requiere enormes granjas de GPU de entrenamiento; existe un segmento importante de la IA de inferencia, que a menudo requiere menos potencia de GPU, especialmente en el borde. En esta revisión, analizamos varias GPU NVIDIA L4, en tres servidores Dell diferentes y una variedad de cargas de trabajo, incluido MLperf, para ver cómo se compara el L4.

Nvidia L4

GPU NVIDIA L4

En esencia, el L4 ofrece un impresionante rendimiento de 30.3 teraFLOP en FP32, ideal para tareas computacionales de alta precisión. Su destreza se extiende a cálculos de precisión mixta con TF32, FP16 y BFLOAT16 Tensor Cores, cruciales para la eficiencia del aprendizaje profundo; la hoja de especificaciones L4 cita un rendimiento entre 60 y 121 teraFLOP.

En tareas de baja precisión, el L4 brilla con 242.5 teraFLOP en FP8 e INT8 Tensor Cores, lo que mejora la inferencia de redes neuronales. Su memoria GDDR24 de 6 GB, complementada con un ancho de banda de 300 GB/s, lo hace capaz de manejar grandes conjuntos de datos y modelos complejos. La eficiencia energética del L4 es lo más notable aquí, con un TDP de 72 W que lo hace adecuado para diversos entornos informáticos. Esta combinación de alto rendimiento, eficiencia de memoria y bajo consumo de energía hace que NVIDIA L4 sea una opción convincente para los desafíos computacionales de vanguardia.

GPU NVIDIA L4 sobre R760

Especificaciones de NVIDIA L4
FP 32 30.3 teraFLOP
Núcleo tensor TF32 60 teraFLOP
Núcleo tensor FP16 121 teraFLOP
Núcleo tensor BFLOAT16 121 teraFLOP
Núcleo tensor FP8 242.5 teraFLOP
Núcleo tensor INT8 TOP 242.5
Memoria de la GPU 24GB GDDR6
Ancho de banda de memoria GPU 300GB / s
Potencia máxima de diseño térmico (TDP) 72W
Factor de forma PCIe de perfil bajo de 1 ranura
interconexión PCIe Gen4 x16
Tabla de especificaciones L4

Por supuesto, con el precio del L4 cerca de $ 2500, el A2 cuesta aproximadamente la mitad del precio y el antiguo (pero aún bastante capaz) T4 disponible por menos de $ 1000 usado, la pregunta obvia es cuál es la diferencia entre estas tres GPU de inferencia.

Especificaciones de NVIDIA L4, A2 y T4 Nvidia L4 Nvidia A2 NVIDIA T4
FP 32 30.3 teraFLOP 4.5 teraFLOP 8.1 teraFLOP
Núcleo tensor TF32 60 teraFLOP 9 teraFLOP XNUMX tabletas
Núcleo tensor FP16 121 teraFLOP 18 teraFLOP XNUMX tabletas
Núcleo tensor BFLOAT16 121 teraFLOP 18 teraFLOP XNUMX tabletas
Núcleo tensor FP8 242.5 teraFLOP XNUMX tabletas XNUMX tabletas
Núcleo tensor INT8 TOP 242.5 36 TOPS 130 TOPS
Memoria de la GPU 24GB GDDR6 16GB GDDR6 16GB GDDR6
Ancho de banda de memoria GPU 300GB / s 200GB / s 320+GB/s
Potencia máxima de diseño térmico (TDP) 72W 40-60W 70W
Factor de forma PCIe de perfil bajo de 1 ranura
interconexión PCIe Gen4 x16 PCIe Gen4 x8 PCIe Gen3 x16
Tabla de especificaciones L4 A2 T4

Una cosa que hay que entender al observar estas tres tarjetas es que no son exactamente reemplazos generacionales uno a uno, lo que explica por qué la T4 sigue siendo, muchos años después, una opción popular para algunos casos de uso. El A2 surgió como reemplazo del T4 como una opción de bajo consumo y más compatible (x8 vs x16 mecánico). Técnicamente, el L4 es entonces un reemplazo del T4, con el A2 a caballo entre un punto intermedio que puede o no actualizarse en algún momento en el futuro.

Rendimiento de MLPerf Inferencia 3.1

MLPerf es un consorcio de líderes de IA del mundo académico, la investigación y la industria establecido para proporcionar puntos de referencia de hardware y software de IA justos y relevantes. Estos puntos de referencia están diseñados para medir el rendimiento del hardware, software y servicios de aprendizaje automático en diversas tareas y escenarios.

Nuestras pruebas se centran en dos puntos de referencia MLPerf específicos: Resnet50 y BERT.

  • Resnet50: es una red neuronal convolucional que se utiliza principalmente para la clasificación de imágenes. Es un buen indicador de qué tan bien un sistema puede manejar tareas de aprendizaje profundo relacionadas con el procesamiento de imágenes.
  • BERT (Representaciones de codificador bidireccional de Transformers): este punto de referencia se centra en tareas de procesamiento del lenguaje natural y ofrece información sobre cómo se desempeña un sistema en la comprensión y el procesamiento del lenguaje humano.

Ambas pruebas son cruciales para evaluar las capacidades del hardware de IA en escenarios del mundo real que involucran procesamiento de imágenes y lenguaje.

Evaluar NVIDIA L4 con estos puntos de referencia es fundamental para ayudar a comprender las capacidades de la GPU L4 en tareas específicas de IA. También ofrece información sobre cómo las diferentes configuraciones (configuraciones simples, duales y cuádruples) influyen en el rendimiento. Esta información es vital para los profesionales y organizaciones que buscan optimizar su infraestructura de IA.

Los modelos se ejecutan en dos modos clave: Servidor y Sin conexión.

  • Modo sin conexión: este modo mide el rendimiento de un sistema cuando todos los datos están disponibles para su procesamiento simultáneamente. Es similar al procesamiento por lotes, donde el sistema procesa un gran conjunto de datos en un solo lote. El modo sin conexión es crucial para escenarios donde la latencia no es una preocupación principal, pero sí el rendimiento y la eficiencia.
  • Modo servidor: por el contrario, el modo servidor evalúa el rendimiento del sistema en un escenario que imita un entorno de servidor del mundo real, donde las solicitudes llegan una a la vez. Este modo es sensible a la latencia y mide la rapidez con la que el sistema puede responder a cada solicitud. Es esencial para aplicaciones en tiempo real, como servidores web o aplicaciones interactivas, donde es necesaria una respuesta inmediata.

1 NVIDIA L4: Dell PowerEdge XR7620

NVIDIA L4 en Dell XR7620

Como parte de nuestra reciente revisión de la Dell PowerEdge XR7620, equipado con una única NVIDIA L4, lo llevamos al límite para ejecutar varias tareas, incluido MLPerf.

La configuración de nuestro sistema de prueba incluyó los siguientes componentes:

  • 2 x Xeon Gold 6426Y – 16 núcleos a 2.5 GHz
  • 1 tarjeta NVIDIA L4
  • 8 DDR16 de 5 GB
  • 480 GB JEFE RAID1
  • Ubuntu Server 22.04
  • Controlador NVIDIA 535
Dell PowerEdge XR7620 1x NVIDIA L4 Puntuación
Resnet50 – Servidor 12,204.40
Resnet50 – Sin conexión 13,010.20
BERT K99 – Servidor 898.945
BERT K99 – Sin conexión 973.435

El rendimiento en escenarios de servidor y fuera de línea para Resnet50 y BERT K99 es casi idéntico, lo que indica que L4 mantiene un rendimiento constante en diferentes modelos de servidor.

1, 2 y 4 NVIDIA L4: Dell PowerEdge T560

Torre Dell PowerEdge T560 - Nvidia L4 GOU x4

La configuración de nuestra unidad de revisión incluyó los siguientes componentes:

  • 2 x Intel Xeon Gold 6448Y (32 núcleos/64 hilos cada uno, TDP de 225 vatios, 2.1-4.1 GHz)
  • 8 SSD Solidigm P1.6 de 5520 TB con tarjeta RAID PERC 12
  • 1-4 GPU NVIDIA L4
  • 8 RDIMM de 64 GB
  • Ubuntu Server 22.04
  • Controlador NVIDIA 535
Regresar al centro de datos desde el borde y utilizar la versátil torre Dell T560 servidor, notamos que el L4 funciona igual de bien en la prueba de GPU única. Esto demuestra que ambas plataformas pueden proporcionar una base sólida para la L4 sin cuellos de botella.
Dell PowerEdge T560 1x NVIDIA L4 Puntuación
Resnet50 – Servidor 12,204.40
Resnet50 – Sin conexión 12,872.10
Bert K99 – Servidor 898.945
Bert K99 – Sin conexión 945.146

En nuestras pruebas con dos L4 en el Dell T560, observamos esta escalada casi lineal en el rendimiento para los puntos de referencia Resnet50 y BERT K99. Este escalado es un testimonio de la eficiencia de las GPU L4 y su capacidad para trabajar en conjunto sin pérdidas significativas debido a gastos generales o ineficiencia.

Dell PowerEdge T560 2x NVIDIA L4 Puntuación
Resnet50 – Servidor 24,407.50
Resnet50 – Sin conexión 25,463.20
BERT K99 – Servidor 1,801.28
BERT K99 – Sin conexión 1,904.10

El escalado lineal constante que presenciamos con dos GPU NVIDIA L4 se extiende de manera impresionante a configuraciones con cuatro unidades L4. Esta escala es particularmente notable ya que mantener ganancias de rendimiento lineales se vuelve cada vez más desafiante con cada GPU agregada debido a las complejidades del procesamiento paralelo y la administración de recursos.

Dell PowerEdge T560 4x NVIDIA L4 Puntuación
Resnet50 – Servidor 48,818.30
Resnet50 – Sin conexión 51,381.70
BERT K99 – Servidor 3,604.96
BERT K99 – Sin conexión 3,821.46

Estos resultados son solo para fines ilustrativos y no son resultados competitivos u oficiales de MLPerf. Para obtener una lista oficial completa de resultados, por favor visite la página de resultados de MLPerf.

Además de validar la escalabilidad lineal de las GPU NVIDIA L4, nuestras pruebas en el laboratorio arrojan luz sobre las implicaciones prácticas de implementar estas unidades en diferentes escenarios operativos. Por ejemplo, la coherencia en el rendimiento entre los modos de servidor y fuera de línea en todas las configuraciones con las GPU L4 revela su confiabilidad y versatilidad.

Este aspecto es particularmente relevante para empresas e instituciones de investigación donde los contextos operativos varían significativamente. Además, nuestras observaciones sobre el impacto mínimo de los cuellos de botella en la interconexión y la eficiencia de la sincronización de GPU en configuraciones de múltiples GPU brindan información valiosa para quienes buscan escalar su infraestructura de IA. Estos conocimientos van más allá de meros números de referencia y ofrecen una comprensión más profunda de cómo dicho hardware se puede utilizar de manera óptima en escenarios del mundo real, guiando mejores decisiones arquitectónicas y estrategias de inversión en infraestructura de IA y HPC.

NVIDIA L4: rendimiento de las aplicaciones

Comparamos el rendimiento de la nueva NVIDIA L4 con la NVIDIA A2 y la NVIDIA T4 anteriores. Para mostrar esta mejora de rendimiento con respecto a los modelos anteriores, implementamos los tres modelos dentro de un servidor en nuestro laboratorio, con Windows Server 2022 y los controladores NVIDIA más recientes, aprovechando todo nuestro conjunto de pruebas de GPU.

Estas tarjetas fueron probadas en un Dell PowerEdge R760 con la siguiente configuración:

  • 2 procesadores Intel Xeon Gold 6430 (32 núcleos, 2.1 GHz)
  • Windows Server 2022
  • Controlador NVIDIA 538.15
  • ECC deshabilitado en todas las tarjetas para muestreo 1x

NVIDIA L4 en elevador R760

Al iniciar las pruebas de rendimiento entre este grupo de tres GPU empresariales, es importante tener en cuenta las diferencias de rendimiento únicas entre los modelos A2 y T4 anteriores. Cuando se lanzó el A2, ofreció algunas mejoras notables, como un menor consumo de energía y funcionamiento en una ranura PCIe Gen4 x8 más pequeña, en lugar de la ranura PCIe Gen3 x16 más grande que requería el T4 anterior. Desde el principio, le permitió encajar en más sistemas, especialmente con el espacio más pequeño necesario.

Licuadora OptiX 4.0

Blender OptiX es una aplicación de modelado 3D de código abierto. Esta prueba se puede ejecutar tanto para CPU como para GPU, pero solo hicimos GPU como la mayoría de las otras pruebas aquí. Este punto de referencia se ejecutó utilizando la utilidad CLI Blender Benchmark. La puntuación es de muestras por minuto, cuanto mayor sea, mejor.

Blender 4.0
(Más alto es mejor)
Nvidia L4 Nvidia A2 nvidia t4
CLI de GPU Blender – Monstruo 2,207.765 458.692 850.076
GPU Blender CLI - Tienda basura 1,127.829 292.553 517.243
CLI de GPU Blender – Aula 1,111.753 262.387 478.786

Prueba de velocidad Blackmagic RAW

Probamos CPU y GPU con la prueba de velocidad RAW de Blackmagic, que prueba las velocidades de reproducción de video. Se trata más bien de una prueba híbrida que incluye el rendimiento de la CPU y la GPU para la decodificación RAW del mundo real. Estos se muestran como resultados separados, pero aquí solo nos centramos en las GPU, por lo que se omiten los resultados de la CPU.

Prueba de velocidad Blackmagic RAW
(Más alto es mejor)
Nvidia L4 Nvidia A2 NVIDIA T4
CUDA 8K 95 FPS 38 FPS 53 FPS

GPU Cinebench 2024

Cinebench 2024 de Maxon es un punto de referencia de renderizado de CPU y GPU que utiliza todos los núcleos e hilos de la CPU. Nuevamente, dado que nos estamos enfocando en los resultados de la GPU, no ejecutamos las partes de la prueba de la CPU. Las puntuaciones más altas son mejores.

Cinebench 2024
(Más alto es mejor)
Nvidia L4 Nvidia A2 NVIDIA T4
GPU 15,263 4,006 5,644

GPUPI

GPUPI 3.3.3 es una versión de la utilidad de evaluación comparativa liviana diseñada para calcular π (pi) hasta miles de millones de decimales utilizando aceleración de hardware a través de GPU y CPU. Aprovecha la potencia informática de OpenCL y CUDA, que incluye unidades de procesamiento central y gráfico. Ejecutamos CUDA solo en las 3 GPU y los números aquí son el tiempo de cálculo sin tiempo de reducción agregado. Más bajo es mejor.

Tiempo de cálculo de GPU PI en segundos
(Más bajo es mejor)
Nvidia L4 Nvidia A2 NVIDIA T4
GPUPI v3.3 – 1B Los 3.732s Los 19.799s Los 7.504s
GPUPI v3.3 – 32B Los 244.380s Los 1,210.801s Los 486.231s

Si bien los resultados anteriores analizaron solo una iteración de cada tarjeta, también tuvimos la oportunidad de observar una implementación de 5x NVIDIA L4 dentro del Dell PowerEdge T560.

Tiempo de cálculo de GPU PI en segundos
(Más bajo es mejor)
Dell PowerEdge T560 (2x Xeon Gold 6448Y) con 5x NVIDIA L4
GPUPI v3.3 – 1B 0 segundos 850 ms
GPUPI v3.3 – 32B 50 segundos 361 ms

Banco de octano

OctaneBench es una utilidad de evaluación comparativa para OctaneRender, otro renderizador 3D con soporte RTX similar a V-Ray.

 Octano (cuanto más alto, mejor)
Escena Núcleo Nvidia L4 Nvidia A2 NVIDIA T4
Interior Canales de información 15.59 4.49 6.39
Iluminación directa 50.85 14.32 21.76
Trazado de ruta 64.02 18.46 25.76
Idea Canales de información 9.30 2.77 3.93
Iluminación directa 39.34 11.53 16.79
Trazado de ruta 48.24 14.21 20.32
Cuatriciclo Canales de información 24.38 6.83 9.50
Iluminación directa 54.86 16.05 21.98
Trazado de ruta 68.98 20.06 27.50
Caja Canales de información 12.89 3.88 5.42
Iluminación directa 48.80 14.59 21.36
Trazado de ruta 54.56 16.51 23.85
Puntaje total 491.83 143.71 204.56

GPU Geekbench 6

Geekbench 6 es un punto de referencia multiplataforma que mide el rendimiento general del sistema. Hay opciones de prueba para evaluaciones comparativas de CPU y GPU. Las puntuaciones más altas son mejores. Nuevamente, solo miramos los resultados de la GPU.

Puede encontrar comparaciones con cualquier sistema que desee en el Navegador geekbench.

Geekbench 6.1.0
(Más alto es mejor)
Nvidia L4 Nvidia A2 NVIDIA T4
GPU Geekbench OpenCL 156,224 35,835 83,046

luxmark

LuxMark es una herramienta de evaluación comparativa multiplataforma OpenCL de quienes mantienen el motor de renderizado 3D de código abierto LuxRender. Esta herramienta analiza el rendimiento de la GPU en trabajos de modelado, iluminación y vídeo 3D. Para esta revisión, utilizamos la versión más reciente, v4alpha0. En LuxMark, cuanto más alto, mejor en lo que respecta a la puntuación.

Luxmark v4.0alpha0
GPU OpenCL
(Más alto es mejor)
Nvidia L4 Nvidia A2 NVIDIA T4
Banco de pasillo 14,328 3,759 5,893
banco de comida 5,330 1,258 2,033

GROMACS CUDA

También obtenemos GROMACS compilado, un software de dinámica molecular, específicamente para CUDA. Esta compilación personalizada tenía como objetivo aprovechar las capacidades de procesamiento paralelo de las 5 GPU NVIDIA L4, esenciales para acelerar las simulaciones computacionales.

El proceso implicó la utilización de nvcc, el compilador CUDA de NVIDIA, junto con muchas iteraciones de los indicadores de optimización apropiados para garantizar que los binarios estuvieran correctamente ajustados a la arquitectura del servidor. La inclusión de soporte CUDA en la compilación GROMACS permite que el software interactúe directamente con el hardware GPU, lo que puede mejorar drásticamente los tiempos de cálculo para simulaciones complejas.

La prueba: interacción de proteínas personalizada en Gromacs

Aprovechando un archivo de entrada proporcionado por la comunidad desde nuestro diverso Discord, que contenía parámetros y estructuras adaptadas para un estudio de interacción de proteínas específico, iniciamos una simulación de dinámica molecular. Los resultados fueron notables: el sistema alcanzó una velocidad de simulación de 170.268 nanosegundos por día.

GPU System ns/día tiempo central (s)
Nvidia A4000 Caja blanca AMD Ryzen 5950x 84.415 163,763
RTX NVIDIA 4070 Caja blanca AMD Ryzen 7950x3d 131.85 209,692.3
5x NVIDIA L4 Dell T560 con 2x Intel Xeon Gold 6448Y 170.268 608,912.7

Más que IA

Con el revuelo por la IA, es fácil quedar atrapado en el rendimiento de los modelos con NVIDIA L4, pero también tiene algunos otros trucos bajo la manga, lo que abre un mundo de posibilidades para las aplicaciones de video. Puede alojar hasta 1,040 transmisiones de vídeo AV1 simultáneas a 720p30. Esto puede transformar la forma en que se puede transmitir el contenido en vivo a los usuarios perimetrales, mejorar la narración creativa y presentar usos interesantes para experiencias inmersivas de AR/VR.

NVIDIA L4 también destaca en la optimización del rendimiento de los gráficos, algo evidente en sus capacidades de renderizado en tiempo real y trazado de rayos. En una oficina perimetral, el L4 es capaz de proporcionar un cálculo gráfico de aceleración robusto y potente en VDI a los usuarios finales que más lo necesitan, donde la representación de gráficos de alta calidad en tiempo real es esencial.

Pensamientos Finales

La GPU NVIDIA L4 proporciona una plataforma sólida para IA de vanguardia y computación de alto rendimiento, ofreciendo eficiencia y versatilidad incomparables en varias aplicaciones. Su capacidad para manejar canales intensivos de IA, aceleración o video y optimizar el rendimiento de los gráficos lo convierte en una opción ideal para la inferencia de borde o la aceleración de escritorio virtual. La combinación de alta potencia computacional, capacidades de memoria avanzadas y eficiencia energética del L4 lo posiciona como un actor clave para impulsar la aceleración de las cargas de trabajo en el borde, especialmente en industrias con uso intensivo de gráficos e inteligencia artificial.

Pila giratoria NVIDIA L4

No hay duda de que la IA es el ojo del huracán de TI en estos días, y la demanda de las monstruosas GPU H100/H200 continúa por las nubes. Pero también hay un gran impulso para llevar un conjunto de equipos de TI más sólido al borde, donde se crean y analizan los datos. En estos casos, se necesita una GPU más adecuada. Aquí, NVIDIA L4 sobresale y debería ser la opción predeterminada para la inferencia de borde, ya sea como una sola unidad o ampliada en conjunto, como probamos en el T560.

Página del producto NVIDIA L4

Interactuar con StorageReview

Boletín | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed