Home EmpreendimentoAI Análise da GPU NVIDIA L4 – Assistente de inferência de baixo consumo de energia

Análise da GPU NVIDIA L4 – Assistente de inferência de baixo consumo de energia

by Jordan Ranous

Nesta análise, analisamos a poderosa, mas pequena, GPU NVIDIA L4 em vários servidores com insights de benchmarking de IA do mundo real.

Na torrente implacável de inovação do mundo atual da IA, é fundamental medir e compreender as capacidades de várias plataformas de hardware. Nem toda IA ​​requer grandes farms de GPU de treinamento; há um segmento importante de inferência de IA, que geralmente requer menos potência de GPU, especialmente na borda. Nesta análise, damos uma olhada em várias GPUs NVIDIA L4, em três servidores Dell diferentes e em uma variedade de cargas de trabalho, incluindo MLperf, para ver como o L4 se compara.

NVIDIA L4

GPU NVIDIA L4

Em sua essência, o L4 oferece impressionantes 30.3 teraFLOPs em desempenho FP32, ideal para tarefas computacionais de alta precisão. Sua habilidade se estende a cálculos de precisão mista com núcleos tensores TF32, FP16 e BFLOAT16, cruciais para eficiência de aprendizado profundo. A folha de especificações L4 cita desempenho entre 60 e 121 teraFLOPs.

Em tarefas de baixa precisão, o L4 brilha com 242.5 teraFLOPs nos Tensor Cores FP8 e INT8, aprimorando a inferência de redes neurais. Sua memória GDDR24 de 6 GB, complementada por uma largura de banda de 300 GB/s, o torna capaz de lidar com grandes conjuntos de dados e modelos complexos. A eficiência energética do L4 é o que mais se destaca aqui, com um TDP de 72W tornando-o adequado para vários ambientes de computação. Essa combinação de alto desempenho, eficiência de memória e baixo consumo de energia torna o NVIDIA L4 uma escolha atraente para desafios computacionais de ponta.

GPU NVIDIA L4 em cima do R760

Especificações NVIDIA L4
FP 32 30.3 teraFLOPs
Núcleo tensor TF32 60 teraFLOPs
Núcleo Tensor FP16 121 teraFLOPs
Núcleo tensor BFLOAT16 121 teraFLOPs
Núcleo Tensor FP8 242.5 teraFLOPs
Núcleo tensor INT8 242.5 TOP
Memória GPU 24GB GDDR6
Largura de banda da memória da GPU 300GB / s
Potência térmica máxima de projeto (TDP) 72W
Fator de Forma PCIe de baixo perfil de 1 slot
Interconexão PCIe Gen4 x16
Tabela de especificações L4

Claro, com o preço do L4 em torno de US$ 2500, o A2 custando cerca de metade do preço e o antigo (mas ainda bastante capaz) T4 disponível por menos de US$ 1000 usado, a questão óbvia é qual é a diferença entre essas três GPUs de inferência.

Especificações NVIDIA L4, A2 e T4 NVIDIA L4 Nvidia A2 Nvidia T4
FP 32 30.3 teraFLOPs 4.5 teraFLOPs 8.1 teraFLOPs
Núcleo tensor TF32 60 teraFLOPs 9 teraFLOPs N/D
Núcleo Tensor FP16 121 teraFLOPs 18 teraFLOPs N/D
Núcleo tensor BFLOAT16 121 teraFLOPs 18 teraFLOPs N/D
Núcleo Tensor FP8 242.5 teraFLOPs N/D N/D
Núcleo tensor INT8 242.5 TOP 36 TOPS 130 TOPS
Memória GPU 24GB GDDR6 16GB GDDR6 16GB GDDR6
Largura de banda da memória da GPU 300GB / s 200GB / s Mais de 320 GB/s
Potência térmica máxima de projeto (TDP) 72W 40-60W 70W
Fator de Forma PCIe de baixo perfil de 1 slot
Interconexão PCIe Gen4 x16 PCIe Gen4 x8 PCIe Gen3 x16
Tabela de especificações L4 A2 T4

Uma coisa a entender ao olhar para essas três placas é que elas não são exatamente substituições geracionais individuais, o que explica por que o T4 ainda permanece, muitos anos depois, uma escolha popular para alguns casos de uso. O A2 surgiu como substituto do T4 como uma opção de baixo consumo de energia e mais compatível (x8 vs x16 mecânico). Tecnicamente, o L4 é então um substituto para o T4, com o A2 abrangendo um meio-termo que pode ou não ser atualizado em algum momento no futuro.

Desempenho da inferência 3.1 do MLPerf

MLPerf é um consórcio de líderes de IA da academia, pesquisa e indústria estabelecido para fornecer benchmarks justos e relevantes de hardware e software de IA. Esses benchmarks são projetados para medir o desempenho de hardware, software e serviços de aprendizado de máquina em diversas tarefas e cenários.

Nossos testes se concentram em dois benchmarks específicos do MLPerf: Resnet50 e BERT.

  • Resnet50: Esta é uma rede neural convolucional usada principalmente para classificação de imagens. É um bom indicador de quão bem um sistema pode lidar com tarefas de aprendizagem profunda relacionadas ao processamento de imagens.
  • BERT (Representações de codificador bidirecional de transformadores): Este benchmark se concentra em tarefas de processamento de linguagem natural, oferecendo insights sobre o desempenho de um sistema na compreensão e processamento da linguagem humana.

Ambos os testes são cruciais para avaliar as capacidades do hardware de IA em cenários do mundo real que envolvem processamento de imagem e linguagem.

Avaliar o NVIDIA L4 com esses benchmarks é fundamental para ajudar a compreender os recursos da GPU L4 em tarefas específicas de IA. Ele também oferece insights sobre como diferentes configurações (configurações simples, duplas e quádruplas) influenciam o desempenho. Esta informação é vital para profissionais e organizações que procuram otimizar a sua infraestrutura de IA.

Os modelos são executados em dois modos principais: Servidor e Offline.

  • Modo Offline: Este modo mede o desempenho de um sistema quando todos os dados estão disponíveis para processamento simultaneamente. É semelhante ao processamento em lote, onde o sistema processa um grande conjunto de dados em um único lote. O modo offline é crucial para cenários em que a latência não é uma preocupação principal, mas o rendimento e a eficiência são.
  • Modo Servidor: Em contraste, o modo servidor avalia o desempenho do sistema em um cenário que imita um ambiente de servidor do mundo real, onde as solicitações chegam uma de cada vez. Este modo é sensível à latência, medindo a rapidez com que o sistema pode responder a cada solicitação. É essencial para aplicações em tempo real, como servidores web ou aplicações interativas, onde é necessária uma resposta imediata.

1x NVIDIA L4 – Dell PowerEdge XR7620

NVIDIA L4 no Dell XR7620

Como parte de nossa recente revisão do Dell Power Edge XR7620, equipado com um único NVIDIA L4, levamos ele ao limite para executar diversas tarefas, incluindo MLPerf.

Nossa configuração do sistema de teste incluiu os seguintes componentes:

  • 2 x Xeon Gold 6426Y – 16 núcleos 2.5 GHz
  • 1x NVIDIA L4
  • 8 x DDR16 de 5 GB
  • RAID 480 de 1 GB
  • Ubuntu Server 22.04
  • Driver NVIDIA 535
Dell PowerEdge XR7620 1x NVIDIA L4 Pontuação
Resnet50 – Servidor 12,204.40
Resnet50 – off-line 13,010.20
BERT K99 – Servidor 898.945
BERT K99 – off-line 973.435

O desempenho em cenários de servidor e offline para Resnet50 e BERT K99 é quase idêntico, indicando que o L4 mantém desempenho consistente em diferentes modelos de servidor.

1, 2 e 4 NVIDIA L4 – Dell PowerEdge T560

Torre Dell PowerEdge T560 - Nvidia L4 GOU x4

Nossa configuração de unidade de análise incluiu os seguintes componentes:

  • 2 x Intel Xeon Gold 6448Y (32 núcleos/64 threads cada, TDP de 225 watts, 2.1-4.1 GHz)
  • 8 SSDs Solidigm P1.6 de 5520 TB com placa RAID PERC 12
  • 1 a 4 GPUs NVIDIA L4
  • 8 unidades RDIMM de 64 GB
  • Ubuntu Server 22.04
  • Driver NVIDIA 535
Voltando para o data center a partir da borda e utilizando a versátil torre Dell T560 servidor, notamos que o L4 tem um desempenho igualmente bom no teste de GPU único. Isto mostra que ambas as plataformas podem fornecer uma base sólida para o L4 sem gargalos.
Dell PowerEdge T560 1x NVIDIA L4 Pontuação
Resnet50 – Servidor 12,204.40
Resnet50 – off-line 12,872.10
Bert K99 – Servidor 898.945
Bert K99 – off-line 945.146

Em nossos testes com dois L4s no Dell T560, observamos esse escalonamento quase linear no desempenho para os benchmarks Resnet50 e BERT K99. Esse dimensionamento é uma prova da eficiência das GPUs L4 e de sua capacidade de trabalhar em conjunto sem perdas significativas devido a sobrecarga ou ineficiência.

Dell PowerEdge T560 2x NVIDIA L4 Pontuação
Resnet50 – Servidor 24,407.50
Resnet50 – off-line 25,463.20
BERT K99 – Servidor 1,801.28
BERT K99 – off-line 1,904.10

A escala linear consistente que testemunhamos com duas GPUs NVIDIA L4 se estende de forma impressionante a configurações com quatro unidades L4. Esse dimensionamento é particularmente digno de nota, pois a manutenção de ganhos de desempenho lineares se torna cada vez mais desafiadora com cada GPU adicionada devido às complexidades do processamento paralelo e do gerenciamento de recursos.

Dell PowerEdge T560 4x NVIDIA L4 Pontuação
Resnet50 – Servidor 48,818.30
Resnet50 – off-line 51,381.70
BERT K99 – Servidor 3,604.96
BERT K99 – off-line 3,821.46

Estes resultados são apenas para fins ilustrativos e não são resultados competitivos ou oficiais do MLPerf. Para obter uma lista oficial completa de resultados, por favor visite a página de resultados do MLPerf.

Além de validar a escalabilidade linear das GPUs NVIDIA L4, nossos testes em laboratório esclarecem as implicações práticas da implantação dessas unidades em diferentes cenários operacionais. Por exemplo, a consistência no desempenho entre os modos servidor e offline em todas as configurações com as GPUs L4 revela sua confiabilidade e versatilidade.

Este aspecto é particularmente relevante para empresas e instituições de investigação onde os contextos operacionais variam significativamente. Além disso, nossas observações sobre o impacto mínimo dos gargalos de interconexão e a eficiência da sincronização de GPU em configurações multi-GPU fornecem informações valiosas para quem busca dimensionar sua infraestrutura de IA. Esses insights vão além de meros números de referência, oferecendo uma compreensão mais profunda de como esse hardware pode ser utilizado de forma otimizada em cenários do mundo real, orientando melhores decisões arquitetônicas e estratégias de investimento em infraestrutura de IA e HPC.

NVIDIA L4 – Desempenho de aplicativos

Comparamos o desempenho do novo NVIDIA L4 com o NVIDIA A2 e NVIDIA T4 anteriores. Para demonstrar essa atualização de desempenho em relação aos modelos anteriores, implantamos todos os três modelos dentro de um servidor em nosso laboratório, com Windows Server 2022 e os drivers NVIDIA mais recentes, aproveitando todo o nosso conjunto de testes de GPU.

Esses cartões foram testados em um Dell PowerEdge R760 com a seguinte configuração:

  • 2 x Intel Xeon Gold 6430 (32 núcleos, 2.1 GHz)
  • Servidor 2022 do Windows
  • Driver NVIDIA 538.15
  • ECC desativado em todas as placas para amostragem 1x

NVIDIA L4 em riser R760

Ao iniciarmos os testes de desempenho entre este grupo de três GPUs empresariais, é importante observar as diferenças únicas de desempenho entre os modelos A2 e T4 anteriores. Quando o A2 foi lançado, ele ofereceu algumas melhorias notáveis, como menor consumo de energia e operação em um slot PCIe Gen4 x8 menor, em vez do slot PCIe Gen3 x16 maior que o antigo T4 exigia. De cara, ele permitiu a integração em mais sistemas, especialmente com o menor espaço necessário.

Liquidificador OptiX 4.0

Blender OptiX é um aplicativo de modelagem 3D de código aberto. Este teste pode ser executado tanto para CPU quanto para GPU, mas fizemos apenas GPU como a maioria dos outros testes aqui. Este benchmark foi executado usando o utilitário Blender Benchmark CLI. A pontuação é de amostras por minuto, sendo que maior é melhor.

Blender 4.0
(Mais alto é melhor)
NVIDIA L4 Nvidia A2 Nvidia T4
GPU Blender CLI – Monstro 2,207.765 458.692 850.076
GPU Blender CLI – Junkshop 1,127.829 292.553 517.243
GPU Blender CLI – Sala de aula 1,111.753 262.387 478.786

Teste de velocidade Blackmagic RAW

Testamos CPUs e GPUs com o RAW Speed ​​Test da Blackmagic, que testa as velocidades de reprodução de vídeo. Este é mais um teste híbrido que inclui desempenho de CPU e GPU para decodificação RAW do mundo real. Eles são exibidos como resultados separados, mas estamos nos concentrando apenas nas GPUs aqui, portanto os resultados da CPU são omitidos.

Teste de velocidade Blackmagic RAW
(Mais alto é melhor)
NVIDIA L4 Nvidia A2 Nvidia T4
8K CUDA 95 FPS 38 FPS 53 FPS

GPU Cinebench 2024

O Cinebench 2024 da Maxon é um benchmark de renderização de CPU e GPU que utiliza todos os núcleos e threads da CPU. Novamente, como estamos nos concentrando nos resultados da GPU, não executamos as partes da CPU do teste. Pontuações mais altas são melhores.

Cinebench 2024
(Mais alto é melhor)
NVIDIA L4 Nvidia A2 Nvidia T4
GPU 15,263 4,006 5,644

PI de GPU

GPUPI 3.3.3 é uma versão do utilitário de benchmarking leve projetado para calcular π (pi) em bilhões de decimais usando aceleração de hardware por meio de GPUs e CPUs. Ele aproveita o poder de computação do OpenCL e CUDA, que inclui unidades de processamento central e gráfico. Executamos CUDA apenas em todas as 3 GPUs e os números aqui são o tempo de cálculo sem tempo de redução adicionado. Menor é melhor.

Tempo de cálculo do GPU PI em segundos
(Menor é melhor)
NVIDIA L4 Nvidia A2 Nvidia T4
GPUPI v3.3-1B 3.732s 19.799s 7.504s
GPUPI v3.3-32B 244.380s 1,210.801s 486.231s

Embora os resultados anteriores tenham analisado apenas uma única iteração de cada placa, também tivemos a oportunidade de observar uma implantação NVIDIA L5 4x dentro do Dell Power Edge T560.

Tempo de cálculo do GPU PI em segundos
(Menor é melhor)
Dell PowerEdge T560 (2x Xeon Gold 6448Y) com 5x NVIDIA L4
GPUPI v3.3-1B 0seg 850ms
GPUPI v3.3-32B 50seg 361ms

Octanebanco

OctaneBench é um utilitário de benchmarking para OctaneRender, outro renderizador 3D com suporte RTX semelhante ao V-Ray.

 Octanagem (quanto maior, melhor)
Cena Núcleo NVIDIA L4 Nvidia A2 Nvidia T4
Interior canais de informação 15.59 4.49 6.39
Iluminação direta 50.85 14.32 21.76
Rastreamento de caminho 64.02 18.46 25.76
idéia canais de informação 9.30 2.77 3.93
Iluminação direta 39.34 11.53 16.79
Rastreamento de caminho 48.24 14.21 20.32
ATV canais de informação 24.38 6.83 9.50
Iluminação direta 54.86 16.05 21.98
Rastreamento de caminho 68.98 20.06 27.50
Caixa canais de informação 12.89 3.88 5.42
Iluminação direta 48.80 14.59 21.36
Rastreamento de caminho 54.56 16.51 23.85
Pontuação Total 491.83 143.71 204.56

GPU Geekbench 6

Geekbench 6 é um benchmark de plataforma cruzada que mede o desempenho geral do sistema. Existem opções de teste para benchmarking de CPU e GPU. Pontuações mais altas são melhores. Novamente, analisamos apenas os resultados da GPU.

Você pode encontrar comparações com qualquer sistema que desejar no Navegador Geekbench.

Geekbench 6.1.0
(Mais alto é melhor)
NVIDIA L4 Nvidia A2 Nvidia T4
Geekbench GPU OpenCL 156,224 35,835 83,046

Luxmark

LuxMark é uma ferramenta de benchmarking de plataforma cruzada OpenCL daqueles que mantêm o mecanismo de renderização 3D de código aberto LuxRender. Esta ferramenta analisa o desempenho da GPU em modelagem 3D, iluminação e trabalho de vídeo. Para esta revisão, usamos a versão mais recente, v4alpha0. No LuxMark, quanto maior, melhor no que diz respeito à pontuação.

Luxmark v4.0alpha0
GPUs OpenCL
(Mais alto é melhor)
NVIDIA L4 Nvidia A2 Nvidia T4
Banco de salão 14,328 3,759 5,893
Banco de comida 5,330 1,258 2,033

GROMACS CUDA

Também fornecemos o GROMACS compilado, um software de dinâmica molecular, especificamente para CUDA. Esta compilação personalizada deveria aproveitar os recursos de processamento paralelo das 5 GPUs NVIDIA L4, essenciais para acelerar simulações computacionais.

O processo envolveu a utilização do nvcc, o compilador CUDA da NVIDIA, juntamente com muitas iterações dos sinalizadores de otimização apropriados para garantir que os binários fossem devidamente ajustados à arquitetura do servidor. A inclusão do suporte CUDA na compilação GROMACS permite que o software faça interface direta com o hardware da GPU, o que pode melhorar drasticamente os tempos de computação para simulações complexas.

O teste: interação de proteínas personalizadas em Gromacs

Aproveitando um arquivo de entrada fornecido pela comunidade de nosso diverso Discord, que continha parâmetros e estruturas adaptadas para um estudo específico de interação de proteínas, iniciamos uma simulação de dinâmica molecular. Os resultados foram notáveis: o sistema atingiu uma taxa de simulação de 170.268 nanossegundos por dia.

GPU System ns/dia tempo(s) principal(ais)
Nvidia A4000 Caixa branca AMD Ryzen 5950x 84.415 163,763
RTX NVIDIA 4070 Caixa branca AMD Ryzen 7950x3d 131.85 209,692.3
5x NVIDIA L4 Dell T560 com 2x Intel Xeon Gold 6448Y 170.268 608,912.7

Mais que IA

Com o hype da IA ​​em alta, é fácil se deixar levar pelo desempenho dos modelos da NVIDIA L4, mas ela também tem alguns outros truques na manga, abrindo um reino de possibilidades para aplicações de vídeo. Ele pode hospedar até 1,040 streams de vídeo AV1 simultâneos a 720p30. Isso pode transformar a forma como o conteúdo pode ser transmitido ao vivo para usuários de ponta, aprimorar a narrativa criativa e apresentar usos interessantes para experiências imersivas de AR/VR.

A NVIDIA L4 também se destaca na otimização do desempenho gráfico, evidente em suas capacidades de renderização em tempo real e ray tracing. Em um escritório edge, o L4 é capaz de fornecer uma computação gráfica de aceleração robusta e poderosa em VDI para os usuários finais que mais precisam, onde a renderização gráfica de alta qualidade em tempo real é essencial.

Pensamentos de Encerramento

A GPU NVIDIA L4 fornece uma plataforma sólida para IA de ponta e computação de alto desempenho, oferecendo eficiência e versatilidade incomparáveis ​​em diversas aplicações. Sua capacidade de lidar com IA intensiva, aceleração ou pipelines de vídeo e otimizar o desempenho gráfico o torna a escolha ideal para inferência de borda ou aceleração de desktop virtual. A combinação de alto poder computacional, recursos avançados de memória e eficiência energética do L4 o posiciona como um ator-chave na aceleração de cargas de trabalho na borda, especialmente em indústrias de IA e de uso intensivo de gráficos.

Pilha de torção NVIDIA L4

Não há dúvida de que a IA é o olho do furacão de TI atualmente, e a demanda pelas GPUs monstruosas H100/H200 continua em alta. Mas também há um grande esforço para levar um conjunto mais robusto de kits de TI até o limite, onde os dados são criados e analisados. Nestes casos, é necessária uma GPU mais apropriada. Aqui o NVIDIA L4 se destaca e deve ser a opção padrão para inferência de borda, seja como uma unidade única ou dimensionada em conjunto como testamos no T560.

Página do produto NVIDIA L4

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed