Nesta análise, analisamos a poderosa, mas pequena, GPU NVIDIA L4 em vários servidores com insights de benchmarking de IA do mundo real.
Na torrente implacável de inovação do mundo atual da IA, é fundamental medir e compreender as capacidades de várias plataformas de hardware. Nem toda IA requer grandes farms de GPU de treinamento; há um segmento importante de inferência de IA, que geralmente requer menos potência de GPU, especialmente na borda. Nesta análise, damos uma olhada em várias GPUs NVIDIA L4, em três servidores Dell diferentes e em uma variedade de cargas de trabalho, incluindo MLperf, para ver como o L4 se compara.
GPU NVIDIA L4
Em sua essência, o L4 oferece impressionantes 30.3 teraFLOPs em desempenho FP32, ideal para tarefas computacionais de alta precisão. Sua habilidade se estende a cálculos de precisão mista com núcleos tensores TF32, FP16 e BFLOAT16, cruciais para eficiência de aprendizado profundo. A folha de especificações L4 cita desempenho entre 60 e 121 teraFLOPs.
Em tarefas de baixa precisão, o L4 brilha com 242.5 teraFLOPs nos Tensor Cores FP8 e INT8, aprimorando a inferência de redes neurais. Sua memória GDDR24 de 6 GB, complementada por uma largura de banda de 300 GB/s, o torna capaz de lidar com grandes conjuntos de dados e modelos complexos. A eficiência energética do L4 é o que mais se destaca aqui, com um TDP de 72W tornando-o adequado para vários ambientes de computação. Essa combinação de alto desempenho, eficiência de memória e baixo consumo de energia torna o NVIDIA L4 uma escolha atraente para desafios computacionais de ponta.
Especificações NVIDIA L4 | |
---|---|
FP 32 | 30.3 teraFLOPs |
Núcleo tensor TF32 | 60 teraFLOPs |
Núcleo Tensor FP16 | 121 teraFLOPs |
Núcleo tensor BFLOAT16 | 121 teraFLOPs |
Núcleo Tensor FP8 | 242.5 teraFLOPs |
Núcleo tensor INT8 | 242.5 TOP |
Memória GPU | 24GB GDDR6 |
Largura de banda da memória da GPU | 300GB / s |
Potência térmica máxima de projeto (TDP) | 72W |
Fator de Forma | PCIe de baixo perfil de 1 slot |
Interconexão | PCIe Gen4 x16 |
Tabela de especificações | L4 |
Claro, com o preço do L4 em torno de US$ 2500, o A2 custando cerca de metade do preço e o antigo (mas ainda bastante capaz) T4 disponível por menos de US$ 1000 usado, a questão óbvia é qual é a diferença entre essas três GPUs de inferência.
Especificações NVIDIA L4, A2 e T4 | NVIDIA L4 | Nvidia A2 | Nvidia T4 |
---|---|---|---|
FP 32 | 30.3 teraFLOPs | 4.5 teraFLOPs | 8.1 teraFLOPs |
Núcleo tensor TF32 | 60 teraFLOPs | 9 teraFLOPs | N/D |
Núcleo Tensor FP16 | 121 teraFLOPs | 18 teraFLOPs | N/D |
Núcleo tensor BFLOAT16 | 121 teraFLOPs | 18 teraFLOPs | N/D |
Núcleo Tensor FP8 | 242.5 teraFLOPs | N/D | N/D |
Núcleo tensor INT8 | 242.5 TOP | 36 TOPS | 130 TOPS |
Memória GPU | 24GB GDDR6 | 16GB GDDR6 | 16GB GDDR6 |
Largura de banda da memória da GPU | 300GB / s | 200GB / s | Mais de 320 GB/s |
Potência térmica máxima de projeto (TDP) | 72W | 40-60W | 70W |
Fator de Forma | PCIe de baixo perfil de 1 slot | ||
Interconexão | PCIe Gen4 x16 | PCIe Gen4 x8 | PCIe Gen3 x16 |
Tabela de especificações | L4 | A2 | T4 |
Uma coisa a entender ao olhar para essas três placas é que elas não são exatamente substituições geracionais individuais, o que explica por que o T4 ainda permanece, muitos anos depois, uma escolha popular para alguns casos de uso. O A2 surgiu como substituto do T4 como uma opção de baixo consumo de energia e mais compatível (x8 vs x16 mecânico). Tecnicamente, o L4 é então um substituto para o T4, com o A2 abrangendo um meio-termo que pode ou não ser atualizado em algum momento no futuro.
Desempenho da inferência 3.1 do MLPerf
MLPerf é um consórcio de líderes de IA da academia, pesquisa e indústria estabelecido para fornecer benchmarks justos e relevantes de hardware e software de IA. Esses benchmarks são projetados para medir o desempenho de hardware, software e serviços de aprendizado de máquina em diversas tarefas e cenários.
Nossos testes se concentram em dois benchmarks específicos do MLPerf: Resnet50 e BERT.
- Resnet50: Esta é uma rede neural convolucional usada principalmente para classificação de imagens. É um bom indicador de quão bem um sistema pode lidar com tarefas de aprendizagem profunda relacionadas ao processamento de imagens.
- BERT (Representações de codificador bidirecional de transformadores): Este benchmark se concentra em tarefas de processamento de linguagem natural, oferecendo insights sobre o desempenho de um sistema na compreensão e processamento da linguagem humana.
Ambos os testes são cruciais para avaliar as capacidades do hardware de IA em cenários do mundo real que envolvem processamento de imagem e linguagem.
Avaliar o NVIDIA L4 com esses benchmarks é fundamental para ajudar a compreender os recursos da GPU L4 em tarefas específicas de IA. Ele também oferece insights sobre como diferentes configurações (configurações simples, duplas e quádruplas) influenciam o desempenho. Esta informação é vital para profissionais e organizações que procuram otimizar a sua infraestrutura de IA.
Os modelos são executados em dois modos principais: Servidor e Offline.
- Modo Offline: Este modo mede o desempenho de um sistema quando todos os dados estão disponíveis para processamento simultaneamente. É semelhante ao processamento em lote, onde o sistema processa um grande conjunto de dados em um único lote. O modo offline é crucial para cenários em que a latência não é uma preocupação principal, mas o rendimento e a eficiência são.
- Modo Servidor: Em contraste, o modo servidor avalia o desempenho do sistema em um cenário que imita um ambiente de servidor do mundo real, onde as solicitações chegam uma de cada vez. Este modo é sensível à latência, medindo a rapidez com que o sistema pode responder a cada solicitação. É essencial para aplicações em tempo real, como servidores web ou aplicações interativas, onde é necessária uma resposta imediata.
1x NVIDIA L4 – Dell PowerEdge XR7620
Como parte de nossa recente revisão do Dell Power Edge XR7620, equipado com um único NVIDIA L4, levamos ele ao limite para executar diversas tarefas, incluindo MLPerf.
Nossa configuração do sistema de teste incluiu os seguintes componentes:
- 2 x Xeon Gold 6426Y – 16 núcleos 2.5 GHz
- 1x NVIDIA L4
- 8 x DDR16 de 5 GB
- RAID 480 de 1 GB
- Ubuntu Server 22.04
- Driver NVIDIA 535
Dell PowerEdge XR7620 1x NVIDIA L4 | Pontuação |
---|---|
Resnet50 – Servidor | 12,204.40 |
Resnet50 – off-line | 13,010.20 |
BERT K99 – Servidor | 898.945 |
BERT K99 – off-line | 973.435 |
O desempenho em cenários de servidor e offline para Resnet50 e BERT K99 é quase idêntico, indicando que o L4 mantém desempenho consistente em diferentes modelos de servidor.
1, 2 e 4 NVIDIA L4 – Dell PowerEdge T560
Nossa configuração de unidade de análise incluiu os seguintes componentes:
- 2 x Intel Xeon Gold 6448Y (32 núcleos/64 threads cada, TDP de 225 watts, 2.1-4.1 GHz)
- 8 SSDs Solidigm P1.6 de 5520 TB com placa RAID PERC 12
- 1 a 4 GPUs NVIDIA L4
- 8 unidades RDIMM de 64 GB
- Ubuntu Server 22.04
- Driver NVIDIA 535
Dell PowerEdge T560 1x NVIDIA L4 | Pontuação |
---|---|
Resnet50 – Servidor | 12,204.40 |
Resnet50 – off-line | 12,872.10 |
Bert K99 – Servidor | 898.945 |
Bert K99 – off-line | 945.146 |
Em nossos testes com dois L4s no Dell T560, observamos esse escalonamento quase linear no desempenho para os benchmarks Resnet50 e BERT K99. Esse dimensionamento é uma prova da eficiência das GPUs L4 e de sua capacidade de trabalhar em conjunto sem perdas significativas devido a sobrecarga ou ineficiência.
Dell PowerEdge T560 2x NVIDIA L4 | Pontuação |
---|---|
Resnet50 – Servidor | 24,407.50 |
Resnet50 – off-line | 25,463.20 |
BERT K99 – Servidor | 1,801.28 |
BERT K99 – off-line | 1,904.10 |
A escala linear consistente que testemunhamos com duas GPUs NVIDIA L4 se estende de forma impressionante a configurações com quatro unidades L4. Esse dimensionamento é particularmente digno de nota, pois a manutenção de ganhos de desempenho lineares se torna cada vez mais desafiadora com cada GPU adicionada devido às complexidades do processamento paralelo e do gerenciamento de recursos.
Dell PowerEdge T560 4x NVIDIA L4 | Pontuação |
---|---|
Resnet50 – Servidor | 48,818.30 |
Resnet50 – off-line | 51,381.70 |
BERT K99 – Servidor | 3,604.96 |
BERT K99 – off-line | 3,821.46 |
Estes resultados são apenas para fins ilustrativos e não são resultados competitivos ou oficiais do MLPerf. Para obter uma lista oficial completa de resultados, por favor visite a página de resultados do MLPerf.
Além de validar a escalabilidade linear das GPUs NVIDIA L4, nossos testes em laboratório esclarecem as implicações práticas da implantação dessas unidades em diferentes cenários operacionais. Por exemplo, a consistência no desempenho entre os modos servidor e offline em todas as configurações com as GPUs L4 revela sua confiabilidade e versatilidade.
Este aspecto é particularmente relevante para empresas e instituições de investigação onde os contextos operacionais variam significativamente. Além disso, nossas observações sobre o impacto mínimo dos gargalos de interconexão e a eficiência da sincronização de GPU em configurações multi-GPU fornecem informações valiosas para quem busca dimensionar sua infraestrutura de IA. Esses insights vão além de meros números de referência, oferecendo uma compreensão mais profunda de como esse hardware pode ser utilizado de forma otimizada em cenários do mundo real, orientando melhores decisões arquitetônicas e estratégias de investimento em infraestrutura de IA e HPC.
NVIDIA L4 – Desempenho de aplicativos
Comparamos o desempenho do novo NVIDIA L4 com o NVIDIA A2 e NVIDIA T4 anteriores. Para demonstrar essa atualização de desempenho em relação aos modelos anteriores, implantamos todos os três modelos dentro de um servidor em nosso laboratório, com Windows Server 2022 e os drivers NVIDIA mais recentes, aproveitando todo o nosso conjunto de testes de GPU.
Esses cartões foram testados em um Dell PowerEdge R760 com a seguinte configuração:
- 2 x Intel Xeon Gold 6430 (32 núcleos, 2.1 GHz)
- Servidor 2022 do Windows
- Driver NVIDIA 538.15
- ECC desativado em todas as placas para amostragem 1x
Ao iniciarmos os testes de desempenho entre este grupo de três GPUs empresariais, é importante observar as diferenças únicas de desempenho entre os modelos A2 e T4 anteriores. Quando o A2 foi lançado, ele ofereceu algumas melhorias notáveis, como menor consumo de energia e operação em um slot PCIe Gen4 x8 menor, em vez do slot PCIe Gen3 x16 maior que o antigo T4 exigia. De cara, ele permitiu a integração em mais sistemas, especialmente com o menor espaço necessário.
Liquidificador OptiX 4.0
Blender OptiX é um aplicativo de modelagem 3D de código aberto. Este teste pode ser executado tanto para CPU quanto para GPU, mas fizemos apenas GPU como a maioria dos outros testes aqui. Este benchmark foi executado usando o utilitário Blender Benchmark CLI. A pontuação é de amostras por minuto, sendo que maior é melhor.
Blender 4.0 (Mais alto é melhor) |
NVIDIA L4 | Nvidia A2 | Nvidia T4 |
---|---|---|---|
GPU Blender CLI – Monstro | 2,207.765 | 458.692 | 850.076 |
GPU Blender CLI – Junkshop | 1,127.829 | 292.553 | 517.243 |
GPU Blender CLI – Sala de aula | 1,111.753 | 262.387 | 478.786 |
Teste de velocidade Blackmagic RAW
Testamos CPUs e GPUs com o RAW Speed Test da Blackmagic, que testa as velocidades de reprodução de vídeo. Este é mais um teste híbrido que inclui desempenho de CPU e GPU para decodificação RAW do mundo real. Eles são exibidos como resultados separados, mas estamos nos concentrando apenas nas GPUs aqui, portanto os resultados da CPU são omitidos.
Teste de velocidade Blackmagic RAW (Mais alto é melhor) |
NVIDIA L4 | Nvidia A2 | Nvidia T4 |
---|---|---|---|
8K CUDA | 95 FPS | 38 FPS | 53 FPS |
GPU Cinebench 2024
O Cinebench 2024 da Maxon é um benchmark de renderização de CPU e GPU que utiliza todos os núcleos e threads da CPU. Novamente, como estamos nos concentrando nos resultados da GPU, não executamos as partes da CPU do teste. Pontuações mais altas são melhores.
Cinebench 2024 (Mais alto é melhor) |
NVIDIA L4 | Nvidia A2 | Nvidia T4 |
---|---|---|---|
GPU | 15,263 | 4,006 | 5,644 |
PI de GPU
GPUPI 3.3.3 é uma versão do utilitário de benchmarking leve projetado para calcular π (pi) em bilhões de decimais usando aceleração de hardware por meio de GPUs e CPUs. Ele aproveita o poder de computação do OpenCL e CUDA, que inclui unidades de processamento central e gráfico. Executamos CUDA apenas em todas as 3 GPUs e os números aqui são o tempo de cálculo sem tempo de redução adicionado. Menor é melhor.
Tempo de cálculo do GPU PI em segundos (Menor é melhor) |
NVIDIA L4 | Nvidia A2 | Nvidia T4 |
---|---|---|---|
GPUPI v3.3-1B | 3.732s | 19.799s | 7.504s |
GPUPI v3.3-32B | 244.380s | 1,210.801s | 486.231s |
Embora os resultados anteriores tenham analisado apenas uma única iteração de cada placa, também tivemos a oportunidade de observar uma implantação NVIDIA L5 4x dentro do Dell Power Edge T560.
Tempo de cálculo do GPU PI em segundos (Menor é melhor) |
Dell PowerEdge T560 (2x Xeon Gold 6448Y) com 5x NVIDIA L4 |
---|---|
GPUPI v3.3-1B | 0seg 850ms |
GPUPI v3.3-32B | 50seg 361ms |
Octanebanco
OctaneBench é um utilitário de benchmarking para OctaneRender, outro renderizador 3D com suporte RTX semelhante ao V-Ray.
Octanagem (quanto maior, melhor) | ||||
Cena | Núcleo | NVIDIA L4 | Nvidia A2 | Nvidia T4 |
Interior | canais de informação | 15.59 | 4.49 | 6.39 |
Iluminação direta | 50.85 | 14.32 | 21.76 | |
Rastreamento de caminho | 64.02 | 18.46 | 25.76 | |
idéia | canais de informação | 9.30 | 2.77 | 3.93 |
Iluminação direta | 39.34 | 11.53 | 16.79 | |
Rastreamento de caminho | 48.24 | 14.21 | 20.32 | |
ATV | canais de informação | 24.38 | 6.83 | 9.50 |
Iluminação direta | 54.86 | 16.05 | 21.98 | |
Rastreamento de caminho | 68.98 | 20.06 | 27.50 | |
Caixa | canais de informação | 12.89 | 3.88 | 5.42 |
Iluminação direta | 48.80 | 14.59 | 21.36 | |
Rastreamento de caminho | 54.56 | 16.51 | 23.85 | |
Pontuação Total | 491.83 | 143.71 | 204.56 |
GPU Geekbench 6
Geekbench 6 é um benchmark de plataforma cruzada que mede o desempenho geral do sistema. Existem opções de teste para benchmarking de CPU e GPU. Pontuações mais altas são melhores. Novamente, analisamos apenas os resultados da GPU.
Você pode encontrar comparações com qualquer sistema que desejar no Navegador Geekbench.
Geekbench 6.1.0 (Mais alto é melhor) |
NVIDIA L4 | Nvidia A2 | Nvidia T4 |
---|---|---|---|
Geekbench GPU OpenCL | 156,224 | 35,835 | 83,046 |
Luxmark
LuxMark é uma ferramenta de benchmarking de plataforma cruzada OpenCL daqueles que mantêm o mecanismo de renderização 3D de código aberto LuxRender. Esta ferramenta analisa o desempenho da GPU em modelagem 3D, iluminação e trabalho de vídeo. Para esta revisão, usamos a versão mais recente, v4alpha0. No LuxMark, quanto maior, melhor no que diz respeito à pontuação.
Luxmark v4.0alpha0 GPUs OpenCL (Mais alto é melhor) |
NVIDIA L4 | Nvidia A2 | Nvidia T4 |
---|---|---|---|
Banco de salão | 14,328 | 3,759 | 5,893 |
Banco de comida | 5,330 | 1,258 | 2,033 |
GROMACS CUDA
Também fornecemos o GROMACS compilado, um software de dinâmica molecular, especificamente para CUDA. Esta compilação personalizada deveria aproveitar os recursos de processamento paralelo das 5 GPUs NVIDIA L4, essenciais para acelerar simulações computacionais.
O processo envolveu a utilização do nvcc, o compilador CUDA da NVIDIA, juntamente com muitas iterações dos sinalizadores de otimização apropriados para garantir que os binários fossem devidamente ajustados à arquitetura do servidor. A inclusão do suporte CUDA na compilação GROMACS permite que o software faça interface direta com o hardware da GPU, o que pode melhorar drasticamente os tempos de computação para simulações complexas.
O teste: interação de proteínas personalizadas em Gromacs
Aproveitando um arquivo de entrada fornecido pela comunidade de nosso diverso Discord, que continha parâmetros e estruturas adaptadas para um estudo específico de interação de proteínas, iniciamos uma simulação de dinâmica molecular. Os resultados foram notáveis: o sistema atingiu uma taxa de simulação de 170.268 nanossegundos por dia.
GPU | System | ns/dia | tempo(s) principal(ais) |
---|---|---|---|
Nvidia A4000 | Caixa branca AMD Ryzen 5950x | 84.415 | 163,763 |
RTX NVIDIA 4070 | Caixa branca AMD Ryzen 7950x3d | 131.85 | 209,692.3 |
5x NVIDIA L4 | Dell T560 com 2x Intel Xeon Gold 6448Y | 170.268 | 608,912.7 |
Mais que IA
Com o hype da IA em alta, é fácil se deixar levar pelo desempenho dos modelos da NVIDIA L4, mas ela também tem alguns outros truques na manga, abrindo um reino de possibilidades para aplicações de vídeo. Ele pode hospedar até 1,040 streams de vídeo AV1 simultâneos a 720p30. Isso pode transformar a forma como o conteúdo pode ser transmitido ao vivo para usuários de ponta, aprimorar a narrativa criativa e apresentar usos interessantes para experiências imersivas de AR/VR.
A NVIDIA L4 também se destaca na otimização do desempenho gráfico, evidente em suas capacidades de renderização em tempo real e ray tracing. Em um escritório edge, o L4 é capaz de fornecer uma computação gráfica de aceleração robusta e poderosa em VDI para os usuários finais que mais precisam, onde a renderização gráfica de alta qualidade em tempo real é essencial.
Pensamentos de Encerramento
A GPU NVIDIA L4 fornece uma plataforma sólida para IA de ponta e computação de alto desempenho, oferecendo eficiência e versatilidade incomparáveis em diversas aplicações. Sua capacidade de lidar com IA intensiva, aceleração ou pipelines de vídeo e otimizar o desempenho gráfico o torna a escolha ideal para inferência de borda ou aceleração de desktop virtual. A combinação de alto poder computacional, recursos avançados de memória e eficiência energética do L4 o posiciona como um ator-chave na aceleração de cargas de trabalho na borda, especialmente em indústrias de IA e de uso intensivo de gráficos.
Não há dúvida de que a IA é o olho do furacão de TI atualmente, e a demanda pelas GPUs monstruosas H100/H200 continua em alta. Mas também há um grande esforço para levar um conjunto mais robusto de kits de TI até o limite, onde os dados são criados e analisados. Nestes casos, é necessária uma GPU mais apropriada. Aqui o NVIDIA L4 se destaca e deve ser a opção padrão para inferência de borda, seja como uma unidade única ou dimensionada em conjunto como testamos no T560.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed