Home EnterpriseAI NVIDIA L4 GPU Review – Wizard voor inferenties met laag vermogen

NVIDIA L4 GPU Review – Wizard voor inferenties met laag vermogen

by Jordaan Ranous

In deze review kijken we naar de machtige maar kleine NVIDIA L4 GPU op verschillende servers met real-world AI-benchmarking-inzichten.

In de meedogenloze stroom van innovatie van de huidige AI-wereld is het meten en begrijpen van de mogelijkheden van verschillende hardwareplatforms van cruciaal belang. Niet alle AI vereist enorme GPU-trainingsboerderijen; er is een belangrijk segment van AI voor het infereren, waarvoor vaak minder GPU-kracht nodig is, vooral aan de rand. In deze review bekijken we verschillende NVIDIA L4 GPU's, verdeeld over drie verschillende Dell-servers, en een verscheidenheid aan workloads, waaronder MLperf, om te zien hoe de L4 het doet.

NVIDIA L4

NVIDIA L4-GPU

In de kern levert de L4 een indrukwekkende 30.3 teraFLOP's in FP32-prestaties, ideaal voor zeer nauwkeurige computertaken. Zijn bekwaamheid strekt zich uit tot berekeningen met gemengde precisie met TF32, FP16 en BFLOAT16 Tensor Cores, cruciaal voor deep learning-efficiëntie. Het L4-specificatieblad vermeldt prestaties tussen 60 en 121 teraFLOP's.

Bij taken met lage precisie blinkt de L4 uit met 242.5 teraFLOP's in FP8 en INT8 Tensor Cores, waardoor de inferentie van neurale netwerken wordt verbeterd. Het 24 GB GDDR6-geheugen, aangevuld met een bandbreedte van 300 GB/s, maakt het in staat grote datasets en complexe modellen te verwerken. De energie-efficiëntie van de L4 is hier het meest opvallend, met een TDP van 72 W waardoor hij geschikt is voor verschillende computeromgevingen. Deze combinatie van hoge prestaties, geheugenefficiëntie en een laag stroomverbruik maakt de NVIDIA L4 een aantrekkelijke keuze voor edge computationele uitdagingen.

NVIDIA L4 GPU bovenop R760

NVIDIA L4-specificaties
FP 32 30.3 teraFLOP's
TF32 Tensorkern 60 teraFLOP's
FP16 Tensorkern 121 teraFLOP's
BFLOAT16 Tensorkern 121 teraFLOP's
FP8 Tensorkern 242.5 teraFLOP's
INT8 Tensorkern 242.5 TOPS
GPU-geheugen 24GB GDDR6
GPU-geheugenbandbreedte 300GB / s
Maximaal thermisch ontwerpvermogen (TDP) 72W
Form Factor 1-slot low-profile PCIe
interconnect PCIe Gen4 x16
Specificatietabel L4

Met de L4-prijs ergens in de buurt van $2500, de A2 die ongeveer de helft van de prijs kost, en de oude (maar nog steeds behoorlijk capabele) T4 die beschikbaar is voor minder dan $1000, is de voor de hand liggende vraag wat het verschil is tussen deze drie afgeleide GPU's.

NVIDIA L4-, A2- en T4-specificaties NVIDIA L4 Nvidia A2 NVIDIA T4
FP 32 30.3 teraFLOP's 4.5 teraFLOP's 8.1 teraFLOP's
TF32 Tensorkern 60 teraFLOP's 9 teraFLOP's NB
FP16 Tensorkern 121 teraFLOP's 18 teraFLOP's NB
BFLOAT16 Tensorkern 121 teraFLOP's 18 teraFLOP's NB
FP8 Tensorkern 242.5 teraFLOP's NB NB
INT8 Tensorkern 242.5 TOPS 36 TOPS 130 TOPS
GPU-geheugen 24GB GDDR6 16GB GDDR6 16GB GDDR6
GPU-geheugenbandbreedte 300GB / s 200GB / s 320+ GB/sec
Maximaal thermisch ontwerpvermogen (TDP) 72W 40-60W 70W
Form Factor 1-slot low-profile PCIe
interconnect PCIe Gen4 x16 PCIe Gen4 x8 PCIe Gen3 x16
Specificatietabel L4 A2 T4

Eén ding om te begrijpen als je naar deze drie kaarten kijkt, is dat het niet bepaald één-op-één vervangingen van generaties zijn, wat verklaart waarom de T4, vele jaren later, nog steeds een populaire keuze is voor sommige gebruiksscenario's. De A2 kwam uit als vervanging voor de T4 als een energiezuinige en meer compatibele (x8 versus x16 mechanische) optie. Technisch gezien is de L4 dan een vervanging voor de T4, waarbij de A2 zich op een tussenstuk bevindt dat op een bepaald moment in de toekomst wel of niet vernieuwd zal worden.

MLPerf-inferentie 3.1 Prestaties

MLPerf is een consortium van AI-leiders uit de academische wereld, het onderzoek en de industrie, opgericht om eerlijke en relevante AI-hardware- en softwarebenchmarks te bieden. Deze benchmarks zijn ontworpen om de prestaties van machine learning-hardware, -software en -services voor verschillende taken en scenario's te meten.

Onze tests richten zich op twee specifieke MLPerf-benchmarks: Resnet50 en BERT.

  • Resnet50: Dit is een convolutioneel neuraal netwerk dat voornamelijk wordt gebruikt voor beeldclassificatie. Het is een goede indicatie van hoe goed een systeem diepgaande leertaken met betrekking tot beeldverwerking kan verwerken.
  • BERT (Bidirectionele Encoder Representations from Transformers): Deze benchmark richt zich op taken voor de verwerking van natuurlijke taal en biedt inzicht in hoe een systeem presteert bij het begrijpen en verwerken van menselijke taal.

Beide tests zijn cruciaal voor het evalueren van de mogelijkheden van AI-hardware in realistische scenario's met beeld- en taalverwerking.

Het evalueren van de NVIDIA L4 met deze benchmarks is van cruciaal belang om de mogelijkheden van de L4 GPU bij specifieke AI-taken te helpen begrijpen. Het biedt ook inzicht in hoe verschillende configuraties (enkele, dubbele en quad-opstellingen) de prestaties beïnvloeden. Deze informatie is van cruciaal belang voor professionals en organisaties die hun AI-infrastructuur willen optimaliseren.

De modellen draaien onder twee belangrijke modi: Server en Offline.

  • Offlinemodus: deze modus meet de prestaties van een systeem wanneer alle gegevens tegelijkertijd beschikbaar zijn voor verwerking. Het lijkt op batchverwerking, waarbij het systeem een ​​grote dataset in één batch verwerkt. De offlinemodus is van cruciaal belang voor scenario's waarin latentie geen primaire zorg is, maar doorvoer en efficiëntie wel.
  • Servermodus: De servermodus evalueert daarentegen de prestaties van het systeem in een scenario dat een echte serveromgeving nabootst, waarbij verzoeken één voor één binnenkomen. Deze modus is latentiegevoelig en meet hoe snel het systeem op elk verzoek kan reageren. Het is essentieel voor realtime toepassingen, zoals webservers of interactieve toepassingen, waarbij onmiddellijke reactie noodzakelijk is.

1 x NVIDIA L4 – Dell PowerEdge XR7620

NVIDIA L4 in Dell XR7620

Als onderdeel van onze recente beoordeling van de Dell PowerEdge XR7620, uitgerust met een enkele NVIDIA L4, hebben we tot het uiterste doorgevoerd om verschillende taken uit te voeren, waaronder MLPerf.

Onze testsysteemconfiguratie omvatte de volgende componenten:

  • 2 x Xeon Gold 6426Y – 16-core 2.5 GHz
  • 1 x NVIDIA L4
  • 8 x 16 GB DDR5
  • 480 GB BOSS RAID1
  • Ubuntu-server 22.04
  • NVIDIA-stuurprogramma 535
Dell PowerEdge XR7620 1x NVIDIA L4 Score
Resnet50 – Server 12,204.40
Resnet50 – Offline 13,010.20
BERT K99 – Server 898.945
BERT K99 – Offline 973.435

De prestaties in server- en offlinescenario's voor Resnet50 en BERT K99 zijn vrijwel identiek, wat aangeeft dat de L4 consistente prestaties behoudt op verschillende servermodellen.

1, 2 en 4 NVIDIA L4's – Dell PowerEdge T560

Dell PowerEdge T560-toren - Nvidia L4 GOU x4

Onze configuratie van de beoordelingseenheid omvatte de volgende componenten:

  • 2 x Intel Xeon Gold 6448Y (elk 32 cores/64 threads, 225 watt TDP, 2.1-4.1 GHz)
  • 8 x 1.6 TB Solidigm P5520 SSD's met PERC 12 RAID-kaart
  • 1-4x NVIDIA L4 GPU's
  • 8 x 64 GB RDIMM's
  • Ubuntu-server 22.04
  • NVIDIA-stuurprogramma 535
Vanaf de edge teruggaan naar het datacenter en benutten de veelzijdige Dell T560-toren server merkten we dat de L4 net zo goed presteert in de enkele GPU-test. Hieruit blijkt dat beide platforms zonder knelpunten een solide basis kunnen bieden aan de L4.
Dell PowerEdge T560 1x NVIDIA L4 Score
Resnet50 – Server 12,204.40
Resnet50 – Offline 12,872.10
Bert K99 – Server 898.945
Bert K99 – Offline 945.146

In onze tests met twee L4's in de Dell T560 hebben we deze bijna lineaire schaalvergroting in prestaties waargenomen voor zowel Resnet50- als BERT K99-benchmarks. Deze schaalvergroting is een bewijs van de efficiëntie van de L4 GPU's en hun vermogen om samen te werken zonder aanzienlijke verliezen als gevolg van overhead of inefficiëntie.

Dell PowerEdge T560 2x NVIDIA L4 Score
Resnet50 – Server 24,407.50
Resnet50 – Offline 25,463.20
BERT K99 – Server 1,801.28
BERT K99 – Offline 1,904.10

De consistente lineaire schaling die we hebben gezien met twee NVIDIA L4 GPU's strekt zich op indrukwekkende wijze uit tot configuraties met vier L4-eenheden. Deze schaalvergroting is vooral opmerkelijk omdat het handhaven van lineaire prestatiewinst steeds uitdagender wordt met elke toegevoegde GPU vanwege de complexiteit van parallelle verwerking en resourcebeheer.

Dell PowerEdge T560 4x NVIDIA L4 Score
Resnet50 – Server 48,818.30
Resnet50 – Offline 51,381.70
BERT K99 – Server 3,604.96
BERT K99 – Offline 3,821.46

Deze resultaten zijn uitsluitend bedoeld ter illustratie en niet voor competitieve of officiële MLPerf-resultaten. Voor een volledige officiële resultatenlijst alstublieft bezoek de MLPerf-resultatenpagina.

Naast het valideren van de lineaire schaalbaarheid van de NVIDIA L4 GPU's, werpen onze tests in het laboratorium licht op de praktische implicaties van de inzet van deze eenheden in verschillende operationele scenario's. De consistentie in prestaties tussen server- en offlinemodi in alle configuraties met de L4 GPU's onthult bijvoorbeeld hun betrouwbaarheid en veelzijdigheid.

Dit aspect is vooral relevant voor bedrijven en onderzoeksinstellingen waar de operationele contexten aanzienlijk variëren. Bovendien bieden onze observaties over de minimale impact van interconnect-knelpunten en de efficiëntie van GPU-synchronisatie in multi-GPU-opstellingen waardevolle inzichten voor degenen die hun AI-infrastructuur willen opschalen. Deze inzichten gaan verder dan louter benchmarkcijfers en bieden een dieper inzicht in hoe dergelijke hardware optimaal kan worden gebruikt in praktijkscenario's, waardoor betere architecturale beslissingen en investeringsstrategieën in AI- en HPC-infrastructuur kunnen worden begeleid.

NVIDIA L4 – Applicatieprestaties

We vergeleken de prestaties van de nieuwe NVIDIA L4 met de NVIDIA A2 en NVIDIA T4 die ervoor kwamen. Om deze prestatie-upgrade ten opzichte van de eerdere modellen te demonstreren, hebben we alle drie de modellen geïmplementeerd in een server in ons laboratorium, met Windows Server 2022 en de nieuwste NVIDIA-stuurprogramma's, waarbij we gebruik hebben gemaakt van onze volledige GPU-testsuite.

Deze kaarten zijn getest op een Dell Poweredge R760 met de volgende configuratie:

  • 2 x Intel Xeon Gold 6430 (32 kernen, 2.1 GHz)
  • Windows Server 2022
  • NVIDIA-stuurprogramma 538.15
  • ECC Uitgeschakeld op alle kaarten voor 1x sampling

NVIDIA L4 in R760-verhoger

Nu we beginnen met de prestatietests tussen deze groep van drie zakelijke GPU's, is het belangrijk om de unieke prestatieverschillen tussen de eerdere A2- en T4-modellen op te merken. Toen de A2 werd uitgebracht, bood deze een aantal opmerkelijke verbeteringen, zoals een lager energieverbruik en het werken op een kleiner PCIe Gen4 x8-slot, in plaats van het grotere PCIe Gen3 x16-slot dat de oudere T4 nodig had. Het maakte het meteen mogelijk om in meer systemen te passen, vooral met de kleinere benodigde footprint.

Blender OptiX 4.0

Blender OptiX is een open-source 3D-modelleringsapplicatie. Deze test kan voor zowel CPU als GPU worden uitgevoerd, maar we hebben alleen GPU uitgevoerd zoals de meeste andere tests hier. Deze benchmark werd uitgevoerd met behulp van het Blender Benchmark CLI-hulpprogramma. De score is monsters per minuut, waarbij hoger beter is.

Blender 4.0
(Hoger is beter)
NVIDIA L4 Nvidia A2 Nvidia T4
GPU Blender CLI – Monster 2,207.765 458.692 850.076
GPU Blender CLI – Junkshop 1,127.829 292.553 517.243
GPU Blender CLI – Klaslokaal 1,111.753 262.387 478.786

Blackmagic RAW-snelheidstest

We testen CPU's en GPU's met Blackmagic's RAW Speed ​​Test, die de afspeelsnelheden van video test. Dit is meer een hybride test die CPU- en GPU-prestaties omvat voor real-world RAW-decodering. Deze worden weergegeven als afzonderlijke resultaten, maar we concentreren ons hier alleen op de GPU's, dus de CPU-resultaten worden weggelaten.

Blackmagic RAW-snelheidstest
(Hoger is beter)
NVIDIA L4 Nvidia A2 NVIDIA T4
8K CUDA 95 FPS 38 FPS 53 FPS

Cinebench 2024 GPU

Maxon's Cinebench 2024 is een CPU- en GPU-renderingbenchmark die alle CPU-cores en threads gebruikt. Omdat we ons concentreren op GPU-resultaten, hebben we de CPU-gedeelten van de test niet uitgevoerd. Hogere scores zijn beter.

Cinebench 2024
(Hoger is beter)
NVIDIA L4 Nvidia A2 NVIDIA T4
GPU 15,263 4,006 5,644

GPU-PI

GPUPI 3.3.3 is een versie van het lichtgewicht benchmarkinghulpprogramma dat is ontworpen om π (pi) tot miljarden decimalen te berekenen met behulp van hardwareversnelling via GPU's en CPU's. Het maakt gebruik van de rekenkracht van OpenCL en CUDA, die zowel centrale als grafische verwerkingseenheden omvat. We hebben CUDA alleen op alle drie de GPU's uitgevoerd en de cijfers hier zijn de rekentijd zonder toegevoegde reductietijd. Lager is beter.

GPU PI-berekeningstijd in seconden
(Lager is beter)
NVIDIA L4 Nvidia A2 NVIDIA T4
GPUPI v3.3 – 1B 3.732s 19.799s 7.504s
GPUPI v3.3 – 32B 244.380s 1,210.801s 486.231s

Terwijl in de vorige resultaten slechts naar één iteratie van elke kaart werd gekeken, hadden we ook de kans om te kijken naar een 5x NVIDIA L4-implementatie binnen de Dell PowerEdge T560.

GPU PI-berekeningstijd in seconden
(Lager is beter)
Dell PowerEdge T560 (2x Xeon goud 6448Y) met 5x NVIDIA L4
GPUPI v3.3 – 1B 0sec 850ms
GPUPI v3.3 – 32B 50sec 361ms

Octaanbank

OctaneBench is een benchmarkinghulpprogramma voor OctaneRender, een andere 3D-renderer met RTX-ondersteuning vergelijkbaar met V-Ray.

 Octaan (hoger is beter)
Scène pit NVIDIA L4 Nvidia A2 NVIDIA T4
Interieur Info kanalen 15.59 4.49 6.39
Directe verlichting 50.85 14.32 21.76
Pad traceren 64.02 18.46 25.76
Het idee Info kanalen 9.30 2.77 3.93
Directe verlichting 39.34 11.53 16.79
Pad traceren 48.24 14.21 20.32
ATV Info kanalen 24.38 6.83 9.50
Directe verlichting 54.86 16.05 21.98
Pad traceren 68.98 20.06 27.50
Box camera's Info kanalen 12.89 3.88 5.42
Directe verlichting 48.80 14.59 21.36
Pad traceren 54.56 16.51 23.85
Totale score 491.83 143.71 204.56

Geekbench6 GPU

Geekbench 6 is een platformonafhankelijke benchmark die de algehele systeemprestaties meet. Er zijn testopties voor zowel CPU- als GPU-benchmarking. Hogere scores zijn beter. Nogmaals, we hebben alleen naar de GPU-resultaten gekeken.

Vergelijkingen met elk gewenst systeem vindt u in de Geekbench Browser.

Geekbench 6.1.0
(Hoger is beter)
NVIDIA L4 Nvidia A2 NVIDIA T4
Geekbench GPU OpenCL 156,224 35,835 83,046

Luxmark

LuxMark is een OpenCL-platformonafhankelijke benchmarkingtool van degenen die de open-source 3D-renderingengine LuxRender onderhouden. Deze tool kijkt naar GPU-prestaties bij 3D-modellering, belichting en videowerk. Voor deze review hebben we de nieuwste versie, v4alpha0, gebruikt. Bij LuxMark is hoger hoe beter als het om de score gaat.

Luxmark v4.0alpha0
OpenCL GPU's
(Hoger is beter)
NVIDIA L4 Nvidia A2 NVIDIA T4
Hal bank 14,328 3,759 5,893
Voedselbank 5,330 1,258 2,033

GROMACS CUDA

We leveren ook gecompileerde GROMACS, software voor moleculaire dynamica, specifiek voor CUDA. Deze op maat gemaakte compilatie was bedoeld om gebruik te maken van de parallelle verwerkingsmogelijkheden van de vijf NVIDIA L5 GPU's, essentieel voor het versnellen van computersimulaties.

Het proces omvatte het gebruik van nvcc, de CUDA-compiler van NVIDIA, samen met vele iteraties van de juiste optimalisatievlaggen om ervoor te zorgen dat de binaire bestanden goed waren afgestemd op de architectuur van de server. Door de opname van CUDA-ondersteuning in de GROMACS-compilatie kan de software rechtstreeks communiceren met de GPU-hardware, wat de rekentijden voor complexe simulaties drastisch kan verbeteren.

De test: aangepaste eiwitinteractie in Gromacs

Door gebruik te maken van een door de gemeenschap verstrekt invoerbestand van onze diverse Discord, dat parameters en structuren bevatte die waren afgestemd op een specifiek eiwitinteractieonderzoek, hebben we een moleculaire dynamica-simulatie geïnitieerd. De resultaten waren opmerkelijk: het systeem behaalde een simulatiesnelheid van 170.268 nanoseconden per dag.

GPU Systeem ns/dag kerntijd(en)
Nvidia A4000 Whitebox AMD Ryzen 5950x 84.415 163,763
RTX NVIDIA 4070 Whitebox AMD Ryzen 7950x3d 131.85 209,692.3
5x NVIDIA L4 Dell T560 met 2x Intel Xeon Gold 6448Y 170.268 608,912.7

Meer dan AI

Nu de hype van AI een rage is, kun je gemakkelijk verstrikt raken in de prestaties van modellen op de NVIDIA L4, maar het heeft ook een paar andere trucs in petto, waardoor er een scala aan mogelijkheden voor videotoepassingen wordt geopend. Het kan maximaal 1,040 gelijktijdige AV1-videostreams hosten in 720p30. Dit kan de manier transformeren waarop inhoud live naar edge-gebruikers kan worden gestreamd, creatieve verhalen vertellen en interessante toepassingen bieden voor meeslepende AR/VR-ervaringen.

De NVIDIA L4 blinkt ook uit in het optimaliseren van de grafische prestaties, wat blijkt uit zijn mogelijkheden op het gebied van real-time rendering en ray tracing. In een edge-kantoor kan de L4 robuuste en krachtige grafische berekeningen in VDI leveren aan de eindgebruikers die dit het meest nodig hebben, waar hoogwaardige, realtime grafische weergave essentieel is.

Sluiting Gedachten

De NVIDIA L4 GPU biedt een solide platform voor edge AI en high-performance computing, en biedt ongeëvenaarde efficiëntie en veelzijdigheid voor verschillende toepassingen. Het vermogen om intensieve AI-, acceleratie- of videopijplijnen aan te kunnen en de grafische prestaties te optimaliseren, maakt het een ideale keuze voor edge-inferencing of virtuele desktopversnelling. De combinatie van hoge rekenkracht, geavanceerde geheugenmogelijkheden en energie-efficiëntie van de L4 positioneert hem als een belangrijke speler in het stimuleren van de versnelling van de werklast aan de edge, vooral in AI- en grafisch-intensieve industrieën.

NVIDIA L4 twist-stack

Het lijdt geen twijfel dat AI tegenwoordig het oog is van de IT-orkaan, en de vraag naar de monsterlijke H100/H200 GPU’s blijft explosief stijgen. Maar er is ook een grote impuls om een ​​robuuster IT-pakket naar de edge te brengen, waar gegevens worden gecreëerd en geanalyseerd. In deze gevallen is een geschiktere GPU vereist. Hier blinkt de NVIDIA L4 uit en zou de standaardoptie moeten zijn voor edge-inferencing, hetzij als een enkele eenheid of samen geschaald zoals we hebben getest in de T560.

NVIDIA L4-productpagina

Neem contact op met StorageReview

Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed