Hem FöretagAI NVIDIA L4 GPU-granskning – Lågkraftig slutledningsguide

NVIDIA L4 GPU-granskning – Lågkraftig slutledningsguide

by Jordan Ranous

I den här recensionen tittar vi på mäktig men liten NVIDIA L4 GPU på flera servrar med verkliga AI-benchmarking-insikter.

I dagens AI-världs överväldigande ström av innovation är det avgörande att mäta och förstå kapaciteten hos olika hårdvaruplattformar. All AI kräver inte enorma tränings-GPU-farmar, det finns ett viktigt segment av slutlednings-AI, som ofta kräver mindre GPU-kraft, särskilt vid kanten. I den här recensionen tar vi en titt på flera NVIDIA L4 GPU:er, över tre olika Dell-servrar, och en mängd olika arbetsbelastningar, inklusive MLperf, för att se hur L4 står sig.

NVIDIA L4

NVIDIA L4 GPU

I kärnan levererar L4 imponerande 30.3 teraFLOPs i FP32-prestanda, perfekt för beräkningsuppgifter med hög precision. Dess skicklighet sträcker sig till beräkningar med blandad precision med TF32, FP16 och BFLOAT16 Tensor Cores, avgörande för effektivitet i djupinlärning. L4-specifikationen citerar prestanda mellan 60 och 121 teraFLOPs.

I lågprecisionsuppgifter lyser L4 med 242.5 teraFLOPs i FP8 och INT8 Tensor Cores, vilket förbättrar inferencing av neurala nätverk. Dess 24 GB GDDR6-minne, kompletterat med en bandbredd på 300 GB/s, gör att den kan hantera stora datamängder och komplexa modeller. L4:s energieffektivitet är det som är mest anmärkningsvärt här, med en 72W TDP som gör den lämplig för olika datormiljöer. Denna blandning av hög prestanda, minneseffektivitet och låg strömförbrukning gör NVIDIA L4 till ett övertygande val för avancerade beräkningsutmaningar.

NVIDIA L4 GPU ovanpå R760

NVIDIA L4-specifikationer
FP 32 30.3 teraFLOPs
TF32 Tensor Core 60 teraFLOPs
FP16 Tensor Core 121 teraFLOPs
BFLOAT16 Tensor Core 121 teraFLOPs
FP8 Tensor Core 242.5 teraFLOPs
INT8 Tensor Core 242.5 TOPS
GPU-minne 24GB GDDR6
GPU-minnes bandbredd 300GB / s
Max Thermal Design Power (TDP) 72W
Formfaktor 1-plats lågprofil PCIe
Interconnect PCIe Gen4 x16
Specdiagram L4

Naturligtvis, med L4-priset någonstans nära $2500, A2 kommer in till ungefär halva priset och den åldrade (men fortfarande ganska kapabla) T4 tillgänglig för under $1000 använd, är den uppenbara frågan vad som är skillnaden mellan dessa tre slutlednings-GPU:er.

Specifikationer för NVIDIA L4, A2 och T4 NVIDIA L4 Nvidia A2 Nvidia T4
FP 32 30.3 teraFLOPs 4.5 teraFLOPs 8.1 teraFLOPs
TF32 Tensor Core 60 teraFLOPs 9 teraFLOPs N / A
FP16 Tensor Core 121 teraFLOPs 18 teraFLOPs N / A
BFLOAT16 Tensor Core 121 teraFLOPs 18 teraFLOPs N / A
FP8 Tensor Core 242.5 teraFLOPs N / A N / A
INT8 Tensor Core 242.5 TOPS 36 TOPS 130 TOPS
GPU-minne 24GB GDDR6 16GB GDDR6 16GB GDDR6
GPU-minnes bandbredd 300GB / s 200GB / s 320+ GB/s
Max Thermal Design Power (TDP) 72W 40-60W 70W
Formfaktor 1-plats lågprofil PCIe
Interconnect PCIe Gen4 x16 PCIe Gen4 x8 PCIe Gen3 x16
Specdiagram L4 A2 T4

En sak att förstå när man tittar på de här tre korten är att de inte exakt är generationsmässiga en-till-en-ersättningar, vilket förklarar varför T4 fortfarande, många år senare, fortfarande är ett populärt val för vissa användningsfall. A2 kom ut som en ersättning för T4 som ett lågeffekts och mer kompatibelt (x8 vs x16 mekaniskt) alternativ. Tekniskt sett är L4 då en ersättare för T4, med A2 gränsöverskridande ett mellanrum som kanske eller inte kan uppdateras någon gång i framtiden.

MLPerf Inferens 3.1 Prestanda

MLPerf är ett konsortium av AI-ledare från akademi, forskning och industri etablerat för att tillhandahålla rättvisa och relevanta AI-hård- och mjukvaruriktmärken. Dessa riktmärken är utformade för att mäta prestandan för maskininlärning av maskinvara, programvara och tjänster för olika uppgifter och scenarier.

Våra tester fokuserar på två specifika MLPerf-riktmärken: Resnet50 och BERT.

  • Resnet50: Detta är ett konvolutionellt neuralt nätverk som främst används för bildklassificering. Det är en bra indikator på hur väl ett system kan hantera djuplärande uppgifter relaterade till bildbehandling.
  • BERT (Bidirectional Encoder Representations from Transformers): Detta riktmärke fokuserar på naturliga språkbearbetningsuppgifter och ger insikter om hur ett system presterar när det gäller att förstå och bearbeta mänskligt språk.

Båda dessa tester är avgörande för att utvärdera AI-hårdvarans kapacitet i verkliga scenarier som involverar bild- och språkbehandling.

Att utvärdera NVIDIA L4 med dessa riktmärken är avgörande för att hjälpa till att förstå kapaciteten hos L4 GPU i specifika AI-uppgifter. Den ger också insikter i hur olika konfigurationer (enkla, dubbla och fyrhjuliga inställningar) påverkar prestandan. Denna information är viktig för yrkesverksamma och organisationer som vill optimera sin AI-infrastruktur.

Modellerna körs under två nyckellägen: Server och Offline.

  • Offlineläge: Detta läge mäter ett systems prestanda när all data är tillgänglig för bearbetning samtidigt. Det liknar batchbearbetning, där systemet bearbetar en stor datamängd i en enda batch. Offlineläge är avgörande för scenarier där latens inte är ett primärt problem, men genomströmning och effektivitet är det.
  • Serverläge: Däremot utvärderar serverläget systemets prestanda i ett scenario som efterliknar en verklig servermiljö, där förfrågningar kommer in en i taget. Det här läget är latenskänsligt och mäter hur snabbt systemet kan svara på varje begäran. Det är viktigt för realtidsapplikationer, såsom webbservrar eller interaktiva applikationer, där omedelbar respons är nödvändig.

1 x NVIDIA L4 – Dell PowerEdge XR7620

NVIDIA L4 i Dell XR7620

Som en del av vår senaste recension av Dell PowerEdge XR7620, utrustad med en enda NVIDIA L4, tog vi den till kanten för att köra flera uppgifter, inklusive MLPerf.

Vår testsystemkonfiguration inkluderade följande komponenter:

  • 2 x Xeon Gold 6426Y – 16-kärnig 2.5 GHz
  • 1 x NVIDIA L4
  • 8 x 16 GB DDR5
  • 480 GB BOSS RAID1
  • Ubuntu Server 22.04
  • NVIDIA-drivrutin 535
Dell PowerEdge XR7620 1x NVIDIA L4 Betyg
Resnet50 – Server 12,204.40
Resnet50 – Offline 13,010.20
BERT K99 – Server 898.945
BERT K99 – Offline 973.435

Prestanda i server- och offlinescenarier för Resnet50 och BERT K99 är nästan identisk, vilket indikerar att L4 bibehåller konsekvent prestanda över olika servermodeller.

1, 2 och 4 NVIDIA L4 – Dell PowerEdge T560

Dell PowerEdge T560 Tower - Nvidia L4 GOU x4

Vår granskningsenhetskonfiguration inkluderade följande komponenter:

  • 2 x Intel Xeon Gold 6448Y (32-kärniga/64-trådar vardera, 225-watt TDP, 2.1-4.1GHz)
  • 8 x 1.6 TB Solidigm P5520 SSD-enheter med PERC 12 RAID-kort
  • 1-4x NVIDIA L4 GPU:er
  • 8 x 64 GB RDIMM
  • Ubuntu Server 22.04
  • NVIDIA-drivrutin 535
Flytta tillbaka till datacentret från kanten och använda det mångsidiga Dell T560 Tower server, noterade vi att L4 presterar lika bra i testet med en enda GPU. Detta visar att båda plattformarna kan ge en solid grund till L4 utan flaskhalsar.
Dell PowerEdge T560 1x NVIDIA L4 Betyg
Resnet50 – Server 12,204.40
Resnet50 – Offline 12,872.10
Bert K99 – Server 898.945
Bert K99 – Offline 945.146

I våra tester med två L4 i Dell T560 observerade vi denna nästan linjära skalning i prestanda för både Resnet50 och BERT K99 benchmarks. Denna skalning är ett bevis på effektiviteten hos L4 GPU:er och deras förmåga att arbeta tillsammans utan betydande förluster på grund av overhead eller ineffektivitet.

Dell PowerEdge T560 2x NVIDIA L4 Betyg
Resnet50 – Server 24,407.50
Resnet50 – Offline 25,463.20
BERT K99 – Server 1,801.28
BERT K99 – Offline 1,904.10

Den konsekventa linjära skalningen vi såg med två NVIDIA L4 GPU:er sträcker sig imponerande till konfigurationer med fyra L4-enheter. Denna skalning är särskilt anmärkningsvärd eftersom att upprätthålla linjära prestandavinster blir alltmer utmanande med varje tillagd GPU på grund av komplexiteten med parallell bearbetning och resurshantering.

Dell PowerEdge T560 4x NVIDIA L4 Betyg
Resnet50 – Server 48,818.30
Resnet50 – Offline 51,381.70
BERT K99 – Server 3,604.96
BERT K99 – Offline 3,821.46

Dessa resultat är endast för illustrativa syften och inte konkurrenskraftiga eller officiella MLPerf-resultat. För en fullständig officiell resultatlista vänligen besök MLPerfs resultatsida.

Förutom att validera den linjära skalbarheten hos NVIDIA L4 GPU:er, belyser våra tester i labbet de praktiska konsekvenserna av att distribuera dessa enheter i olika driftsscenarier. Konsistensen i prestanda mellan server- och offlinelägen i alla konfigurationer med L4 GPU:er avslöjar till exempel deras tillförlitlighet och mångsidighet.

Denna aspekt är särskilt relevant för företag och forskningsinstitutioner där operativa sammanhang varierar kraftigt. Dessutom ger våra observationer om den minimala effekten av sammankopplingsflaskhalsar och effektiviteten av GPU-synkronisering i multi-GPU-uppsättningar värdefulla insikter för dem som vill skala sin AI-infrastruktur. Dessa insikter går längre än bara benchmarksiffror och ger en djupare förståelse för hur sådan hårdvara kan användas optimalt i verkliga scenarier, vägleder bättre arkitektoniska beslut och investeringsstrategier i AI- och HPC-infrastruktur.

NVIDIA L4 – Applikationsprestanda

Vi jämförde prestandan för nya NVIDIA L4 med NVIDIA A2 och NVIDIA T4 som kom före den. För att visa upp den här prestandauppgraderingen under tidigare modeller, distribuerade vi alla tre modellerna i en server i vårt labb, med Windows Server 2022 och de senaste NVIDIA-drivrutinerna, som utnyttjade hela vår GPU-testsvit.

Dessa kort testades på en Dell Poweredge R760 med följande konfiguration:

  • 2 x Intel Xeon Gold 6430 (32 kärnor, 2.1 GHz)
  • Windows Server 2022
  • NVIDIA-drivrutin 538.15
  • ECC inaktiverad på alla kort för 1x provtagning

NVIDIA L4 i R760 Riser

När vi startar prestandatestningen mellan denna grupp av tre företags-GPU:er är det viktigt att notera de unika prestandaskillnaderna mellan de tidigare A2- och T4-modellerna. När A2 släpptes erbjöd den några anmärkningsvärda förbättringar som lägre strömförbrukning och drift på en mindre PCIe Gen4 x8-plats, istället för den större PCIe Gen3 x16-sloten, krävde den äldre T4. Det gjorde det möjligt för den att passa in i fler system, särskilt med det mindre fotavtrycket som behövdes.

Blender OptiX 4.0

Blender OptiX är en 3D-modelleringsapplikation med öppen källkod. Detta test kan köras för både CPU och GPU, men vi gjorde bara GPU som de flesta andra tester här. Detta benchmark kördes med hjälp av Blender Benchmark CLI-verktyget. Poängen är prover per minut, med högre är bättre.

Blender 4.0
(Högre är bättre)
NVIDIA L4 Nvidia A2 Nvidia T4
GPU Blender CLI – Monster 2,207.765 458.692 850.076
GPU Blender CLI – Junkshop 1,127.829 292.553 517.243
GPU Blender CLI – Klassrum 1,111.753 262.387 478.786

Blackmagic RAW Speed ​​Test

Vi testar CPU:er och GPU:er med Blackmagics RAW Speed ​​Test som testar videouppspelningshastigheter. Detta är mer av ett hybridtest som inkluderar CPU- och GPU-prestanda för RAW-avkodning i verkligheten. Dessa visas som separata resultat men vi fokuserar bara på GPU:erna här, så CPU-resultaten utelämnas.

Blackmagic RAW Speed ​​Test
(Högre är bättre)
NVIDIA L4 Nvidia A2 Nvidia T4
8K CUDA 95 FPS 38 FPS 53 FPS

Cinebench 2024 GPU

Maxons Cinebench 2024 är ett processor- och GPU-renderingsriktmärke som använder alla CPU-kärnor och -trådar. Återigen eftersom vi fokuserar på GPU-resultat, körde vi inte CPU-delarna av testet. Högre poäng är bättre.

Cinebench 2024
(Högre är bättre)
NVIDIA L4 Nvidia A2 Nvidia T4
GPU 15,263 4,006 5,644

GPU PI

GPUPI 3.3.3 är en version av det lätta benchmarkingverktyget utformat för att beräkna π (pi) till miljarder decimaler med hjälp av hårdvaruacceleration genom GPU:er och processorer. Det utnyttjar datorkraften hos OpenCL och CUDA som inkluderar både centrala och grafiska bearbetningsenheter. Vi körde CUDA endast på alla 3 GPU:er och siffrorna här är beräkningstiden utan reduktionstid tillagd. Lägre är bättre.

GPU PI-beräkningstid i sekunder
(Lägre är bättre)
NVIDIA L4 Nvidia A2 Nvidia T4
GPUPI v3.3 – 1B 3.732s 19.799s 7.504s
GPUPI v3.3 – 32B 244.380s 1,210.801s 486.231s

Medan de tidigare resultaten bara tittade på en enda iteration av varje kort, hade vi också chansen att titta på en 5x NVIDIA L4-distribution inuti Dell PowerEdge T560.

GPU PI-beräkningstid i sekunder
(Lägre är bättre)
Dell PowerEdge T560 (2x Xeon Gold 6448Y) med 5x NVIDIA L4
GPUPI v3.3 – 1B 0 sek 850 ms
GPUPI v3.3 – 32B 50 sek 361 ms

Oktanbänk

OctaneBench är ett benchmarkingverktyg för OctaneRender, en annan 3D-renderare med RTX-stöd som liknar V-Ray.

 Oktan (Höger är bättre)
Scen Kärna NVIDIA L4 Nvidia A2 Nvidia T4
Inredning Infokanaler 15.59 4.49 6.39
Direkt belysning 50.85 14.32 21.76
Banspårning 64.02 18.46 25.76
Idé Infokanaler 9.30 2.77 3.93
Direkt belysning 39.34 11.53 16.79
Banspårning 48.24 14.21 20.32
ATV Infokanaler 24.38 6.83 9.50
Direkt belysning 54.86 16.05 21.98
Banspårning 68.98 20.06 27.50
Box Infokanaler 12.89 3.88 5.42
Direkt belysning 48.80 14.59 21.36
Banspårning 54.56 16.51 23.85
Totalpoäng 491.83 143.71 204.56

Geekbench 6 GPU

Geekbench 6 är ett plattformsoberoende riktmärke som mäter systemets övergripande prestanda. Det finns testalternativ för både CPU- och GPU-benchmarking. Högre poäng är bättre. Återigen tittade vi bara på GPU-resultaten.

Du kan hitta jämförelser med vilket system du vill i Geekbench webbläsare.

Geekbench 6.1.0
(Högre är bättre)
NVIDIA L4 Nvidia A2 Nvidia T4
Geekbench GPU OpenCL 156,224 35,835 83,046

Luxmark

LuxMark är ett OpenCL plattformsoberoende benchmarking-verktyg från dem som underhåller den öppna källkodsmotorn LuxRender 3D. Det här verktyget tittar på GPU-prestanda i 3D-modellering, belysning och videoarbete. För denna recension använde vi den senaste versionen, v4alpha0. I LuxMark är högre bättre när det kommer till poängen.

Luxmark v4.0alpha0
OpenCL GPU:er
(Högre är bättre)
NVIDIA L4 Nvidia A2 Nvidia T4
Hallbänk 14,328 3,759 5,893
Matbänk 5,330 1,258 2,033

GROMACS CUDA

Vi källkompilerade också GROMACS, en mjukvara för molekylär dynamik, specifikt för CUDA. Denna skräddarsydda kompilering var för att utnyttja de parallella bearbetningsmöjligheterna hos de 5 NVIDIA L4 GPU:erna, nödvändiga för att accelerera beräkningssimuleringar.

Processen involverade användningen av nvcc, NVIDIAs CUDA-kompilator, tillsammans med många iterationer av lämpliga optimeringsflaggor för att säkerställa att binärfilerna var korrekt inställda till serverns arkitektur. Inkluderandet av CUDA-stöd i GROMACS-kompileringen gör att programvaran direkt kan samverka med GPU-hårdvaran, vilket drastiskt kan förbättra beräkningstiderna för komplexa simuleringar.

Testet: anpassad proteininteraktion i Gromacs

Med hjälp av en indatafil som tillhandahålls av gemenskapen från vår mångsidiga Discord, som innehöll parametrar och strukturer skräddarsydda för en specifik proteininteraktionsstudie, initierade vi en simulering av molekylär dynamik. Resultaten var anmärkningsvärda – systemet uppnådde en simuleringshastighet på 170.268 nanosekunder per dag.

GPU Systemkrav ns/dag kärntid (er)
Nvidia A4000 Whitebox AMD Ryzen 5950x 84.415 163,763
RTX NVIDIA 4070 Whitebox AMD Ryzen 7950x3d 131.85 209,692.3
5x NVIDIA L4 Dell T560 med 2x Intel Xeon Gold 6448Y 170.268 608,912.7

Mer än AI

Med hypen om AI som är på topp är det lätt att fastna i prestandan hos modeller på NVIDIA L4, men den har också några andra knep i rockärmen som öppnar upp en hel del möjligheter för videoapplikationer. Den kan vara värd för upp till 1,040 1 samtidiga AV720-videoströmmar vid 30pXNUMX. Detta kan förvandla hur innehåll kan streamas live till kantanvändare, förbättra kreativt berättande och presentera intressanta användningsområden för uppslukande AR/VR-upplevelser.

NVIDIA L4 utmärker sig också när det gäller att optimera grafikprestanda, vilket framgår av dess kapacitet i realtidsrendering och strålspårning. På ett edge-kontor kan L4 tillhandahålla en robust och kraftfull accelerationsgrafisk beräkning i VDI till de slutanvändare som behöver det mest där högkvalitativ realtidsgrafikåtergivning är avgörande.

Utgående Tankar

NVIDIA L4 GPU ger en solid plattform för edge AI och högpresterande datoranvändning, och erbjuder oöverträffad effektivitet och mångsidighet i flera applikationer. Dess förmåga att hantera intensiv AI, acceleration eller videopipelines och optimera grafikprestandan gör den till ett idealiskt val för edge inferencing eller virtuell skrivbordsacceleration. L4:s kombination av hög beräkningskraft, avancerad minneskapacitet och energieffektivitet positionerar den som en nyckelaktör för att driva accelerationen av arbetsbelastningar vid kanten, särskilt i AI och grafikintensiva industrier.

NVIDIA L4 twist stack

Det råder ingen tvekan om att AI är IT-orkanens öga nuförtiden, och efterfrågan på monster H100/H200 GPU:erna fortsätter att vara genom taket. Men det finns också ett stort tryck för att få en mer robust uppsättning IT-kit till kanten, där data skapas och analyseras. I dessa fall krävs en mer lämplig GPU. Här utmärker sig NVIDIA L4 och bör vara standardalternativet för kantinferencing, antingen som en enda enhet eller skalas ihop som vi testade i T560.

NVIDIA L4 produktsida

Engagera dig med StorageReview

Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde