Hem FöretagAI Utvärdera effekten av DRAM-kanaler på AI-inferensprestanda

Utvärdera effekten av DRAM-kanaler på AI-inferensprestanda

by Jordan Ranous

För att validera fördelarna med DRAM i AI-system genomförde vi en serie tester med åtta Kingston KSM56R46BD4PMI-64HAI DDR5-minnesmoduler.

System-DRAM spelar en viktig roll i AI, särskilt i CPU-inferencing. När AI-tillämpningar blir mer komplexa blir efterfrågan på snabbare och effektivare minneslösningar allt mer kritisk. Vi ville titta på betydelsen av system-DRAM i AI, med fokus på CPU-inferencing och den avgörande rollen av att använda flera minneskanaler.

Kingston KSM56R46BD4PMI-64HAI DDR5

Kingston KSM56R46BD4PMI-64HAI DDR5

Vikten av system-DRAM i AI

System DRAM är det centrala navet för data i AI-system. Data lagras tillfälligt för snabb åtkomst av CPU, vilket möjliggör snabb databehandling.

Detta är särskilt viktigt i AI-applikationer där att hantera stora datamängder snabbt och effektivt inte bara är en fördel utan en nödvändighet. Här är en närmare titt på den mångfacetterade rollen för System DRAM för att förbättra AI-kapaciteten:

  • Hastighet och effektivitet: AI-algoritmer, särskilt vid slutledning, kräver höghastighetsminne för att bearbeta stora mängder data. System DRAM ger denna hastighet, vilket minskar latensen och ökar systemets övergripande prestanda.
  • Kapacitet: Moderna AI-applikationer kräver stor minneskapacitet. DRAM med hög kapacitet säkerställer att större datauppsättningar kan bearbetas i minnet, vilket undviker den långsammare processen att hämta data från lagringsenheter.
  • Tillförlitlighet: Inom AI är dataintegritet av största vikt. System DRAM, med sina felkorrigerande möjligheter, säkerställer att datakorruption minimeras, vilket är viktigt i applikationer där noggrannhet är avgörande.
  • Skalbarhet: När AI-modeller blir allt mer komplexa, blir förmågan att skala minnesresurser extremt viktig. System DRAM erbjuder den skalbarhet som krävs för att tillgodose de ökande kraven från utvecklande AI-applikationer och deras eskalerande datakrav.
  • Bandbredd: System DRAM:s högre bandbredd tillåter snabbare dataöverföringshastigheter, vilket möjliggör snabbare åtkomst till data. Detta är särskilt fördelaktigt för att träna komplexa neurala nätverk och hantera storskaliga databearbetningsuppgifter.

CPU-inferencing och DRAM

Inom artificiell intelligens är CPU-inferencing – processen att använda en tränad modell för att göra förutsägelser eller beslut – och DRAM:s roll kritiska komponenter som avsevärt påverkar effektiviteten och hastigheten hos AI-applikationer. Denna fas är minneskrävande på grund av behovet av att snabbt komma åt och bearbeta stora datamängder. Det är särskilt krävande för systemminnet på grund av den komplexa karaktären och storleken på de inblandade data.

DRAM är avgörande för att optimera CPU-inferencing för AI-operationer genom flera viktiga förbättringar. För det första ger det den nödvändiga bandbredden för att uppnå hög datagenomströmning, vilket är avgörande för snabb databearbetning och beslutsfattande i CPU-inferencing. Denna ökade genomströmning leder direkt till snabbare prestanda i komplexa uppgifter.

Dessutom, genom att lagra data nära CPU:n, minskar system-DRAM avsevärt tiden för åtkomst till data, vilket minimerar den totala slutledningsfördröjningen. Denna närhet är avgörande för att upprätthålla ett snabbt och lyhört system. Slutligen, eftersom data bearbetas snabbt och åtkomsttiderna förkortas, reduceras den totala kraften som krävs för CPU slutledningsuppgifter avsevärt. Detta leder till mer energieffektiv verksamhet och säkerställer en mer hållbar och kostnadseffektiv miljö för AI-tillämpningar.

Rollen för flera minneskanaler

Systemminnesarkitektur är ett viktigt element för att definiera prestanda för AI-applikationer. Att använda flera minneskanaler är som att bredda en motorväg – det underlättar ett större flöde av datatrafik samtidigt, vilket avsevärt förbättrar systemets övergripande prestanda. Så här kan du optimera AI-driften genom att använda flera kanaler:

  • Ökad bandbredd: Flera kanaler ökar minnesbandbredden. Detta är avgörande för AI-applikationer, eftersom de kan bearbeta och analysera mer data samtidigt, vilket leder till snabbare slutledningstider.
  • Parallell bearbetning: Med flera kanaler kan data bearbetas parallellt, vilket avsevärt påskyndar AI-beräkningar som involverar stora datamängder.
  • Minskade flaskhalsar: Flera minneskanaler hjälper till att minska systemflaskhalsar. Genom att fördela minnesbelastningen kan varje kanal fungera mer effektivt, vilket förbättrar systemets övergripande prestanda.

Testdata

För att validera fördelarna med DRAM i AI-system, särskilt CPU-inferencing, har vi genomfört en serie tester med åtta Kingston KSM56R46BD4PMI-64HAI DDR5-minnesmoduler över olika kanalkonfigurationer.

KSM48R40BD4TMM-64HMR 64GB 2Rx4 8G x 80-bitars PC5-4800 CL40 Registrerad EC8 288-stifts DIMM KSM56R46BD4PMI-64HAI 64GB 2Rx4 8G x 80-bitars PC5-5600 CL46 Registrerad EC8 288-stifts DIMM
Överför hastighet 4800 MT / s 5600 MT / s
CL(IDD) 40 cykler 46 cykler
Radcykeltid (tRCmin) 48 ns (min) 48 ns (min)
Uppdatera till Aktiv/Uppdatera  Kommandotid (tRFCmin) 295 ns (min) 295 ns (min)
Rad aktiv tid 32 ns (min) 32 ns (min)
Radförladdningstid 16 ns (min) 16 ns (min)
UL-betyg 94 V – 0 94 V – 0
drifttemperatur 0 C till +95 C 0 C till +95 C
Förvaringstemperatur -55 ° C till +100 ° C -55 ° C till +100 ° C

För att etablera en baslinje initierade vi fokuserade CPU-benchmarks och Geekbench-tester, som mätte CPU:ns isolerade kapacitet. För att allvarligt stressa hela systemet, inklusive minne och lagring, valde vi y-cruncher för dess rigorösa krav. Detta tillvägagångssätt tillåter oss att bedöma sammanhållningen och uthålligheten i hela systemet under extrema förhållanden, vilket ger en tydlig bild av övergripande prestanda och stabilitet.

I slutändan kommer dessa resultat att ge konkreta data om hur system-DRAM och antalet minneskanaler direkt påverkar beräkningshastighet, effektivitet och övergripande systemprestanda i AI-applikationer.

Geekbench 6

Först upp är Geekbench 6, ett plattformsoberoende riktmärke som mäter systemets övergripande prestanda. Du kan hitta jämförelser med vilket system du vill i Geekbench webbläsare. Högre poäng är bättre.

Geekbench 6 Kingston DDR5
2 kanaler
Kingston DDR5
4 kanaler
Kingston DDR5
8 kanaler
CPU-riktmärke:
Single-core
2,083 2,233 2,317
CPU-riktmärke:
Med flera kärnor
14,404 18,561 19,752

Geekbench 6-resultaten för Kingston DDR5 visar en rad variationer när man jämför 2-, 4- och 8-kanalsinställningar. I enkärniga tester ökar poängen blygsamt men konsekvent från 2,083 2,317 med två kanaler till 14,404 19,752 med åtta kanaler, vilket indikerar förbättrad effektivitet och genomströmning för individuell kärnverksamhet när antalet kanaler ökar. Den mest dramatiska prestandaförbättringen observeras dock i tester med flera kärnor, där poängen hoppar från XNUMX XNUMX med två kanaler till avsevärda XNUMX XNUMX med åtta kanaler.

y-cruncher

y-cruncher, ett flertrådigt och skalbart program, kan beräkna Pi och andra matematiska konstanter till biljoner siffror. Sedan lanseringen 2009 har y-cruncher blivit en populär benchmarking- och stresstestapplikation för överklockare och hårdvaruentusiaster. Snabbare är bättre i detta test.

y-cruncher
(Total beräkningstid)
Kingston DDR5
2 kanaler
Kingston DDR5
4 kanaler
Kingston DDR5
8 kanaler
1 miljard siffror 18.117 sekunder 10.856 sekunder 7.552 sekunder
2.5 miljard siffror 51.412 sekunder 31.861 sekunder 20.981 sekunder
5 miljard siffror 110.728 sekunder 64.609 sekunder 46.304 sekunder
10 miljard siffror 240.666 sekunder 138.402 sekunder 103.216 sekunder
25 miljarder siffror 693.835 sekunder 396.997 sekunder  N / A

Y-cruncher-riktmärket över 2, 4 och 8 kanaler visar en tydlig och konsekvent förbättring av beräkningshastigheten när antalet kanaler ökar. För att beräkna 1 miljard siffror av Pi, minskar den totala beräkningstiden avsevärt från 18.117 sekunder med två kanaler till bara 7.552 sekunder med åtta kanaler.

Denna trend med minskad beräkningstid fortsätter över alla testade skalor, med tiden för beräkning av 25 miljarder siffror sjunker från 693.835 sekunder till 396.997 sekunder när man flyttar från 2 till 4 kanaler.

3DMark – CPU-profil

CPU-profiltestet i 3DMark mäter specifikt processorns prestanda över en rad trådräkningar, och ger en detaljerad titt på hur olika konfigurationer av DDR5 RAM-kanaler påverkar CPU-hantering och effektivitet. Detta test är fördelaktigt för att förstå prestandanyanserna i minnesintensiva operationer och flertrådade applikationer när du använder olika DDR5 RAM-kanalinställningar.

3DMark – CPU-profil – Poäng
Trådtäthet Kingston DDR5
2 kanaler
Kingston DDR5
4 kanaler
Kingston DDR5
8 kanaler
Max trådar 15,822 15,547 15,457
16 trådar 10,632 9,515 10,367
8 trådar 4,957 6,019 5,053
4 trådar 3,165 3,366 3,323
2 trådar 1,726 1,765 1,781
1 gänga 907 911 884

3DMark CPU-profilpoängen för Kingston DDR5 RAM visar en något komplex bild, vilket indikerar att det optimala antalet kanaler kan variera beroende på trådantalet och den specifika arbetsbelastningen.

Vid maximalt antal trådar är poängen högst med två kanaler (15,822 4) och minskar något med fler kanaler, vilket tyder på att de ytterligare kanalerna inte ger en fördel för mycket parallella uppgifter. Men vid åtta trådar får 6,019-kanalskonfigurationen högst poäng (4 2), vilket indikerar en sweet spot där de extra kanalerna förbättrar hanteringen av parallellitet på mellannivå. Poängen är liknande för alla kanalkonfigurationer vid lägre trådantal (1, XNUMX och XNUMX tråd).

Dessa resultat tyder på att även om fler kanaler kan gynna vissa flertrådiga operationer, varierar effekten med typen av uppgift och systemets arkitektur. Det vill säga, mer är inte alltid bättre för varje användningsfall.

DRAM-kanaleffekt på AI-inferencing

Alla tester utfördes på en Intel Xeon w9-3475X CPU, med hjälp av Intel OpenVINO API genom UL Labs Procyon Benchmark.

Med en rad AI-inferensmotorer från ledande leverantörer, tillgodoser UL Procyon AI Inference Benchmark ett brett spektrum av hårdvaruinställningar och krav. Benchmark-poängen ger en bekväm och standardiserad sammanfattning av slutledningsprestanda på enheten. Detta gör det möjligt för oss att jämföra och kontrastera olika hårdvaruinställningar i verkliga situationer utan att kräva interna lösningar.

Resultaten ligger inom felmarginalen på FP32, men saker och ting blir intressanta när du flyttar till INT och tittar på de detaljerade poängen snarare än den totala poängen.

Större siffra bättre på totalresultat, litet antal bättre på tider.

Först ut är FP32 Precision

FP 32
Precision 8 Kanal 2 Kanal
Totala poängen 629 630
MobileNet V3 Genomsnittlig slutledningstid 0.81 0.77
ResNet 50 Genomsnittlig slutledningstid 1.96 1.82
Inception V4 Genomsnittlig slutledningstid 6.93 7.31
DeepLab V3 genomsnittlig slutledningstid 6.27 6.17
YOLO V3 Genomsnittlig slutledningstid 12.99 13.99
REAL-ESRGAN Genomsnittlig slutledningstid 280.59 282.45

Nästa är FP16 Precision

FP 16
Precision 8 Kanal 2 Kanal
Totala poängen 645 603
MobileNet V3 Genomsnittlig slutledningstid 0.81 0.76
ResNet 50 Genomsnittlig slutledningstid 1.91 1.94
Inception V4 Genomsnittlig slutledningstid 7.11 7.27
DeepLab V3 genomsnittlig slutledningstid 6.27 7.13
YOLO V3 Genomsnittlig slutledningstid 12.93 15.01
REAL-ESRGAN Genomsnittlig slutledningstid 242.24 280.91

Och slutligen INT

INT
Precision 8 Kanal 2 Kanal
Totala poängen 1,033 1004
MobileNet V3 Genomsnittlig slutledningstid 0.71 0.73
ResNet 50 Genomsnittlig slutledningstid 1.48 1.48
Inception V4 Genomsnittlig slutledningstid 4.42 4.47
DeepLab V3 genomsnittlig slutledningstid 4.33 4.99
YOLO V3 Genomsnittlig slutledningstid 5.15 5.12
REAL-ESRGAN Genomsnittlig slutledningstid 122.40 123.57

DRAM-genomströmning och latens

Först ut, titta på latensen för 2-kanals och 8-kanals DRAM-konfiguration. Vi profilerade hela CPU:n och minnet, men vårt enda fokus var övergången från CPU Cache till DRAM. Eftersom vår Xeon W9-3475X CPU bara har 82.50 MB L3-cache, drog vi ut diagrammet i början av den övergången.

Teststorlek (KB) 2-kanals bandbredd
8-kanals latens (ns)
65,536 48.70080 47.24411
98,304 68.16823 66.25920
131,072 85.38640 82.16685
262,144 114.32570 107.57450
393,216 121.74860 115.40340
524,288 129.38970 123.22100
1,048,576 144.32880 138.28380

Här kan vi se att att lägga till fler kanaler förbättrade latensen med en liten marginal.

Om vi ​​går vidare till bandbredd på AVX512-instruktionerna kan vi se lite mer av en dramatisk skillnad i bandbredd mellan 2-kanals och 8-kanals. Delta här är prestandahiten mellan 2 och 8 kanaler.

Teststorlek (KB) AVX512 2-kanals bandbredd (GB/s) 8-kanals bandbredd (GB/s) Delta(GB/s diff)
65,536 3,455.28 3,767.91 -312.63
98,304 1,801.88 2,011.83 -209.95
131,072 1,009.21 1,436.50 -427.28
262,144 178.52 508.65 -330.13
393,216 114.76 433.91 -319.15
524,288 94.81 396.90 -302.09
1,048,576 71.12 293.26 -222.13
1,572,864 66.98 267.44 -200.46
2,097,152 65.08 262.50 -197.42
3,145,728 63.63 253.12 -189.50

Slutsats

Sammanfattningsvis är system-DRAM en hörnsten i arkitekturen för AI-system, särskilt i CPU-inferencing. Dess förmåga att tillhandahålla höghastighets, tillförlitligt och omfattande minne är oumbärlig. Dessutom kan utnyttjande av flera minneskanaler förbättra prestandan för AI-applikationer avsevärt genom att öka bandbredden, möjliggöra parallell bearbetning och minimera flaskhalsar. När AI fortsätter att utvecklas kommer optimering av system-DRAM att förbli ett nyckelfokus för att säkerställa högsta prestanda och effektivitet.

AI-genererad bild, framställd av Jordan Ranous

Dessutom förstärker testdata denna uppfattning, vilket visar de påtagliga fördelarna med förbättrade minneskonfigurationer. När vi tänjer på gränserna för AI och databehandling, kommer den strategiska förbättringen av systemminnet att vara avgörande för att stödja nästa generations AI-innovation och tillämpningar i den verkliga världen.

Engagera dig med StorageReview

Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde