För att validera fördelarna med DRAM i AI-system genomförde vi en serie tester med åtta Kingston KSM56R46BD4PMI-64HAI DDR5-minnesmoduler.
System-DRAM spelar en viktig roll i AI, särskilt i CPU-inferencing. När AI-tillämpningar blir mer komplexa blir efterfrågan på snabbare och effektivare minneslösningar allt mer kritisk. Vi ville titta på betydelsen av system-DRAM i AI, med fokus på CPU-inferencing och den avgörande rollen av att använda flera minneskanaler.
Vikten av system-DRAM i AI
System DRAM är det centrala navet för data i AI-system. Data lagras tillfälligt för snabb åtkomst av CPU, vilket möjliggör snabb databehandling.
Detta är särskilt viktigt i AI-applikationer där att hantera stora datamängder snabbt och effektivt inte bara är en fördel utan en nödvändighet. Här är en närmare titt på den mångfacetterade rollen för System DRAM för att förbättra AI-kapaciteten:
- Hastighet och effektivitet: AI-algoritmer, särskilt vid slutledning, kräver höghastighetsminne för att bearbeta stora mängder data. System DRAM ger denna hastighet, vilket minskar latensen och ökar systemets övergripande prestanda.
- Kapacitet: Moderna AI-applikationer kräver stor minneskapacitet. DRAM med hög kapacitet säkerställer att större datauppsättningar kan bearbetas i minnet, vilket undviker den långsammare processen att hämta data från lagringsenheter.
- Tillförlitlighet: Inom AI är dataintegritet av största vikt. System DRAM, med sina felkorrigerande möjligheter, säkerställer att datakorruption minimeras, vilket är viktigt i applikationer där noggrannhet är avgörande.
- Skalbarhet: När AI-modeller blir allt mer komplexa, blir förmågan att skala minnesresurser extremt viktig. System DRAM erbjuder den skalbarhet som krävs för att tillgodose de ökande kraven från utvecklande AI-applikationer och deras eskalerande datakrav.
- Bandbredd: System DRAM:s högre bandbredd tillåter snabbare dataöverföringshastigheter, vilket möjliggör snabbare åtkomst till data. Detta är särskilt fördelaktigt för att träna komplexa neurala nätverk och hantera storskaliga databearbetningsuppgifter.
CPU-inferencing och DRAM
Inom artificiell intelligens är CPU-inferencing – processen att använda en tränad modell för att göra förutsägelser eller beslut – och DRAM:s roll kritiska komponenter som avsevärt påverkar effektiviteten och hastigheten hos AI-applikationer. Denna fas är minneskrävande på grund av behovet av att snabbt komma åt och bearbeta stora datamängder. Det är särskilt krävande för systemminnet på grund av den komplexa karaktären och storleken på de inblandade data.
DRAM är avgörande för att optimera CPU-inferencing för AI-operationer genom flera viktiga förbättringar. För det första ger det den nödvändiga bandbredden för att uppnå hög datagenomströmning, vilket är avgörande för snabb databearbetning och beslutsfattande i CPU-inferencing. Denna ökade genomströmning leder direkt till snabbare prestanda i komplexa uppgifter.
Dessutom, genom att lagra data nära CPU:n, minskar system-DRAM avsevärt tiden för åtkomst till data, vilket minimerar den totala slutledningsfördröjningen. Denna närhet är avgörande för att upprätthålla ett snabbt och lyhört system. Slutligen, eftersom data bearbetas snabbt och åtkomsttiderna förkortas, reduceras den totala kraften som krävs för CPU slutledningsuppgifter avsevärt. Detta leder till mer energieffektiv verksamhet och säkerställer en mer hållbar och kostnadseffektiv miljö för AI-tillämpningar.
Rollen för flera minneskanaler
Systemminnesarkitektur är ett viktigt element för att definiera prestanda för AI-applikationer. Att använda flera minneskanaler är som att bredda en motorväg – det underlättar ett större flöde av datatrafik samtidigt, vilket avsevärt förbättrar systemets övergripande prestanda. Så här kan du optimera AI-driften genom att använda flera kanaler:
- Ökad bandbredd: Flera kanaler ökar minnesbandbredden. Detta är avgörande för AI-applikationer, eftersom de kan bearbeta och analysera mer data samtidigt, vilket leder till snabbare slutledningstider.
- Parallell bearbetning: Med flera kanaler kan data bearbetas parallellt, vilket avsevärt påskyndar AI-beräkningar som involverar stora datamängder.
- Minskade flaskhalsar: Flera minneskanaler hjälper till att minska systemflaskhalsar. Genom att fördela minnesbelastningen kan varje kanal fungera mer effektivt, vilket förbättrar systemets övergripande prestanda.
Testdata
För att validera fördelarna med DRAM i AI-system, särskilt CPU-inferencing, har vi genomfört en serie tester med åtta Kingston KSM56R46BD4PMI-64HAI DDR5-minnesmoduler över olika kanalkonfigurationer.
KSM48R40BD4TMM-64HMR 64GB 2Rx4 8G x 80-bitars PC5-4800 CL40 Registrerad EC8 288-stifts DIMM | KSM56R46BD4PMI-64HAI 64GB 2Rx4 8G x 80-bitars PC5-5600 CL46 Registrerad EC8 288-stifts DIMM | |
Överför hastighet | 4800 MT / s | 5600 MT / s |
CL(IDD) | 40 cykler | 46 cykler |
Radcykeltid (tRCmin) | 48 ns (min) | 48 ns (min) |
Uppdatera till Aktiv/Uppdatera Kommandotid (tRFCmin) | 295 ns (min) | 295 ns (min) |
Rad aktiv tid | 32 ns (min) | 32 ns (min) |
Radförladdningstid | 16 ns (min) | 16 ns (min) |
UL-betyg | 94 V – 0 | 94 V – 0 |
drifttemperatur | 0 C till +95 C | 0 C till +95 C |
Förvaringstemperatur | -55 ° C till +100 ° C | -55 ° C till +100 ° C |
För att etablera en baslinje initierade vi fokuserade CPU-benchmarks och Geekbench-tester, som mätte CPU:ns isolerade kapacitet. För att allvarligt stressa hela systemet, inklusive minne och lagring, valde vi y-cruncher för dess rigorösa krav. Detta tillvägagångssätt tillåter oss att bedöma sammanhållningen och uthålligheten i hela systemet under extrema förhållanden, vilket ger en tydlig bild av övergripande prestanda och stabilitet.
I slutändan kommer dessa resultat att ge konkreta data om hur system-DRAM och antalet minneskanaler direkt påverkar beräkningshastighet, effektivitet och övergripande systemprestanda i AI-applikationer.
Geekbench 6
Först upp är Geekbench 6, ett plattformsoberoende riktmärke som mäter systemets övergripande prestanda. Du kan hitta jämförelser med vilket system du vill i Geekbench webbläsare. Högre poäng är bättre.
Geekbench 6 | Kingston DDR5 2 kanaler |
Kingston DDR5 4 kanaler |
Kingston DDR5 8 kanaler |
CPU-riktmärke: Single-core |
2,083 | 2,233 | 2,317 |
CPU-riktmärke: Med flera kärnor |
14,404 | 18,561 | 19,752 |
Geekbench 6-resultaten för Kingston DDR5 visar en rad variationer när man jämför 2-, 4- och 8-kanalsinställningar. I enkärniga tester ökar poängen blygsamt men konsekvent från 2,083 2,317 med två kanaler till 14,404 19,752 med åtta kanaler, vilket indikerar förbättrad effektivitet och genomströmning för individuell kärnverksamhet när antalet kanaler ökar. Den mest dramatiska prestandaförbättringen observeras dock i tester med flera kärnor, där poängen hoppar från XNUMX XNUMX med två kanaler till avsevärda XNUMX XNUMX med åtta kanaler.
y-cruncher
y-cruncher, ett flertrådigt och skalbart program, kan beräkna Pi och andra matematiska konstanter till biljoner siffror. Sedan lanseringen 2009 har y-cruncher blivit en populär benchmarking- och stresstestapplikation för överklockare och hårdvaruentusiaster. Snabbare är bättre i detta test.
y-cruncher (Total beräkningstid) |
Kingston DDR5 2 kanaler |
Kingston DDR5 4 kanaler |
Kingston DDR5 8 kanaler |
1 miljard siffror | 18.117 sekunder | 10.856 sekunder | 7.552 sekunder |
2.5 miljard siffror | 51.412 sekunder | 31.861 sekunder | 20.981 sekunder |
5 miljard siffror | 110.728 sekunder | 64.609 sekunder | 46.304 sekunder |
10 miljard siffror | 240.666 sekunder | 138.402 sekunder | 103.216 sekunder |
25 miljarder siffror | 693.835 sekunder | 396.997 sekunder | Ja |
Y-cruncher-riktmärket över 2, 4 och 8 kanaler visar en tydlig och konsekvent förbättring av beräkningshastigheten när antalet kanaler ökar. För att beräkna 1 miljard siffror av Pi, minskar den totala beräkningstiden avsevärt från 18.117 sekunder med två kanaler till bara 7.552 sekunder med åtta kanaler.
Denna trend med minskad beräkningstid fortsätter över alla testade skalor, med tiden för beräkning av 25 miljarder siffror sjunker från 693.835 sekunder till 396.997 sekunder när man flyttar från 2 till 4 kanaler.
3DMark – CPU-profil
CPU-profiltestet i 3DMark mäter specifikt processorns prestanda över en rad trådräkningar, och ger en detaljerad titt på hur olika konfigurationer av DDR5 RAM-kanaler påverkar CPU-hantering och effektivitet. Detta test är fördelaktigt för att förstå prestandanyanserna i minnesintensiva operationer och flertrådade applikationer när du använder olika DDR5 RAM-kanalinställningar.
3DMark – CPU-profil – Poäng | |||
Trådtäthet | Kingston DDR5 2 kanaler |
Kingston DDR5 4 kanaler |
Kingston DDR5 8 kanaler |
Max trådar | 15,822 | 15,547 | 15,457 |
16 trådar | 10,632 | 9,515 | 10,367 |
8 trådar | 4,957 | 6,019 | 5,053 |
4 trådar | 3,165 | 3,366 | 3,323 |
2 trådar | 1,726 | 1,765 | 1,781 |
1 gänga | 907 | 911 | 884 |
3DMark CPU-profilpoängen för Kingston DDR5 RAM visar en något komplex bild, vilket indikerar att det optimala antalet kanaler kan variera beroende på trådantalet och den specifika arbetsbelastningen.
Vid maximalt antal trådar är poängen högst med två kanaler (15,822 4) och minskar något med fler kanaler, vilket tyder på att de ytterligare kanalerna inte ger en fördel för mycket parallella uppgifter. Men vid åtta trådar får 6,019-kanalskonfigurationen högst poäng (4 2), vilket indikerar en sweet spot där de extra kanalerna förbättrar hanteringen av parallellitet på mellannivå. Poängen är liknande för alla kanalkonfigurationer vid lägre trådantal (1, XNUMX och XNUMX tråd).
Dessa resultat tyder på att även om fler kanaler kan gynna vissa flertrådiga operationer, varierar effekten med typen av uppgift och systemets arkitektur. Det vill säga, mer är inte alltid bättre för varje användningsfall.
DRAM-kanaleffekt på AI-inferencing
Alla tester utfördes på en Intel Xeon w9-3475X CPU, med hjälp av Intel OpenVINO API genom UL Labs Procyon Benchmark.
Med en rad AI-inferensmotorer från ledande leverantörer, tillgodoser UL Procyon AI Inference Benchmark ett brett spektrum av hårdvaruinställningar och krav. Benchmark-poängen ger en bekväm och standardiserad sammanfattning av slutledningsprestanda på enheten. Detta gör det möjligt för oss att jämföra och kontrastera olika hårdvaruinställningar i verkliga situationer utan att kräva interna lösningar.
Resultaten ligger inom felmarginalen på FP32, men saker och ting blir intressanta när du flyttar till INT och tittar på de detaljerade poängen snarare än den totala poängen.
Större siffra bättre på totalresultat, litet antal bättre på tider.
Först ut är FP32 Precision
FP 32 | ||
Precision | 8 Kanal | 2 Kanal |
Totala poängen | 629 | 630 |
MobileNet V3 Genomsnittlig slutledningstid | 0.81 | 0.77 |
ResNet 50 Genomsnittlig slutledningstid | 1.96 | 1.82 |
Inception V4 Genomsnittlig slutledningstid | 6.93 | 7.31 |
DeepLab V3 genomsnittlig slutledningstid | 6.27 | 6.17 |
YOLO V3 Genomsnittlig slutledningstid | 12.99 | 13.99 |
REAL-ESRGAN Genomsnittlig slutledningstid | 280.59 | 282.45 |
Nästa är FP16 Precision
FP 16 | ||
Precision | 8 Kanal | 2 Kanal |
Totala poängen | 645 | 603 |
MobileNet V3 Genomsnittlig slutledningstid | 0.81 | 0.76 |
ResNet 50 Genomsnittlig slutledningstid | 1.91 | 1.94 |
Inception V4 Genomsnittlig slutledningstid | 7.11 | 7.27 |
DeepLab V3 genomsnittlig slutledningstid | 6.27 | 7.13 |
YOLO V3 Genomsnittlig slutledningstid | 12.93 | 15.01 |
REAL-ESRGAN Genomsnittlig slutledningstid | 242.24 | 280.91 |
Och slutligen INT
INT | ||
Precision | 8 Kanal | 2 Kanal |
Totala poängen | 1,033 | 1004 |
MobileNet V3 Genomsnittlig slutledningstid | 0.71 | 0.73 |
ResNet 50 Genomsnittlig slutledningstid | 1.48 | 1.48 |
Inception V4 Genomsnittlig slutledningstid | 4.42 | 4.47 |
DeepLab V3 genomsnittlig slutledningstid | 4.33 | 4.99 |
YOLO V3 Genomsnittlig slutledningstid | 5.15 | 5.12 |
REAL-ESRGAN Genomsnittlig slutledningstid | 122.40 | 123.57 |
DRAM-genomströmning och latens
Först ut, titta på latensen för 2-kanals och 8-kanals DRAM-konfiguration. Vi profilerade hela CPU:n och minnet, men vårt enda fokus var övergången från CPU Cache till DRAM. Eftersom vår Xeon W9-3475X CPU bara har 82.50 MB L3-cache, drog vi ut diagrammet i början av den övergången.
Teststorlek (KB) | 2-kanals bandbredd |
8-kanals latens (ns)
|
65,536 | 48.70080 | 47.24411 |
98,304 | 68.16823 | 66.25920 |
131,072 | 85.38640 | 82.16685 |
262,144 | 114.32570 | 107.57450 |
393,216 | 121.74860 | 115.40340 |
524,288 | 129.38970 | 123.22100 |
1,048,576 | 144.32880 | 138.28380 |
Här kan vi se att att lägga till fler kanaler förbättrade latensen med en liten marginal.
Om vi går vidare till bandbredd på AVX512-instruktionerna kan vi se lite mer av en dramatisk skillnad i bandbredd mellan 2-kanals och 8-kanals. Delta här är prestandahiten mellan 2 och 8 kanaler.
Teststorlek (KB) AVX512 | 2-kanals bandbredd (GB/s) | 8-kanals bandbredd (GB/s) | Delta(GB/s diff) |
65,536 | 3,455.28 | 3,767.91 | -312.63 |
98,304 | 1,801.88 | 2,011.83 | -209.95 |
131,072 | 1,009.21 | 1,436.50 | -427.28 |
262,144 | 178.52 | 508.65 | -330.13 |
393,216 | 114.76 | 433.91 | -319.15 |
524,288 | 94.81 | 396.90 | -302.09 |
1,048,576 | 71.12 | 293.26 | -222.13 |
1,572,864 | 66.98 | 267.44 | -200.46 |
2,097,152 | 65.08 | 262.50 | -197.42 |
3,145,728 | 63.63 | 253.12 | -189.50 |
Slutsats
Sammanfattningsvis är system-DRAM en hörnsten i arkitekturen för AI-system, särskilt i CPU-inferencing. Dess förmåga att tillhandahålla höghastighets, tillförlitligt och omfattande minne är oumbärlig. Dessutom kan utnyttjande av flera minneskanaler förbättra prestandan för AI-applikationer avsevärt genom att öka bandbredden, möjliggöra parallell bearbetning och minimera flaskhalsar. När AI fortsätter att utvecklas kommer optimering av system-DRAM att förbli ett nyckelfokus för att säkerställa högsta prestanda och effektivitet.
Dessutom förstärker testdata denna uppfattning, vilket visar de påtagliga fördelarna med förbättrade minneskonfigurationer. När vi tänjer på gränserna för AI och databehandling, kommer den strategiska förbättringen av systemminnet att vara avgörande för att stödja nästa generations AI-innovation och tillämpningar i den verkliga världen.
Engagera dig med StorageReview
Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde