Om de voordelen van DRAM in AI-systemen te valideren, hebben we een reeks tests uitgevoerd met acht Kingston KSM56R46BD4PMI-64HAI DDR5-geheugenmodules.
Systeem-DRAM speelt een belangrijke rol in AI, vooral bij CPU-afleiding. Naarmate AI-toepassingen complexer worden, wordt de vraag naar snellere en efficiëntere geheugenoplossingen steeds belangrijker. We wilden kijken naar de betekenis van systeem-DRAM in AI, met de nadruk op CPU-afleiding en de cruciale rol van het gebruik van meerdere geheugenkanalen.

Kingston KSM56R46BD4PMI-64HAI DDR5
Het belang van systeem-DRAM in AI
Systeem DRAM is de centrale hub voor gegevens in AI-systemen. Gegevens worden tijdelijk opgeslagen voor snelle toegang door de CPU, waardoor snelle gegevensverwerking mogelijk is.
Dit is vooral cruciaal bij AI-toepassingen waar het snel en efficiënt omgaan met grote datasets niet alleen een voordeel maar ook een noodzaak is. Hier volgt een nadere blik op de veelzijdige rol van systeem-DRAM bij het verbeteren van de AI-mogelijkheden:
- Snelheid en efficiëntie: AI-algoritmen, vooral bij het infereren, vereisen snel geheugen om grote hoeveelheden gegevens te verwerken. Systeem-DRAM biedt deze snelheid, waardoor de latentie wordt verminderd en de algehele systeemprestaties worden verbeterd.
- Capaciteit: Moderne AI-toepassingen vereisen grote geheugencapaciteiten. DRAM met hoge capaciteit zorgt ervoor dat grotere datasets in het geheugen kunnen worden verwerkt, waardoor het langzamere proces van het ophalen van gegevens van opslagapparaten wordt vermeden.
- Betrouwbaarheid: Bij AI is data-integriteit van het grootste belang. Systeem-DRAM, met zijn foutcorrectiemogelijkheden, zorgt ervoor dat datacorruptie tot een minimum wordt beperkt, wat essentieel is in toepassingen waarbij nauwkeurigheid van cruciaal belang is.
- Schaalbaarheid: Naarmate AI-modellen steeds complexer worden, wordt het vermogen om geheugenbronnen te schalen uiterst belangrijk. Systeem-DRAM biedt de schaalbaarheid die nodig is om tegemoet te komen aan de toenemende eisen van zich ontwikkelende AI-toepassingen en hun escalerende gegevensvereisten.
- Bandbreedte: De hogere bandbreedte van System DRAM maakt hogere gegevensoverdrachtsnelheden mogelijk, waardoor snellere toegang tot gegevens mogelijk is. Dit is vooral gunstig voor het trainen van complexe neurale netwerken en het beheren van grootschalige gegevensverwerkingstaken.
CPU-inferentie en DRAM
Bij kunstmatige intelligentie zijn CPU-afleiding (het proces waarbij een getraind model wordt gebruikt om voorspellingen of beslissingen te nemen) en de rol van DRAM cruciale componenten die de efficiëntie en snelheid van AI-toepassingen aanzienlijk beïnvloeden. Deze fase is geheugenintensief vanwege de noodzaak om snel toegang te krijgen tot grote datasets en deze te verwerken. Het is bijzonder veeleisend voor het systeemgeheugen vanwege de complexe aard en omvang van de betrokken gegevens.
DRAM is cruciaal bij het optimaliseren van CPU-inferentie voor AI-bewerkingen door middel van verschillende belangrijke verbeteringen. Ten eerste biedt het de noodzakelijke bandbreedte om een hoge gegevensdoorvoer te bereiken, wat essentieel is voor snelle gegevensverwerking en besluitvorming bij CPU-inferentie. Deze verhoogde doorvoer vertaalt zich direct in snellere prestaties bij complexe taken.
Door gegevens dicht bij de CPU op te slaan, vermindert systeem-DRAM bovendien de tijd om toegang te krijgen tot gegevens aanzienlijk, waardoor de algehele inferentielatentie wordt geminimaliseerd. Deze nabijheid is cruciaal voor het onderhouden van een snel en responsief systeem. Ten slotte wordt, omdat gegevens snel worden verwerkt en de toegangstijden worden verkort, het totale vermogen dat nodig is voor CPU-inferentietaken aanzienlijk verminderd. Dit leidt tot een energiezuinigere bedrijfsvoering en zorgt voor een duurzamere en kosteneffectievere omgeving voor AI-toepassingen.
De rol van meerdere geheugenkanalen
Systeemgeheugenarchitectuur is een essentieel element bij het definiëren van de prestaties van AI-applicaties. Het gebruik van meerdere geheugenkanalen is als het verbreden van een snelweg: het maakt gelijktijdig een grotere stroom dataverkeer mogelijk, waardoor de algehele systeemprestaties aanzienlijk worden verbeterd. Hier leest u hoe het gebruik van meerdere kanalen de AI-activiteiten kan optimaliseren:
- Verhoogde bandbreedte: Meerdere kanalen vergroten de geheugenbandbreedte. Dit is cruciaal voor AI-toepassingen, omdat ze meer gegevens tegelijkertijd kunnen verwerken en analyseren, wat leidt tot snellere gevolgtrekkingstijden.
- Parallelle verwerking: Met meerdere kanalen kunnen gegevens parallel worden verwerkt, waardoor AI-berekeningen waarbij grote datasets betrokken zijn aanzienlijk worden versneld.
- Minder knelpunten: Meerdere geheugenkanalen helpen bij het verminderen van systeemknelpunten. Door de geheugenbelasting te verdelen, kan elk kanaal efficiënter werken, waardoor de algehele systeemprestaties worden verbeterd.
Testgegevens
Om de voordelen van DRAM in AI-systemen te valideren, met name CPU-inferentie, hebben we een reeks tests uitgevoerd met acht Kingston KSM56R46BD4PMI-64HAI DDR5-geheugenmodules over verschillende kanaalconfiguraties.
KSM48R40BD4TMM-64HMR 64GB 2Rx4 8G x 80-bit PC5-4800 CL40 Geregistreerd EC8 288-pins DIMM | KSM56R46BD4PMI-64HAI 64GB 2Rx4 8G x 80-bit PC5-5600 CL46 Geregistreerd EC8 288-pins DIMM | |
Overdrachtssnelheid | 4800 MT / s | 5600 MT / s |
CL (IDD) | 40 cycli | 46 cycli |
Rijcyclustijd (tRCmin) | 48ns (min) | 48ns (min) |
Vernieuwen naar actief/vernieuwen Commandotijd (tRFCmin) | 295ns (min) | 295ns (min) |
Rij actieve tijd | 32ns (min) | 32ns (min) |
Rij-voorlaadtijd | 16ns (min) | 16ns (min) |
UL-classificatie | 94 V – 0 | 94 V – 0 |
Bedrijfstemperatuur | 0 C tot +95 C | 0 C tot +95 C |
Temperatuur bij opslag | -55 C tot + 100 C | -55 C tot + 100 C |
Om een basislijn vast te stellen, hebben we gerichte CPU-benchmarks en Geekbench-tests geïnitieerd, waarbij de geïsoleerde mogelijkheden van de CPU werden gemeten. Om het hele systeem, inclusief geheugen en opslag, ernstig onder druk te zetten, hebben we y-cruncher geselecteerd vanwege de strenge eisen ervan. Deze aanpak stelt ons in staat de samenhang en het uithoudingsvermogen van het hele systeem onder extreme omstandigheden te beoordelen, waardoor een duidelijk beeld ontstaat van de algehele prestaties en stabiliteit.
Uiteindelijk zullen deze resultaten concrete gegevens opleveren over de manier waarop systeem-DRAM en het aantal geheugenkanalen rechtstreeks van invloed zijn op de rekensnelheid, efficiëntie en algehele systeemprestaties in AI-toepassingen.
Geekbench 6
Maar eerst is er Geekbench 6, een platformonafhankelijke benchmark die de algehele systeemprestaties meet. Vergelijkingen met elk gewenst systeem vindt u in de Geekbench Browser. Hogere scores zijn beter.
Geekbench 6 | Kingston DDR5 2 Kanalen |
Kingston DDR5 4 Kanalen |
Kingston DDR5 8 Kanalen |
CPU-benchmark: Single-Core |
2,083 | 2,233 | 2,317 |
CPU-benchmark: Multi-Core |
14,404 | 18,561 | 19,752 |
De Geekbench 6-resultaten voor de Kingston DDR5 laten een reeks variaties zien bij het vergelijken van 2-, 4- en 8-kanaals opstellingen. In single-core tests stijgen de scores bescheiden maar consistent van 2,083 met twee kanalen naar 2,317 met acht kanalen, wat wijst op een verbeterde efficiëntie en doorvoer voor individuele kernactiviteiten naarmate het aantal kanalen toeneemt. De meest dramatische prestatieverbetering wordt echter waargenomen bij multi-core tests, waarbij de scores stijgen van 14,404 met twee kanalen naar een substantiële 19,752 met acht kanalen.
y-cruncher
y-cruncher, een multi-threaded en schaalbaar programma, kan Pi en andere wiskundige constanten tot biljoenen cijfers berekenen. Sinds de lancering in 2009 is y-cruncher een populaire benchmarking- en stresstestapplicatie geworden voor overklokkers en hardwareliefhebbers. Sneller is beter in deze test.
y-cruncher (Totale rekentijd) |
Kingston DDR5 2 Kanalen |
Kingston DDR5 4 Kanalen |
Kingston DDR5 8 Kanalen |
1 miljard cijfers | 18.117 seconden | 10.856 seconden | 7.552 seconden |
2.5 miljard cijfers | 51.412 seconden | 31.861 seconden | 20.981 seconden |
5 miljard cijfers | 110.728 seconden | 64.609 seconden | 46.304 seconden |
10 miljard cijfers | 240.666 seconden | 138.402 seconden | 103.216 seconden |
25 miljard cijfers | 693.835 seconden | 396.997 seconden | NB |
De y-cruncher-benchmark over 2, 4 en 8 kanalen toont een duidelijke en consistente verbetering in de rekensnelheid naarmate het aantal kanalen toeneemt. Voor het berekenen van 1 miljard cijfers Pi neemt de totale rekentijd aanzienlijk af van 18.117 seconden met twee kanalen naar slechts 7.552 seconden met acht kanalen.
Deze trend van verminderde rekentijd zet zich voort op alle geteste schalen, waarbij de tijd voor het berekenen van 25 miljard cijfers daalt van 693.835 seconden naar 396.997 seconden bij de overgang van 2 naar 4 kanalen.
3DMark – CPU-profiel
De CPU-profieltest in 3DMark meet specifiek de prestaties van de processor over een reeks threadcounts en biedt een gedetailleerd inzicht in hoe verschillende configuraties van DDR5 RAM-kanalen de verwerking en efficiëntie van de CPU-werklast beïnvloeden. Deze test is nuttig voor het begrijpen van de prestatienuances bij geheugenintensieve bewerkingen en multi-threaded applicaties bij gebruik van verschillende DDR5 RAM-kanaalconfiguraties.
3DMark – CPU-profiel – Scores | |||
Draad tellen | Kingston DDR5 2 Kanalen |
Kingston DDR5 4 Kanalen |
Kingston DDR5 8 Kanalen |
Max. threads | 15,822 | 15,547 | 15,457 |
16 threads | 10,632 | 9,515 | 10,367 |
8 threads | 4,957 | 6,019 | 5,053 |
4 threads | 3,165 | 3,366 | 3,323 |
2 threads | 1,726 | 1,765 | 1,781 |
1 thread | 907 | 911 | 884 |
De 3DMark CPU-profielscores voor de Kingston DDR5 RAM laten een enigszins complex beeld zien, wat aangeeft dat het optimale aantal kanalen kan variëren, afhankelijk van het aantal threads en de specifieke werklast.
Bij het maximale aantal threads zijn de scores het hoogst bij twee kanalen (15,822) en nemen ze iets af bij meer kanalen, wat erop wijst dat de extra kanalen geen voordeel bieden voor zeer parallelle taken. Bij acht threads scoort de 4-kanaalsconfiguratie echter het hoogst (6,019), wat een goede plek aangeeft waar de extra kanalen de verwerking van parallellisme op het middenniveau verbeteren. De scores zijn vergelijkbaar voor alle kanaalconfiguraties bij een lager aantal threads (4, 2 en 1 thread).
Deze resultaten suggereren dat hoewel meer kanalen kunnen profiteren van bepaalde multi-threaded operaties, de impact varieert afhankelijk van de aard van de taak en de architectuur van het systeem. Dat wil zeggen: meer is niet altijd beter voor elke gebruikssituatie.
DRAM-kanaaleffect op AI-inferentie
Alle tests werden uitgevoerd op een Intel Xeon w9-3475X CPU, waarbij gebruik werd gemaakt van de Intel OpenVINO API via de UL Labs Procyon Benchmark.
Met een scala aan AI-inferentie-engines van topleveranciers, voldoet de UL Procyon AI Inference Benchmark aan een breed spectrum aan hardware-instellingen en -vereisten. De benchmarkscore biedt een handig en gestandaardiseerd overzicht van de inferentieprestaties op het apparaat. Dit stelt ons in staat om verschillende hardware-opstellingen in praktijksituaties te vergelijken en te contrasteren zonder dat daarvoor interne oplossingen nodig zijn.
De resultaten vallen binnen de foutmarge op FP32, maar het wordt interessant als je naar INT gaat en naar de gedetailleerde scores kijkt in plaats van naar de algehele score.
Groter getal beter op totaalscore, klein getal beter op keer.
De eerste is FP32 Precision
FP 32 | ||
precisie | 8 Channel | 2 Channel |
Totale score | 629 | 630 |
MobileNet V3 Gemiddelde inferentietijd | 0.81 | 0.77 |
ResNet 50 gemiddelde inferentietijd | 1.96 | 1.82 |
Inception V4 Gemiddelde inferentietijd | 6.93 | 7.31 |
DeepLab V3 Gemiddelde inferentietijd | 6.27 | 6.17 |
YOLO V3 Gemiddelde inferentietijd | 12.99 | 13.99 |
REAL-ESRGAN gemiddelde inferentietijd | 280.59 | 282.45 |
Het volgende is FP16 Precision
FP 16 | ||
precisie | 8 Channel | 2 Channel |
Totale score | 645 | 603 |
MobileNet V3 Gemiddelde inferentietijd | 0.81 | 0.76 |
ResNet 50 gemiddelde inferentietijd | 1.91 | 1.94 |
Inception V4 Gemiddelde inferentietijd | 7.11 | 7.27 |
DeepLab V3 Gemiddelde inferentietijd | 6.27 | 7.13 |
YOLO V3 Gemiddelde inferentietijd | 12.93 | 15.01 |
REAL-ESRGAN gemiddelde inferentietijd | 242.24 | 280.91 |
En tenslotte INT
INT | ||
precisie | 8 Channel | 2 Channel |
Totale score | 1,033 | 1004 |
MobileNet V3 Gemiddelde inferentietijd | 0.71 | 0.73 |
ResNet 50 gemiddelde inferentietijd | 1.48 | 1.48 |
Inception V4 Gemiddelde inferentietijd | 4.42 | 4.47 |
DeepLab V3 Gemiddelde inferentietijd | 4.33 | 4.99 |
YOLO V3 Gemiddelde inferentietijd | 5.15 | 5.12 |
REAL-ESRGAN gemiddelde inferentietijd | 122.40 | 123.57 |
DRAM-doorvoer en latentie
Allereerst kijken we naar de latentie van 2-kanaals en 8-kanaals DRAM-configuratie. We hebben de gehele CPU en het geheugen geprofileerd, maar onze enige focus lag op de overgang van de CPU-cache naar de DRAM. Omdat onze Xeon W9-3475X CPU slechts 82.50 MB L3-cache heeft, hebben we de grafiek aan het begin van die overgang eruit gehaald.
Testgrootte (KB) | 2 Kanaalbandbreedte |
8-kanaals latentie (ns)
|
65,536 | 48.70080 | 47.24411 |
98,304 | 68.16823 | 66.25920 |
131,072 | 85.38640 | 82.16685 |
262,144 | 114.32570 | 107.57450 |
393,216 | 121.74860 | 115.40340 |
524,288 | 129.38970 | 123.22100 |
1,048,576 | 144.32880 | 138.28380 |
Hier kunnen we zien dat het toevoegen van meer kanalen de latentie met een kleine marge verbeterde.
Als we verder gaan met de bandbreedte in de AVX512-instructies, zien we een iets dramatischer verschil in bandbreedte tussen 2-kanaals en 8-kanaals. De Delta is hier de prestatiehit tussen 2 en 8 kanalen.
Testgrootte (KB) AVX512 | 2 Kanaalbandbreedte (GB/s) | 8 Kanaalbandbreedte (GB/s) | Delta (GB/s verschil) |
65,536 | 3,455.28 | 3,767.91 | -312.63 |
98,304 | 1,801.88 | 2,011.83 | -209.95 |
131,072 | 1,009.21 | 1,436.50 | -427.28 |
262,144 | 178.52 | 508.65 | -330.13 |
393,216 | 114.76 | 433.91 | -319.15 |
524,288 | 94.81 | 396.90 | -302.09 |
1,048,576 | 71.12 | 293.26 | -222.13 |
1,572,864 | 66.98 | 267.44 | -200.46 |
2,097,152 | 65.08 | 262.50 | -197.42 |
3,145,728 | 63.63 | 253.12 | -189.50 |
Conclusie
Samenvattend is systeem-DRAM een hoeksteen in de architectuur van AI-systemen, vooral bij CPU-inferentie. Het vermogen om snel, betrouwbaar en uitgebreid geheugen te bieden is onmisbaar. Bovendien kan het gebruik van meerdere geheugenkanalen de prestaties van AI-applicaties aanzienlijk verbeteren door de bandbreedte te vergroten, parallelle verwerking mogelijk te maken en knelpunten te minimaliseren. Terwijl AI blijft evolueren, zal het optimaliseren van systeem-DRAM een belangrijk aandachtspunt blijven om de hoogste niveaus van prestaties en efficiëntie te garanderen.
Door AI gegenereerde afbeelding, naar aanleiding van Jordan Ranous
Bovendien versterken de testgegevens dit idee, wat de tastbare voordelen van verbeterde geheugenconfiguraties aantoont. Terwijl we de grenzen van AI en gegevensverwerking verleggen, zal de strategische verbetering van het systeemgeheugen van cruciaal belang zijn bij het ondersteunen van de volgende generatie AI-innovatie en toepassingen in de echte wereld.
Neem contact op met StorageReview
Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed