Home Enterprise Supermicro X13 SuperBlade Review: het alles-in-één AI-apparaat

Supermicro X13 SuperBlade Review: het alles-in-één AI-apparaat

by Jordaan Ranous

Het Supermicro X13 SuperBlade-chassis en GPU-blades zijn een zeer aanpasbare, robuuste keuze, vooral voor middelgrote AI-taken.

Supermicro is een pionier op het gebied van bladeservertechnologie en de SuperBlade-systemen zijn hiervan het bewijs. De introductie van het Supermicro X13 SuperBlade-chassis en blades opent een nieuw hoofdstuk voor de technologie met GPU-compatibele blades en de integratie van de nieuwste Emerald Rapids CPU's en NVIDIA H100 GPU's. Deze verbeteringen zorgen voor uitzonderlijke verwerkingskracht en efficiëntie, waardoor de X13 een ideale kandidaat is voor diverse hoogwaardige toepassingen.

Supermicro X13 SuperBlade-chassis

Ontwerp en specificaties

Het Supermicro X13 SuperBlade-chassis behoudt het vertrouwde 8U-chassisontwerp, bekend om zijn hoge dichtheid en flexibiliteit. Elk chassis ondersteunt maximaal 20 blades, waarbij het nieuwste aanbod aanzienlijk is verbeterd door de integratie van Emerald Rapids CPU's en NVIDIA H100 GPU's. Deze krachtige combinatie belooft ongekende rekenmogelijkheden te bieden. Bovendien beschikt het chassis over 200G InfiniBand- en 25G Ethernet-communicatie, wat zorgt voor snelle gegevensoverdracht en netwerkefficiëntie.

Populaire gebruiksscenario's:

  1. gegevens Analytics: Met de geavanceerde verwerkingskracht van de Emerald Rapids CPU's en de versnelde rekenmogelijkheden van de NVIDIA H100 GPU's zijn de X13 SuperBlades uitzonderlijk goed geschikt voor veeleisende data-analysetaken. Deze taken omvatten real-time dataverwerking en uitgebreide datamining-operaties, die steeds belangrijker worden in de huidige datagestuurde wereld.
  2. Kunstmatige intelligentie en machine learning: De X13 SuperBlades bieden de nodige paardenkracht voor AI- en machine learning-modellen, met name deep learning-algoritmen die aanzienlijke rekenbronnen vereisen.
  3. Hoogwaardig computergebruik: Wetenschappelijke simulaties, medisch onderzoek en geavanceerde computertaken in de techniek zullen aanzienlijk profiteren van de verbeterde prestaties van de X13, waardoor het een uitstekende keuze is voor krachtige computertoepassingen.
  4. Cloud Computing: De verhoogde dichtheid en prestaties van de blades maken ze ideaal voor cloudserviceproviders. Ze kunnen veel cloudgebaseerde applicaties en services aan, inclusief applicaties en services die intensieve virtualisatie en containerisatie vereisen.
  5. Netwerken en communicatie: Uitgerust met 200G InfiniBand- en 25G Ethernet-communicatie blinkt de X13 uit in toepassingen met hoge bandbreedte en lage latentie, waardoor hij geschikt is voor veeleisende netwerk- en communicatietaken. Dankzij het externe netwerk kan de SuperBlade als hub fungeren en InfiniBand- en Ethernet-communicatie bieden met traditionele niet-bladeservers in hetzelfde rack of datacenter.

In onze door Supermicro geleverde testopstelling hadden we in totaal vijf bladen. Vier waren uitgerust met een enkele processor en de capaciteit voor een PCIe-accelerator, in ons geval vier NVIDIA H100's en één dual-processorblade. We zullen vervolgen met een volgende recensie van de computerblade. De lengte van deze recensie maakte de opname ervan een beetje overdreven.

Supermicro X13 SuperBlade-gegevensblad

Bestanddeel Omschrijving
Bijlage 1x SBE-820H2-630
PSW 6x PWS-3K01A-BR
Ventilator 2x PWS-DF006-2F
BBP 1x AOC-MB-BBP01-P
CMM MBM-CMM-6
IB-schakelaar 1x SBM-IBS-H4020
NL Schakelaar 2x SBM-25G-200
Blade-configuratie
  • SBI-411E-5G:
    • 1x CPU8562Y+
    • 8x MEM-DR532L-CL01-ER48
    • 2x HDS-SMN0-MZ1L23T8HBLAA7 (Samsung 3840G M.2-schijf)
    • 1x GPU-NVH100-80
    • 1x SNK-P0088P
    • 1x AOC-IBH-X6HS-P
  • SBI-411E-5G: [Hetzelfde als hierboven]
  • SBI-411E-5G: [Hetzelfde als hierboven, met Micron 480G M.2-drive]
  • SBI-411E-5G: [Hetzelfde als hierboven, met Micron 480G M.2-drive]
  • SBI-421E-5T3N:
    • 2x 8562Y+
    • 512Gb DDR5
    • 1x HDS-MMN-MTFDKBA480TFR1BC (Micron 480G M.2-schijf)
    • 1x HDS-MUN-MTFDKCC3T8TDZ1AZ (Micron 3840G U.2-schijf)
    • 2x SNK-P0088P
    • 1x AOC-IBH-X6HS-P

Supermicro X13 GPU SuperBlades

De GPU-blades logenstraffen op het eerste gezicht hun kracht, met een inlaat aan de voorkant, waarbij onze dual-processorblade enkele 2.5″ NVMe-bays heeft in plaats van de GPU.

Supermicro X13 SuperBlade GPU en computerblades

Aan de achterkant bevinden zich een duizelingwekkend aantal pinnen om het blad met het chassis te verbinden en alle stroom en gegevens te vervoeren.

Als we naar binnen kijken, zien we de m.2-opstart-SSD's in de GPU-blade.

Van bovenaf kunnen we de luchtverbijsterende gidsen zien. Let op het verschil tussen een GPU-blade en een Dual CPU-blade. Het GPU-blade-moederbord is identiek aan de Dual CPU, maar alleen de achterste I/O-helft ervan.

Aan de voorkant kunnen we de verschillende implementaties beginnen te zien. De GPU-blade heeft een PCIe-riser, terwijl de CPU-blade een U.2 PCIe-riser heeft en verschillende componenten in de PCIe-slots kan huisvesten. Het chassis is ontworpen voor optimale koeling van passieve GPU's door eerst verse lucht in de GPU te trekken.

Verderop, beginnend aan de achterkant van het chassis, kunnen we de PSU’s en netwerkconnectiviteit zien. De bovenste schakelaar over de volledige breedte is voor de 200Gbit NVIDIA Quantum InfiniBand. De grootste van de twee onderste schakelaars is het 25G ethernet, en de kleine module in het midden is voor de Chassis Management Module.

Supermicro X13 SuperBlade cassis achterzijde

Supermicro X13 SuperBlade-chassisbeheer en -implementatie

Het integreren van een Chassis Management Module (CMM) in Supermicro's SuperBlade X13-chassis biedt een reeks voordelen die verder reiken dan de individuele blades en het hele rack bestrijken, waardoor de algehele efficiëntie en beheersbaarheid van datacenteractiviteiten wordt verhoogd. De CMM fungeert als gecentraliseerd controlepunt en stroomlijnt het beheer van het SuperBlade X13-systeem.

Supermicro X13 SuperBlade-chassisbeheer

Eén enkele ruit voor alle chassisfuncties is van cruciaal belang voor geïntegreerde platforms zoals een blade-chassis. Hoewel de mogelijkheid om individuele blades uit en aan te zetten voor sommigen belangrijk kan zijn, spelen tal van andere functies een waardevolle rol in de dagelijkse beheerroutines.

Supermicro's CMM biedt een centrale landingsplek om het chassis te bewaken, de geïnstalleerde blades te bekijken en de geïntegreerde schakelaars te beheren die aan de achterkant van het chassis zijn geïnstalleerd. Dit out-of-band beheer haalt ook de IP-adressen van apparaten binnen, zodat u vanaf die centrale plek eenvoudig op elk aangesloten apparaat kunt springen.

Het beheer van elke geïnstalleerde blade is vergelijkbaar met dat van een standalone Supermicro-server. Activiteiten zoals BIOS-updates worden uitgevoerd via de BMC, zoals ervaren in a vorig experiment. Deze gecentraliseerde aanpak maakt een snelle implementatie en consistente updates op alle blades mogelijk, zodat elk onderdeel met de nieuwste firmware en instellingen werkt. Een dergelijke uniformiteit is van cruciaal belang voor het handhaven van de systeemstabiliteit en -prestaties, vooral in omgevingen met een hoge computerdichtheid, waar configuratieverschillen tot aanzienlijke inefficiënties kunnen leiden.

De rol van de CMM bij het beheer van de SuperBlade X13 strekt zich uit tot het bewaken en controleren van de gezondheid van het hele rack. Het houdt toezicht op het energieverbruik, de koeling, het netwerk en de systeemstatus en biedt een holistisch beeld van de prestaties van het rack. Dit toezicht is van cruciaal belang bij het identificeren en aanpakken van potentiële problemen voordat ze escaleren, waardoor de downtime wordt geminimaliseerd en een optimale operationele efficiëntie wordt gehandhaafd.

De CMM verzorgt niet alleen het beheer van de serverblades, maar ook het netwerkbeheer via dezelfde enkele interface. Hierdoor kunnen gebruikers eenvoudig de switchbeheerschermen van beide aangesloten switches openen en bekijken, waarbij hun respectievelijke IP-adressen worden weergegeven. De CMM kan ook communiceren met aangrenzende systemen voor grotere implementaties, waardoor een uitgebreid beheerpakket wordt geboden.

In essentie transformeert de CMM het beheer van de SuperBlade X13 van een reeks individuele taken naar een samenhangend, gestroomlijnd proces. Het is vergelijkbaar met het hebben van een commandocentrum dat het beheer van elke blade vereenvoudigt en de algehele prestaties en betrouwbaarheid van het hele rack verbetert. Deze benadering van blade- en rackbeheer is nuttig voor hardwarebeheerteams, vooral in datacenters waar schaalbaarheid, betrouwbaarheid en efficiënt tijdgebruik voorop staan.

Supermicro SuperBlade SBI-411E-5G – NVIDIA H100-prestaties

Op het gebied van high-performance computing is de SuperBlade SBI-411E-5G, met een NVIDIA H100, een veelzijdig en krachtig hulpmiddel voor gedistribueerde training en single-blade inferentie. Deze flexibiliteit komt vooral tot uiting wanneer de rekenbehoeften aanzienlijk fluctueren, zoals in datacenters die wisselende werklasten beheren.

Supermicro X13 SuperBlade - NVIDIA H100 GPU

Gedistribueerde trainingsscenario's

De SuperBlade H100-nodes blinken uit in gedistribueerde training, een proces dat essentieel is voor complexe AI-modellen. Stel je een scenario voor waarin een grootschalig neuraal netwerkmodel wordt getraind op een enorme dataset. De training van het model is verdeeld over meerdere blades, die elk de kracht van de geavanceerde GPU's van de H100 benutten. Deze distributie versnelt het trainingsproces en maakt het mogelijk grotere modellen en onpraktische datasets op afzonderlijke machines te verwerken.

De 200G InfiniBand speelt hier een cruciale rol. De communicatie met hoge bandbreedte en lage latentie is essentieel voor gedistribueerde training, waarbij snelle en efficiënte gegevensuitwisseling tussen blades cruciaal is. Deze connectiviteit zorgt ervoor dat de gegevens- en leerparameters consistent en snel worden gesynchroniseerd op alle blades, waardoor knelpunten die vaak voorkomen bij de verwerking van grote hoeveelheden gegevens worden geminimaliseerd.

Gedistribueerde training in het laboratorium

Gedistribueerde training heeft een revolutie teweeggebracht in de manier waarop we grootschalige machine learning- en deep learning-taken benaderen. Data is koning, en het vermogen om grote hoeveelheden trainingsdata efficiënt te verwerken is al een tijdje het knelpunt. Dit is waar open source-bibliotheken en krachtige hardware, zoals de Supermicro SuperBlade X13 met vier PCIe GPU's, gamechangers worden, vooral wanneer ze zijn verbonden via een supersnel 200G InfiniBand-netwerk.

Open-sourcebibliotheken, zoals TensorFlow en PyTorch, zijn een belangrijk onderdeel geworden van de machine learning-gemeenschap, met ondersteuning en validatie van elke fabrikant. Ze bieden robuuste, flexibele en voortdurend evoluerende raamwerken voor het ontwikkelen en schalen van machine learning-modellen. De rekenvereisten kunnen enorm zijn bij het trainen van complexe modellen, zoals modellen die worden gebruikt bij natuurlijke taalverwerking of computervisie. Dit is waar de SuperBlade X13 in beeld komt.

GPU-compatibele X13 Blade

Het SuperBlade X13-platform staat bekend om zijn computermogelijkheden met hoge dichtheid, waardoor het een uitstekende keuze is voor HPC-omgevingen. Door gebruik te maken van de dubbelbrede, halfhoge SBI-411E-5G-blades uitgerust met H100 PCIe GPU's, ondersteunt de SuperBlade X13 tot 10 GPU's bij luchtkoeling, en tot 20 GPU's met vloeistofkoeling per chassis om enorme parallelle verwerkingstaken uit te voeren . Belangrijk is dat de blades op elk moment opnieuw kunnen worden geconfigureerd, waardoor ze buitengewoon flexibel zijn naarmate de AI-workloads van een bedrijf veranderen.

Door InfiniBand in het chassis te brengen, met extreem lage latentie en hoge doorvoer, kunnen gegevens- en modelparameters voortdurend tussen knooppunten pendelen. Dit hogesnelheidsnetwerk verkort de gegevensoverdrachttijd aanzienlijk, wat vaak een knelpunt is in gedistribueerde systemen, vooral als het gaat om grootschalige datasets en complexe modelarchitecturen.

Het integreren van open-sourcebibliotheken voor gedistribueerde training in deze opzet omvatte verschillende belangrijke stappen. Eerst moesten we geoptimaliseerde containers en bibliotheken selecteren om de GPU-mogelijkheden volledig te benutten. Dit bestaat uit het gebruik van CUDA-compatibele versies van deze bibliotheken, zodat ze direct gebruik kunnen maken van de verwerkingskracht van de GPU. Ten tweede moet InfiniBand worden uitgerust met NCCL (NVIDIA Collective Communications Library), waardoor geoptimaliseerde communicatieroutines worden geboden voor collectieve multi-GPU/multi-node-communicatie.

In de praktijk draait bij het opzetten van een gedistribueerde trainingstaak op dit platform elk knooppunt (in dit geval elke SuperBlade) een deel van het model. De modelparameters worden in realtime tussen de knooppunten gesynchroniseerd, mogelijk gemaakt door de snelheid en lage latentie van het InfiniBand-netwerk. Deze synchronisatie is cruciaal voor de convergentie en nauwkeurigheid van het model.

TensorRT en LLM's

NVIDIA's TensorRT Large Language Model (LLM) vertegenwoordigt een aanzienlijke vooruitgang op het gebied van kunstmatige intelligentie en machinaal leren. TensorRT LLM is ontworpen voor efficiëntie en snelheid en is een cruciaal onderdeel in het ecosysteem van Blade-serversystemen, bekend om zijn uitzonderlijke prestaties bij het verwerken van complexe AI-taken. Het ontwerp komt tegemoet aan de behoeften van technische professionals en IT-beslissers en biedt een robuuste oplossing voor het omgaan met de veeleisende computervereisten van moderne datacenters.

Het technische raamwerk van NVIDIA's TensorRT LLM is gebouwd om het volledige potentieel van AI en deep learning te benutten. Het is ontworpen om neurale netwerkinferentie te optimaliseren, waardoor het een ideale keuze is voor krachtige computeromgevingen. De TensorRT LLM bereikt opmerkelijke efficiëntie door zijn vermogen om getrainde modellen om te zetten in geoptimaliseerde runtime-engines, waardoor de latentie aanzienlijk wordt verminderd en de doorvoer wordt verhoogd. Deze functie komt vooral ten goede aan Blade-serversystemen, waarbij snelle gegevensverwerking en minimale responstijden cruciaal zijn. Bovendien vergroot de compatibiliteit met NVIDIA's uitgebreide assortiment GPU's de veelzijdigheid, waardoor het een schaalbare oplossing wordt in uiteenlopende IT-omgevingen.

Een van de opvallende kenmerken van NVIDIA's TensorRT LLM is de mogelijkheid voor gedistribueerde training. Dit aspect is vooral cruciaal in omgevingen waar grootschalige machine learning-modellen de norm zijn. Dankzij gedistribueerde training kan TensorRT LLM meerdere systemen gebruiken, waardoor de rekenlast efficiënt wordt verdeeld. Dit leidt tot een aanzienlijke vermindering van de trainingstijd voor complexe modellen zonder concessies te doen aan de nauwkeurigheid of prestaties. De mogelijkheid om gedistribueerde training uit te voeren over verschillende knooppunten maakt TensorRT LLM zeer aanpasbaar aan uitgebreide IT-infrastructuren, die vaak te vinden zijn in grote organisaties en onderzoeksfaciliteiten. Bovendien vergemakkelijkt deze gedistribueerde aanpak de verwerking van enorme datasets, een veel voorkomende uitdaging bij geavanceerde AI-projecten, waardoor een robuustere en geavanceerdere ontwikkeling van AI-modellen mogelijk wordt.

De optimalisatie- en krachtige inferentiemogelijkheden van TensorRT LLM zijn bij uitstek geschikt voor het dichte, onderling verbonden karakter van Blade-servers. Door gebruik te maken van TensorRT LLM kunnen Blade-systemen complexe AI-modellen efficiënter uitvoeren, wat leidt tot snellere verwerkingstijden en verminderde latentie. Dit is vooral van cruciaal belang in scenario's waarin realtime data-analyse en besluitvorming essentieel zijn, zoals financiële modellering of diagnostiek in de gezondheidszorg.

Het combineren van de Supermicro SuperBlade met de gedistribueerde trainingsmogelijkheden en het aanpassingsvermogen van TensotRT LLM over meerdere systemen verhoogt de waarde van het asset voor technische professionals en IT-beslissers. Door gebruik te maken van deze krachtige combinatie kunnen organisaties grootschalige AI-projecten efficiënt afhandelen, waardoor een snellere verwerking, verminderde latentie en schaalbare AI-implementaties worden gegarandeerd. Om dit te faciliteren maken we gebruik van het Quantum InfiniBand netwerk binnen het chassis.

Prestatiebenchmark voor single-blade-inferentie met MLPerf

De architectuur van één CPU naar één GPU per knooppunt in de GPU-blades biedt potentiële voordelen voor AI- en data-analyseworkloads, vooral voor deductietaken met één blad. Dit ontwerp biedt een uitgebalanceerde verhouding van verwerkingskracht, waardoor optimaal gebruik van de mogelijkheden van de GPU mogelijk is.

Om de prestaties van Single Blade Inferencing te testen, hebben we MLPerf 3.1 Inference uitgevoerd, zowel offline als op de server. BERT (Bidirectionele Encoder Representaties van Transformers) is een op transformatoren gebaseerd model dat voornamelijk wordt gebruikt voor natuurlijke taalverwerkingstaken zoals het beantwoorden van vragen, taalbegrip en zinsclassificatie. ResNet-50 is een convolutioneel neuraal netwerk (CNN)-model dat veel wordt gebruikt voor beeldclassificatietaken. Het is een variant van het ResNet-model met 50 lagen, bekend om zijn diepe architectuur en toch efficiënte prestaties.

Inferentie met één knooppunt
ResNet-50 – Offline: 46,326.6
ResNet-50 – Server: 47,717.4
BERT K99 – Offline: 3,702.4
BERT K99 – Server: 4,564.11
  • Offlinemodus: deze modus meet de prestaties van een systeem wanneer alle gegevens tegelijkertijd beschikbaar zijn voor verwerking. Het lijkt op batchverwerking, waarbij het systeem een ​​grote dataset in één batch verwerkt. Deze modus is van cruciaal belang voor scenario's waarin latentie geen primaire zorg is, maar doorvoer en efficiëntie wel.
  • Servermodus: De servermodus evalueert daarentegen de prestaties van het systeem in een scenario dat een echte serveromgeving nabootst, waarbij verzoeken één voor één binnenkomen. Deze modus is latentiegevoelig en meet hoe snel het systeem op elk verzoek kan reageren. Het is van cruciaal belang voor realtime toepassingen waarbij onmiddellijke reactie noodzakelijk is, zoals bij webservers of interactieve toepassingen.

Bij het afleiden van taken is de GPU primair verantwoordelijk voor het zware rekenwerk. Door hem te koppelen aan een speciale CPU zorgt het systeem ervoor dat de GPU efficiënt kan werken zonder te worden gehinderd door gedeelde CPU- of platformbronnen. Dit is van cruciaal belang in scenario's voor realtime gegevensverwerking, zoals live videoanalyse of on-the-fly taalvertaling.

Interessant is dat we hebben waargenomen dat deze 1:1 CPU-GPU-verhouding een grotere voorspelbaarheid van de prestaties mogelijk maakt. Elk knooppunt werkt onafhankelijk, waardoor consistente verwerkingstijden worden gegarandeerd en de variabiliteit bij het afleiden van taken wordt verminderd. Deze voorspelbaarheid is van cruciaal belang in omgevingen waar de responstijd van cruciaal belang is.

Over het geheel genomen maximaliseert de één CPU naar één GPU-configuratie in de SuperBlade H100 de effectiviteit van beide componenten. Dit zorgt ervoor dat elk knooppunt optimale prestaties levert voor het infereren van taken, waarbij elk knooppunt onafhankelijke modellen en processen uitvoert. Deze architectuur verbetert het vermogen van het systeem om op efficiënte en betrouwbare wijze te voldoen aan de vereisten voor realtime gegevensverwerking.

Adaptief werklastbeheer

Na alle informatie te hebben overwogen, is het duidelijk dat het SuperBlade-systeem zeer aanpasbaar is. Tijdens piekuren, wanneer de vraag naar inferentie groot is, kunnen er dynamisch meer GPU-compatibele blades worden toegewezen om deze taken uit te voeren, waardoor een efficiënte afhandeling van realtime verzoeken wordt gegarandeerd. Omgekeerd kunnen deze middelen tijdens de daluren worden ingezet om zich te concentreren op het verfijnen van AI-modellen of het verwerken van minder tijdgevoelige taken. Deze flexibiliteit zorgt voor een optimaal gebruik van bronnen, waardoor het SuperBlade-systeem robuust en efficiënt is in het beheren van variërende rekenbelastingen.

Voordelen van 200G NVIDIA Quantum InfiniBand in deze scenario's

Het opnemen van 200G InfiniBand in het SuperBlade H100-systeem verbetert deze scenario's door de ruggengraat te bieden voor snelle gegevensoverdracht. Gedistribueerde training maakt een snellere synchronisatie van gegevens tussen blades mogelijk, wat essentieel is voor het behouden van de consistentie en snelheid van het trainingsproces. Single-blade inferentie zorgt ervoor dat grote datasets snel naar de blade kunnen worden verplaatst voor verwerking, waardoor de latentie wordt verminderd en de doorvoer wordt verhoogd.

Wat is er aan de hand met Quantum InfiniBand?

InfiniBand, een hoeksteen van high-performance computing, is een hogesnelheidsverbindingstechnologie die oorspronkelijk is ontwikkeld om tegemoet te komen aan de steeds toenemende eisen op het gebied van gegevensoverdracht en communicatie binnen supercomputerclusters. Deze zeer gespecialiseerde netwerkoplossing is in de loop der jaren geëvolueerd en biedt een extreem lage latentie en hoge bandbreedte, waardoor deze ideaal is voor het verbinden van servers, opslagsystemen en andere componenten in HPC-omgevingen.

De Supermicro X13-blades die we kregen, waren uitgerust met 200G InfiniBand-netwerken en 25G ethernet. Dit was vooral handig bij het werken aan gedistribueerde training en andere latentie- en data-intensieve taken. Na een paar zeer variabele (en tijdrovende) tijdperken van de hierboven genoemde training, kwamen we tot de conclusie dat we een andere metriek nodig hadden om de real-world teststatistieken van het InfiniBand-netwerk te leveren, verborgen in de talloze pinnen van het bladechassis. Met de extreme variabiliteit van run-to-run finetuning zou het onverantwoord zijn om te proberen de impact, of het gebrek daaraan, van het gebruik van een multi-node systeem als dit voor deze taken te kwantificeren. De resultaten waren meer dan verrassend.

Enter NVIDIA ClusterKit. NVIDIA ClusterKit is een toolkit die is ontworpen om het volledige potentieel van multinode GPU-clusters te testen en AI- en HPC-beoefenaars een interessant pakket tools biedt om de prestaties, efficiëntie en schaalbaarheid van hun werklasten te meten.

We hebben ons gericht op twee belangrijke tools in ClusterKit:

  • Bandbreedtetesten: Bandbreedte is een kritische maatstaf in HPC en weerspiegelt de hoeveelheid gegevens die in een bepaalde tijd via het netwerk kan worden verzonden. We hebben NVIDIA ClusterKit gebruikt om de bidirectionele (duplex) bandbreedte tussen knooppunten in de Supermicro SuperBlade-opstelling te meten. Duplexmetingen zijn essentieel omdat ze het reële scenario weerspiegelen waarin gegevens gelijktijdig in beide richtingen stromen.
  • Latency testen: Latency, of de tijd die een bericht nodig heeft om van het ene punt naar het andere in het netwerk te reizen, is een andere cruciale prestatiemaatstaf. Lage latentie is belangrijk in nauw gekoppelde HPC-applicaties. Het vermogen van NVIDIA ClusterKit om duplexlatencies nauwkeurig te meten, leverde waardevolle inzichten op in de responsiviteit van het InfiniBand-netwerk op de SuperBlades.

SuperBlade InfiniBand en H100 GPU-benchmarkresultaten met ClusterKit

Als we deze sectie ingaan, is het belangrijk om te begrijpen dat elk knooppunt wordt geïdentificeerd door een unieke tag (bijvoorbeeld smci-a7, smci-a1, enz.). De aanduiding -1, -3, -5 en -7 is de hostnaam, die de fysieke positie van het blad in het chassis weerspiegelt.

De eerste test richtte zich op het meten van de bidirectionele bandbreedte tussen verschillende knooppunten in het cluster. De test omvatte een berichtgrootte van 8,388,608 bytes, 16 keer herhaald.

GPU directe tests

Eerst bekijken we de GPU Direct-tests. Dit rapporteert de absolute maximale doorvoer van het bladeplatform, waarbij gebruik wordt gemaakt van de nieuwste en beste SDK's en toolkits die beschikbaar waren op het moment van schrijven. Het is belangrijk op te merken dat de test de bandbreedte in duplex rapporteert, wat betekent dat de bandbreedte een totaal is in beide richtingen. De enkele richting zou ongeveer de helft zijn. De belangrijkste conclusie is dat de beperkende factor voor bandbreedte de 200G InfiniBand is, maar zoals we later zullen zien, is dit niet echt reden tot bezorgdheid.

Infiniband ClusterKit-testen op de Supermicro SuperBlades met Divyansh Jain

De onderstaande matrix toont de bidirectionele bandbreedte bij gebruik van GPUDirect.

Bandbreedtematrix MB/s
Rang/knooppunt smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0.0 49,221.6 49,193.6 49,223.6
1 (smci-a1) 49,221.6 0.0 49,219.5 49,142.7
2 (smci-a3) 49,193.6 49,219.5 0.0 49,219.7
3 (smci-a5) 49,223.6 49,142.7 49,219.7 0.0
Latentie uSec

Het volgende was de opmerkelijke latentietestresultaten, die werden gemeten in microseconden. De GPU Direct-tests waren net zo goed als het hebben van meerdere GPU's lokaal op een host.

Rang smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0.00 1.38 1.24 1.38
1 (smci-a1) 1.38 0.00 1.25 1.36
2 (smci-a3) 1.24 1.25 0.00 1.32
3 (smci-a5) 1.38 1.36 1.32 0.00

GPU-buurtests

We gaan verder met de GPU-buurtests. Opnieuw wordt de bandbreedte in duplex gerapporteerd, wat betekent dat de bandbreedte in beide richtingen totaal is. De enkele richting zou ongeveer de helft zijn. Onderstaande matrix toont de bidirectionele bandbreedte tussen de H100-kaarten in elk van de vier knooppunten. Hierbij wordt niet gebruik gemaakt van de versnelling van de GPUDirect-bibliotheken. De aanduiding 1, 3, 5 en 7 is de hostnaam, die de fysieke positie van het blad in het chassis weerspiegelt.

Supermicro X13 SuperBlade InfiniBand-schakelaar

SBS-IBS-H4020 HRD InfiniBand-schakelaar

GPU-buurbandbreedte (MB/s)

De “GPU Neighbor Bandwidth”-test meet de gegevensoverdrachtsnelheid tussen aangrenzende GPU's binnen hetzelfde systeem of knooppunt. Deze statistiek is cruciaal voor toepassingen die frequente gegevensuitwisseling tussen GPU's in de nabijheid vereisen, zoals parallelle verwerkingstaken met meerdere GPU's. Hoe hoger de bandbreedte, hoe sneller de gegevensoverdracht, wat kan leiden tot mogelijk betere prestaties in GPU-intensieve toepassingen.

GPU Bandbreedte (MB/s)
smci-a7 met smci-a1 30,653.9
smci-a3 met smci-a5 30,866.7
Gemiddelde 30,760.3
GPU-geheugenbandbreedte (MB/s)

De “GPU Memory Bandwidth”-test evalueert de snelheid waarmee gegevens door de GPU zelf kunnen worden gelezen uit of opgeslagen in het geheugen van een GPU. Deze bandbreedte is een cruciaal prestatieaspect, vooral voor toepassingen waarbij grote datasets betrokken zijn of die een hoge doorvoer vereisen voor taken als beeldverwerking, simulaties of deep learning. Een hogere geheugenbandbreedte geeft aan dat een GPU beter in staat is grote hoeveelheden gegevens efficiënt te verwerken. Deze test laat ons zien dat de X13 Blades geen problemen hebben met het ondersteunen van de H100 GPU's.

GPU bandbreedte
smci-a7-GPU0 55,546.3
smci-a1-GPU0 55,544.9
smci-a3-GPU0 55,525.5
smci-a5-GPU0 55,549.8
Gemiddelde 55,541.6
GPU-naar-GPU-bandbreedte (MB/s)

Deze test meet de bidirectionele bandbreedte tussen verschillende GPU's. Het is essentieel voor taken waarbij complexe berekeningen betrokken zijn, verdeeld over meerdere GPU's, waarbij de snelheid van gegevensoverdracht tussen de GPU's de algehele verwerkingstijd aanzienlijk kan beïnvloeden. Een hoge GPU-naar-GPU-bandbreedte is gunstig voor het versnellen van multi-GPU-workflows en parallelle computertaken.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7-GPU0 0.0 30,719.8 30,817.7 30,823.8
smci-a1-GPU0 30,719.8 0.0 30,710.0 30,670.9
smci-a3-GPU0 30,817.7 30,710.0 0.0 30,835.1
smci-a5-GPU0 30,823.8 30,670.9 30,835.1 0.0
Gemiddelde 30,762.9
GPU0 naar externe hostbandbreedte (MB/s)

De “GPU0 to Remote Host Bandwidth”-test kwantificeert de gegevensoverdrachtsnelheid tussen de primaire GPU (GPU0) en een extern hostsysteem. Dit is van vitaal belang in gedistribueerde computeromgevingen waar gegevens regelmatig moeten worden verplaatst tussen de hoofd-GPU en andere delen van een netwerksysteem, wat van invloed is op taken zoals gedistribueerde deep learning-training of gegevensanalyse op externe servers.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0.0 30,804.3 30,753.5 30,768.1
smci-a1 30,804.3 0.0 30,732.9 30,679.7
smci-a3 30,753.5 30,732.9 0.0 30,970.8
smci-a5 30,768.1 30,679.7 30,970.8 0.0
GPU-buurlatentie (µsec)

De “GPU Neighbor Latency”-test meet de tijd die een kleine hoeveelheid gegevens nodig heeft om van de ene GPU naar de aangrenzende GPU te reizen. Een lagere latentie is wenselijk, vooral in toepassingen die realtime gegevensverwerking of snelle communicatie tussen GPU's vereisen, zoals realtime weergave of complexe wetenschappelijke simulaties.

GPU Wachttijd
smci-a7 met smci-a1 11.03
smci-a3 met smci-a5 11.01
GPU naar externe hostlatentie (µsec)

De “GPU0 to Remote Host Latency”-test meet de vertraging in de datacommunicatie tussen de primaire GPU (GPU0) en een extern hostsysteem. Deze latentie is een cruciale factor in gedistribueerde computeromgevingen en beïnvloedt het reactievermogen en de efficiëntie van applicaties die afhankelijk zijn van de interactie tussen een GPU en externe systemen, zoals cloudgebaseerd gamen of gegevensverwerking op afstand.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0.00 3.35 3.36 3.33
smci-a1 3.35 0.00 3.41 3.37
smci-a3 3.36 3.41 0.00 3.37
smci-a5 3.33 3.37 3.37 0.00
Gemiddelde 3.37

De NVIDIA ClusterKit-tests onthulden indrukwekkende prestatiegegevens voor het InfiniBand-netwerk op de Supermicro SuperBlades. Uit de duplexbandbreedtetests kwamen hoge gegevensoverdrachtsnelheden naar voren, wat wijst op een efficiënt gebruik van de mogelijkheden van InfiniBand. Op dezelfde manier vertoonden de latentietests minimale vertragingen, wat de geschiktheid van het netwerk voor veeleisende HPC-taken onderstreepte. Dit betekent dat dit platform op hetzelfde niveau presteert als stand-alone systemen en een veel hogere reken- en netwerkdichtheid biedt, alles in een uniforme oplossing.

Zelfstandige GPU-servertesten

Vervolgens hebben we de 4x NVIDIA H100's verplaatst naar een Supermicro 4U AMD EPYC GPU-server die ze alle vier tegelijkertijd kunnen ondersteunen, hebben we gekeken naar het testen van de GPU tot GPU en de latentie. Het is van cruciaal belang om te begrijpen dat we alleen maar proberen het prestatieprofiel van de kaarten op deze server te begrijpen, zonder de cross-blade-communicatie. Hoewel deze 4U-server flexibel is wat betreft de kaarten die hij kan ondersteunen, beschikt hij niet over de extreme configureerbaarheid die het Supermicro X4 SuperBlade-chassis biedt. Uiteraard biedt Supermicro zoals gewoonlijk een oplossing voor elke toepassing, ook voor vloeistofgekoelde socketed GPU's.

Laten we eerst eens kijken naar de peer-to-peer-bandbreedte van de 4 GPU's op één platform.

 Schrijfbandbreedte (GB/s) – Unidirectioneel

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 54.29 39.50 40.51
GPU1 54.60 0.00 40.55 40.22
GPU2 40.60 38.73 0.00 54.03
GPU3 40.99 40.33 53.79 0.00

Leesbandbreedte (GB/s) – Unidirectioneel

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 53.17 39.23 35.69
GPU1 53.70 0.00 36.96 41.02
GPU2 36.28 39.88 0.00 53.32
GPU3 40.40 37.08 53.68 0.00

Belangrijk om op te merken is dat de GPU0- en GPU1-GPU's zich op één NUMA-knooppunt bevinden, en GPU2 en GPU3 op een ander NUMA-knooppunt. Je kunt hier duidelijk de impact zien van het passeren van het NUMA-knooppunt op de prestaties.

Copy Engine (CE) – Schrijflatentie (ons)

Ten slotte het meten van de GPU-naar-GPU-latentie.

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 1.67 1.64 1.64
GPU1 1.57 0.00 1.61 1.61
GPU2 1.66 1.69 0.00 1.65
GPU3 1.65 1.66 1.61 0.00

Zoals verwacht levert het verplaatsen van alle GPU's naar één platform ons een dubbele bandbreedte op vergeleken met de 2G IB-verbindingen van de Blade. Bandbreedte kan hier een overweging zijn voor de toepassing, maar als we het hebben over latentiecijfers, waarbij we werken in de orde van microseconden, is er geen enorme verandering te melden, gaande van een gemiddelde van 200 us GPU naar GPU terwijl alles in één chassis zit, naar slechts 1.6us in de blades bij het passeren van de PCIe Bus, de IB-switch en terug naar de GPU is opmerkelijk. Maar dat is zo niet het volledige verhaal.

Conclusie

De Supermicro X13 SuperBlade, met zijn Emerald Rapids CPU's en NVIDIA H100 GPU's, is een welkome evolutie van wat blade kan zijn. De mogelijkheden strekken zich uit over verschillende rekenintensieve taken, waardoor het een veelzijdige en robuuste oplossing is voor industrieën variërend van data-analyse tot AI en cloud computing. Terwijl de vraag naar high-performance computing blijft groeien, staat de X13 klaar om deze uitdagingen aan te gaan, wat Supermicro's toewijding aan innovatie en uitmuntendheid op het gebied van servertechnologie aantoont.

Alles bij elkaar genomen zijn we vooral geïnteresseerd in dit platform dankzij het unieke en zeer aanpasbare karakter ervan vanuit een holistisch perspectief. Het is belangrijk om de toepassing van het platform te contextualiseren.

Stel je een scenario voor op een onderzoeksafdeling waar je het Supermicro X13 Blade-systeem in je rack hebt voor al je krachtige rekenkracht. U kunt de in het platform ingebouwde gecentraliseerde beheerinfrastructuur gebruiken om niet alleen de blades en het platform zelf te besturen, maar ook als hub voor controle, netwerken en beheer van andere apparatuur. Door een opslagservernest aan te sluiten dat krachtig genoeg is met de SuperBlade's om de data-hongerige GPU's te voeden, kunt u op lijnsnelheid alle bits in uw modellen opnemen. In dit fictieve scenario kunnen we al onze GPU's overdag door verschillende onderzoekers laten gebruiken, en als de tijd daar is, alle blades via de InfiniBand koppelen en ze laten samenwerken.

Uit de bandbreedtetests van de één-op-één-relatie tussen CPU en GPU bleek ook dat je, gegeven een volledig geladen bladechassis, beter kunt presteren dan een enkele server met add-in-kaart-GPU's met het bladesysteem. Met een goed ontworpen gedistribueerde trainingsworkflow zou je prestaties kunnen zien die in wezen net zo goed zijn als, of zelfs beter, dan het hebben van alle GPU's in één knooppunt, maar nu krijg je een platform dat gemakkelijk dubbel werk kan doen, waardoor de initiële GPU-kosten worden gehalveerd . Dankzij de ondersteuning van de nieuwste CPU's, zodra ze geïmplementeerd zijn, kijken we ernaar uit om van HDR InfiniBand naar NDR over te stappen, omdat de SuperBlades dan verder zouden gaan dan de prestaties die je zou kunnen krijgen op een enkel GPU-serverplatform.

Het Supermicro X13 SuperBlade-chassis en GPU-blades zijn een zeer aanpasbare, robuuste keuze voor degenen die evoluerende of regelmatig veranderende AI-behoeften hebben. Door onze langere tijd met het platform kwamen we de behoefte aan DRAM-, CPU- en GPU-veranderingen tegen, of zoals het in de wereld van AI bekend staat, “een andere dag”, allemaal met gemak afgehandeld door het platform. Over het geheel genomen is het platform solide en landt het als een intrigerend en krachtig apparaat voor de AI-ruimte zonder dat er nog veel meer van wordt gevraagd. Gezien de prijs van concurrerende systemen, als je kunt profiteren van de flexibiliteit van een mes, is dit bijna onverslaanbaar.

Supermicro X13 SuperBlade 

Neem contact op met StorageReview

Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed