Supermicro X13 SuperBlade-chassi och GPU-blad är ett mycket anpassningsbart, robust val, speciellt för medelstora AI-uppgifter.
Supermicro har varit en pionjär inom bladserverteknologi, och dess SuperBlade-system fungerar som ett bevis på detta. Introduktionen av Supermicro X13 SuperBlade-chassi och -blad öppnar ett nytt kapitel för tekniken med GPU-aktiverade blad och integrationen av de senaste Emerald Rapids-processorerna och NVIDIA H100 GPU:erna. Dessa framsteg ger exceptionell processorkraft och effektivitet, vilket gör X13 till en idealisk kandidat för olika avancerade applikationer.
Design och specifikationer
Supermicro X13 SuperBlade-chassit behåller den välbekanta 8U-chassidesignen, känd för sin höga densitet och flexibilitet. Varje chassi stöder upp till 20 blad, med det senaste erbjudandet avsevärt förbättrat genom att integrera Emerald Rapids-processorer och NVIDIA H100 GPU:er. Denna kraftfulla kombination lovar att leverera oöverträffade beräkningsmöjligheter. Dessutom har chassit 200G InfiniBand och 25G Ethernet-kommunikation, vilket säkerställer höghastighetsdataöverföring och nätverkseffektivitet.
Populära användningsfall:
- Data Analytics: Med den avancerade processorkraften hos Emerald Rapids-processorerna och de accelererade beräkningsmöjligheterna hos NVIDIA H100 GPU:erna är X13 SuperBlades exceptionellt väl lämpade för krävande dataanalysuppgifter. Dessa uppgifter inkluderar databearbetning i realtid och omfattande datautvinning, som blir allt viktigare i dagens datadrivna värld.
- Konstgjord intelligens och maskininlärning: X13 SuperBlades erbjuder de nödvändiga hästkrafterna för AI- och maskininlärningsmodeller, särskilt algoritmer för djupinlärning som kräver betydande beräkningsresurser.
- High-performance computing: Vetenskapliga simuleringar, medicinsk forskning och avancerade beräkningsuppgifter inom teknik kommer att dra stor nytta av X13:s förbättrade prestanda, vilket gör den till ett utmärkt val för högpresterande datortillämpningar.
- Cloud Computing: Bladens ökade densitet och prestanda gör dem idealiska för molntjänstleverantörer. De kan hantera många molnbaserade applikationer och tjänster, inklusive de som kräver intensiv virtualisering och containerisering.
- Nätverk och kommunikation: Utrustad med 200G InfiniBand och 25G Ethernet-kommunikation, utmärker sig X13 i högbandbredd, låg latensapplikationer, vilket gör den lämplig för krävande nätverks- och kommunikationsuppgifter. Tack vare sitt externa nätverk kan SuperBlade fungera som ett nav och tillhandahålla InfiniBand- och Ethernet-kommunikation med traditionella icke-bladservrar i samma rack eller datacenter.
I vår testrigg från Supermicro hade vi totalt fem blad. Fyra var utrustade med en enda processor och kapacitet att ta en PCIe-accelerator, i vårt fall fyra NVIDIA H100 och ett dubbelprocessorblad. Vi kommer att följa upp med en efterföljande granskning av beräkningsbladet, längden på denna recension gjorde dess inkludering lite överdriven.
Supermicro X13 SuperBlade Datablad
Komponent | Beskrivning |
---|---|
Kapsling | 1x SBE-820H2-630 |
PSW | 6x PWS-3K01A-BR |
Fläkt | 2x PWS-DF006-2F |
BBP | 1x AOC-MB-BBP01-P |
CMM | MBM-CMM-6 |
IB Switch | 1x SBM-IBS-H4020 |
SV Switch | 2x SBM-25G-200 |
Blade Config |
|
Supermicro X13 GPU SuperBlades
GPU-bladen vid första anblicken motsäger sin kraft, med ett intag på framsidan, med vårt dubbla processorblad som har några 2.5-tums NVMe-fack i stället för GPU:n.
Runt baksidan finns ett bländande antal stift för att ansluta bladet till chassit, som bär all kraft och data.
När vi tittar inuti kan vi se m.2 boot SSD:erna i GPU-bladet.
Från ovan kan vi se de luftförbryllande guiderna. Lägg märke till skillnaden mellan ett GPU-blad och ett Dual CPU-blad. GPU-bladets moderkort är identiskt med Dual CPU, men bara den bakre I/O-halvan.
Runt framsidan kan vi börja se de olika implementeringarna. GPU-bladet har ett PCIe-steg, medan CPU-bladet har ett U.2 PCIe-steg och kan rymma olika komponenter i sina PCIe-platser. Chassit är designat för optimal kylning av passiva GPU:er genom att först dra in frisk luft i GPU:n.
Går vi vidare, med början på baksidan av chassit, kan vi se PSU:erna och nätverksanslutningen. Den översta fullbreddsswitchen är för 200Gbit NVIDIA Quantum InfiniBand. Den största av de två nedre switcharna är 25G Ethernet, och den lilla modulen i mitten är för Chassis Management Module.
Supermicro X13 SuperBlade chassihantering och distribution
Att integrera en chassihanteringsmodul (CMM) i Supermicros SuperBlade X13-chassi erbjuder en rad fördelar som sträcker sig utöver de enskilda bladen för att omfatta hela racket, vilket höjer den övergripande effektiviteten och hanterbarheten av datacenterdrift. CMM fungerar som en centraliserad kontrollpunkt som effektiviserar hanteringen av SuperBlade X13-systemet.
En enda glasruta för alla chassifunktioner är avgörande för integrerade plattformar som ett bladchassi. Även om förmågan att driva individuella blad kan vara viktig för vissa, spelar en mängd andra funktioner en värdefull roll i dagliga förvaltningsrutiner.
Supermicros CMM erbjuder en central landningsplats för att övervaka chassit, se de installerade bladen och hantera de integrerade omkopplarna som är installerade baktill på chassit. Denna out-of-band-hantering drar också in enhetens IP-adresser, så från den centrala platsen kan du enkelt hoppa in i varje ansluten enhet.
Hanteringen av varje installerat blad liknar den för en fristående Supermicro-server. Aktiviteter som BIOS-uppdateringar utförs genom dess BMC, som erfaren i en tidigare experiment. Detta centraliserade tillvägagångssätt möjliggör snabb distribution och konsekventa uppdateringar över alla blad, vilket säkerställer att varje komponent fungerar med den senaste firmware och inställningar. Sådan enhetlighet är avgörande för att upprätthålla systemstabilitet och prestanda, särskilt i täta datormiljöer där konfigurationsskillnader kan leda till betydande ineffektivitet.
CMM:s roll i att hantera SuperBlade X13 sträcker sig till att övervaka och kontrollera tillståndet för hela racket. Den övervakar strömförbrukning, kylning, nätverk och systemtillstånd, vilket ger en helhetsbild av rackets prestanda. Denna övervakning är avgörande för att identifiera och åtgärda potentiella problem innan de eskalerar, minimera stilleståndstiden och bibehålla optimal drifteffektivitet.
CMM hanterar, förutom att hantera serverbladen, även nätverkshantering via samma enda gränssnitt. Detta gör det möjligt för användare att enkelt komma åt och se switchhanteringsskärmarna för båda anslutna switchar, med deras respektive IP-adresser visade. CMM kan också kommunicera med närliggande system för större distributioner, vilket ger ett omfattande hanteringspaket.
I huvudsak förvandlar CMM hanteringen av SuperBlade X13 från en serie individuella uppgifter till en sammanhållen, strömlinjeformad process. Det liknar att ha en kommandocentral som förenklar hanteringen av varje blad och förbättrar hela rackets övergripande prestanda och tillförlitlighet. Detta tillvägagångssätt för hantering av blad och rack är till hjälp för hårdvaruhanteringsteam, särskilt i datacenter där skalbarhet, tillförlitlighet och effektiv användning av tid är av största vikt.
Supermicro SuperBlade SBI-411E-5G – NVIDIA H100 Performance
Inom högpresterande datoranvändning är SuperBlade SBI-411E-5G, med en NVIDIA H100, ett mångsidigt och kraftfullt verktyg för distribuerad träning och enkelblads slutledning. Denna flexibilitet är särskilt tydlig när beräkningskraven fluktuerar kraftigt, till exempel i datacenter som hanterar varierande arbetsbelastningar.
Distribuerade träningsscenarier
SuperBlade H100-noderna utmärker sig i distribuerad träning, en process som är avgörande för komplexa AI-modeller. Föreställ dig ett scenario där en storskalig neural nätverksmodell tränas på ett stort dataset. Modellens träning är fördelad över flera blad som var och en utnyttjar kraften i H100:s avancerade GPU:er. Denna distribution påskyndar utbildningsprocessen och möjliggör hantering av större modeller och opraktiska datauppsättningar på enstaka maskiner.
200G InfiniBand spelar en avgörande roll här. Dess kommunikation med hög bandbredd och låg latens är avgörande för distribuerad träning, där snabbt och effektivt datautbyte mellan bladen är avgörande. Denna anslutning säkerställer att data och inlärningsparametrar konsekvent och snabbt synkroniseras över alla blad, vilket minimerar flaskhalsar som ofta stöter på vid databehandling med stora volymer.
Distribuerad utbildning i labbet
Distribuerad utbildning har revolutionerat hur vi närmar oss storskalig maskininlärning och djupinlärningsuppgifter. Data är kung, och förmågan att bearbeta enorma mängder träningsdata effektivt har varit flaskhalsen under en tid. Det är här bibliotek med öppen källkod och kraftfull hårdvara, som Supermicro SuperBlade X13 med fyra PCIe GPU:er, blir spelväxlare, särskilt när de är anslutna via ett höghastighets 200G InfiniBand-nätverk.
Bibliotek med öppen källkod, som TensorFlow och PyTorch, har blivit häftklammer i maskininlärningsgemenskapen, med stöd och validering från alla tillverkare. De erbjuder robusta, flexibla och ständigt utvecklande ramverk för att utveckla och skala maskininlärningsmodeller. Beräkningskravet kan vara häpnadsväckande när man tränar komplexa modeller, som de som används i naturlig språkbehandling eller datorseende. Det är här SuperBlade X13 kliver in.
SuperBlade X13-plattformen är välkänd för sina högdensitetsdatorfunktioner, vilket gör den till ett utmärkt val för HPC-miljöer. Genom att använda de dubbel breda, halvhöga SBI-411E-5G-bladen utrustade med H100 PCIe GPU:er, stöder SuperBlade X13 upp till 10 GPU:er på luftkylning och upp till 20 GPU:er med vätskekylning per chassi för att hantera enorma parallella bearbetningsuppgifter . Viktigt är att bladen kan konfigureras om när som helst, vilket gör dem extremt flexibla när ett företags AI-arbetsbelastning förändras.
Att ta in InfiniBand i chassit, med extremt låg latens och hög genomströmning, hjälper data och modellparametrar att ständigt växla mellan noder. Detta höghastighetsnätverk minskar dataöverföringstiden avsevärt, ofta en flaskhals i distribuerade system, särskilt när man hanterar storskaliga datamängder och komplexa modellarkitekturer.
Att integrera bibliotek med öppen källkod för distribuerad utbildning i denna installation innebar flera viktiga steg. Först var vi tvungna att välja optimerade behållare och bibliotek för att fullt ut utnyttja GPU-kapaciteten. Detta består av att använda CUDA-aktiverade versioner av dessa bibliotek, vilket säkerställer att de direkt kan utnyttja GPU:s processorkraft. För det andra måste InfiniBand utnyttjas med NCCL (NVIDIA Collective Communications Library), vilket ger optimerade kommunikationsrutiner för kollektiv multi-GPU/multinodkommunikation.
I praktiken, när du ställer in en distribuerad träningsuppgift på den här plattformen, kör varje nod (i detta fall varje SuperBlade) en del av modellen. Modellparametrarna synkroniseras över noderna i realtid, vilket underlättas av hastigheten och låg latens hos InfiniBand-nätverket. Denna synkronisering är avgörande för modellens konvergens och noggrannhet.
TensorRT och LLM's
NVIDIAs TensorRT Large Language Model (LLM) representerar ett betydande framsteg inom artificiell intelligens och maskininlärning. TensorRT LLM är konstruerad för effektivitet och hastighet en central komponent i ekosystemet för bladserversystem, känd för sin exceptionella prestanda vid bearbetning av komplexa AI-uppgifter. Dess design tillgodoser behoven hos tekniska proffs och IT-beslutsfattare, och erbjuder en robust lösning för att hantera de krävande beräkningskraven från moderna datacenter.
Det tekniska ramverket för NVIDIAs TensorRT LLM är byggt för att utnyttja den fulla potentialen av AI och djupinlärning. Den är utformad för att optimera neurala nätverksslutningar, vilket gör den till ett idealiskt val för högpresterande datormiljöer. TensorRT LLM uppnår anmärkningsvärd effektivitet genom sin förmåga att konvertera tränade modeller till optimerade körtidsmotorer, vilket avsevärt minskar latensen och ökar genomströmningen. Denna funktion gynnar främst Blade-serversystem, där snabb databehandling och minimala svarstider är avgörande. Dessutom förbättrar dess kompatibilitet med NVIDIAs omfattande utbud av GPU: er dess mångsidighet, vilket gör den till en skalbar lösning i olika IT-inställningar.
En av de utmärkande egenskaperna hos NVIDIAs TensorRT LLM är dess förmåga för distribuerad träning. Denna aspekt är särskilt avgörande i miljöer där storskaliga maskininlärningsmodeller är normen. Distribuerad utbildning gör att TensorRT LLM kan utnyttja flera system och distribuera beräkningsbelastningen effektivt. Detta leder till en betydande minskning av träningstiden för komplexa modeller utan att kompromissa med noggrannhet eller prestanda. Möjligheten att utföra distribuerad utbildning över olika noder gör TensorRT LLM mycket anpassningsbar till expansiva IT-infrastrukturer, som ofta finns i stora organisationer och forskningsanläggningar. Dessutom underlättar detta distribuerade tillvägagångssätt hanteringen av massiva datamängder, en vanlig utmaning i avancerade AI-projekt, vilket möjliggör mer robust och sofistikerad AI-modellutveckling.
TensorRT LLM:s optimerings- och högpresterande slutledningsmöjligheter är idealiska för bladservrarnas täta, sammankopplade karaktär. Genom att utnyttja TensorRT LLM kan Blade-system exekvera komplexa AI-modeller mer effektivt, vilket leder till snabbare bearbetningstider och minskad latens. Detta är särskilt viktigt i scenarier där realtidsdataanalys och beslutsfattande är väsentliga, såsom finansiell modellering eller sjukvårdsdiagnostik.
Genom att kombinera Supermicro SuperBlade med de distribuerade träningsmöjligheterna och anpassningsförmågan hos TensotRT LLM över flera system ökar tillgångens värde för tekniska proffs och IT-beslutsfattare. Genom att utnyttja denna kraftfulla kombination kan organisationer effektivt hantera storskaliga AI-projekt, vilket säkerställer snabbare bearbetning, minskad latens och skalbar AI-distribution. För att underlätta detta använder vi Quantum InfiniBand-nätverket i chassit.
Single Blade Inferencing Performance Benchmark med MLPerf
Arkitekturen med en CPU till en GPU per nod i GPU-bladen erbjuder potentiella fördelar för AI- och dataanalysarbetsbelastningar, särskilt för slutledningsuppgifter med ett blad. Denna design ger ett balanserat förhållande mellan processorkraft, vilket möjliggör optimalt utnyttjande av grafikprocessorns kapacitet.
För att testa Single Blade Inferencing-prestandan körde vi MLPerf 3.1 Inference, både offline och server. BERT (Bidirectional Encoder Representations from Transformers) är en transformatorbaserad modell som i första hand används för bearbetningsuppgifter för naturligt språk, som svar på frågor, språkförståelse och meningsklassificering. ResNet-50 är en CNN-modell (convolutional neural network) som ofta används för bildklassificeringsuppgifter. Det är en variant av ResNet-modellen med 50 lager, känd för sin djupa arkitektur men ändå effektiva prestanda.
Enkel nod slutledning | |
---|---|
ResNet-50 – Offline: | 46,326.6 |
ResNet-50 – Server: | 47,717.4 |
BERT K99 – Offline: | 3,702.4 |
BERT K99 – Server: | 4,564.11 |
- Offlineläge: Detta läge mäter ett systems prestanda när all data är tillgänglig för bearbetning samtidigt. Det liknar batchbearbetning, där systemet bearbetar en stor datamängd i en enda batch. Det här läget är avgörande för scenarier där latens inte är ett primärt problem, men genomströmning och effektivitet är det.
- Serverläge: Däremot utvärderar serverläget systemets prestanda i ett scenario som efterliknar en verklig servermiljö, där förfrågningar kommer in en i taget. Det här läget är latenskänsligt och mäter hur snabbt systemet kan svara på varje begäran. Det är avgörande för realtidsapplikationer där omedelbar respons är nödvändig, till exempel i webbservrar eller interaktiva applikationer.
I slutledningsuppgifter är GPU:n primärt ansvarig för de beräkningsmässiga tunga lyften. Genom att para ihop den med en dedikerad CPU säkerställer systemet att GPU:n kan fungera effektivt utan att bli flaskhalsad av delade CPU- eller plattformsresurser. Detta är avgörande i realtidsscenarier för databearbetning som livevideoanalys eller direktöversättning av språk.
Intressant nog observerade vi att detta 1:1 CPU-till-GPU-förhållande möjliggör större förutsägbarhet i prestanda. Varje nod fungerar oberoende, vilket säkerställer konsekventa behandlingstider och minskar variationen i slutledningsuppgifter. Denna förutsägbarhet är avgörande i miljöer där responstiden är avgörande.
Sammantaget maximerar en CPU till en GPU-konfiguration i SuperBlade H100 effektiviteten hos båda komponenterna. Detta säkerställer att varje nod levererar optimal prestanda för slutledningsuppgifter, där varje nod arbetar med oberoende modeller och processer. Denna arkitektur förbättrar systemets förmåga att hantera databehandlingskrav i realtid effektivt och tillförlitligt.
Adaptiv arbetsbelastningshantering
Efter att ha övervägt all information är det uppenbart att SuperBlade-systemet är mycket anpassningsbart. Under rusningstid, när efterfrågan på inferencing är hög, kan fler GPU-aktiverade blad tilldelas dynamiskt för att hantera dessa uppgifter, vilket säkerställer effektiv hantering av realtidsförfrågningar. Omvänt, under lågtrafik, kan dessa resurser flyttas till att fokusera på att finjustera AI-modeller eller bearbeta mindre tidskänsliga uppgifter. Denna flexibilitet möjliggör optimalt utnyttjande av resurser, vilket säkerställer att SuperBlade-systemet är robust och effektivt för att hantera varierande beräkningsbelastningar.
Fördelar med 200G NVIDIA Quantum InfiniBand i dessa scenarier
Att inkludera 200G InfiniBand i SuperBlade H100-systemet förbättrar dessa scenarier genom att tillhandahålla stommen för höghastighetsdataöverföring. Distribuerad träning möjliggör snabbare synkronisering av data över bladen, vilket är viktigt för att bibehålla konsistensen och hastigheten i träningsprocessen. Enkelblads-inferencing säkerställer att stora datamängder snabbt kan flyttas till bladet för bearbetning, vilket minskar latensen och ökar genomströmningen.
Vad är det med Quantum InfiniBand?
InfiniBand, en hörnsten inom högpresterande datoranvändning, är en höghastighetsteknologi för sammankoppling som ursprungligen utvecklades för att möta de ständigt ökande kraven på dataöverföring och kommunikation inom superdatorkluster. Denna mycket specialiserade nätverkslösning har utvecklats under åren och erbjuder extremt låg latens och hög bandbredd, vilket gör den idealisk för att ansluta servrar, lagringssystem och andra komponenter i HPC-miljöer.
Supermicro X13-bladen som vi skickades var utrustade med 200G InfiniBand-nätverk och 25G Ethernet. Detta var särskilt användbart när man arbetade med distribuerad utbildning och andra latens- och dataintensiva uppgifter. Efter några mycket varierande (och tidskrävande) epoker av utbildningen som nämns ovan, bestämde vi oss för att vi behövde ett annat mått för att tillhandahålla InfiniBand-nätverkets verkliga testmått gömda i bladchassits otaliga stift. Med den extrema variationen av run-to-run finjustering skulle det vara oansvarigt att försöka kvantifiera effekten, eller bristen på sådan, av att använda ett multi-nodsystem som detta för dessa uppgifter. Resultaten var mer än överraskande.
ange NVIDIA ClusterKit. NVIDIA ClusterKit är en verktygslåda utformad för att testa den fulla potentialen hos multinode GPU-kluster, och erbjuder AI- och HPC-utövare en intressant uppsättning verktyg för att mäta deras arbetsbelastningars prestanda, effektivitet och skalbarhet.
Vi fokuserade på två nyckelverktyg i ClusterKit:
- Bandbreddstestning: Bandbredd är ett kritiskt mått i HPC, som återspeglar mängden data som kan överföras över nätverket under en given tid. Vi använde NVIDIA ClusterKit för att mäta den dubbelriktade (duplex) bandbredden mellan noder i Supermicro SuperBlade-inställningen. Duplexmätningar är viktiga eftersom de återspeglar det verkliga scenariot där data flödar samtidigt i båda riktningarna.
- Latenstestning: Latens, eller den tid det tar för ett meddelande att färdas från en punkt till en annan i nätverket, är ett annat avgörande prestandamått. Låg latens är signifikant i tätt kopplade HPC-tillämpningar. NVIDIA ClusterKits förmåga att noggrant mäta duplexfördröjningar gav värdefulla insikter om lyhördheten hos InfiniBand-nätverket på SuperBlades.
SuperBlade InfiniBand och H100 GPU benchmarking-resultat med ClusterKit
När vi går in på det här avsnittet är det viktigt att förstå att varje nod identifieras av en unik tagg (t.ex. smci-a7, smci-a1, etc.). Beteckningen -1, -3, -5 och -7 är värdnamnet, vilket återspeglar bladets fysiska position i chassit.
Det första testet fokuserade på att mäta den dubbelriktade bandbredden mellan olika noder i klustret. Testet involverade en meddelandestorlek på 8,388,608 16 XNUMX byte, itererad XNUMX gånger.
GPU direkta tester
Först tar vi en titt på GPU Direct-testerna. Detta rapporterar den absoluta maximala genomströmningen av bladplattformen, med användning av alla de senaste och bästa SDK:erna och verktygssatserna som finns tillgängliga i skrivande stund. Det är viktigt att notera att testet rapporterar bandbredden i duplex, vilket betyder att bandbredden är en total i båda riktningarna. Enstaka riktningen skulle vara ungefär hälften. Det viktigaste är att den begränsande faktorn för bandbredd är 200G InfiniBand, men som vi kommer att se senare är detta inte mycket anledning till oro.
Matrisen nedan visar den dubbelriktade bandbredden med GPUDirect.
Bandbreddsmatrix MB/s
Rank/Nod | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
0 (smci-a7) | 0.0 | 49,221.6 | 49,193.6 | 49,223.6 |
1 (smci-a1) | 49,221.6 | 0.0 | 49,219.5 | 49,142.7 |
2 (smci-a3) | 49,193.6 | 49,219.5 | 0.0 | 49,219.7 |
3 (smci-a5) | 49,223.6 | 49,142.7 | 49,219.7 | 0.0 |
Latens uSec
Nästa var anmärkningsvärda latenstestresultat, som mättes i mikrosekunder. GPU Direct-testerna var lika bra som att ha flera GPU:s lokala till en värd.
Rang | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
0 (smci-a7) | 0.00 | 1.38 | 1.24 | 1.38 |
1 (smci-a1) | 1.38 | 0.00 | 1.25 | 1.36 |
2 (smci-a3) | 1.24 | 1.25 | 0.00 | 1.32 |
3 (smci-a5) | 1.38 | 1.36 | 1.32 | 0.00 |
GPU granntest
Går vi vidare till GPU-granntesterna, återigen rapporteras bandbredd i duplex, vilket betyder att bandbredden är total i båda riktningarna. Enstaka riktningen skulle vara ungefär hälften. Denna matris nedan visar den dubbelriktade bandbredden mellan H100-korten i var och en av de fyra noderna. Detta använder inte accelerationen av GPUDirect-biblioteken. Beteckningen 1, 3, 5 och 7 är värdnamnet, vilket återspeglar bladets fysiska position i chassit.
GPU Neighbor Bandwidth (MB/s)
Testet "GPU Neighbor Bandwidth" mäter dataöverföringshastigheten mellan angränsande GPU:er inom samma system eller nod. Detta mått är avgörande för applikationer som kräver frekventa datautbyten mellan GPU:er i närheten, till exempel parallella bearbetningsuppgifter med flera GPU. Ju högre bandbredd desto snabbare dataöverföring, vilket leder till potentiellt förbättrad prestanda i GPU-intensiva applikationer.
GPU | Bandbredd (MB/s) |
---|---|
smci-a7 med smci-a1 | 30,653.9 |
smci-a3 med smci-a5 | 30,866.7 |
Genomsnitt | 30,760.3 |
GPU-minnesbandbredd (MB/s)
Testet "GPU Memory Bandwidth" utvärderar hastigheten med vilken data kan läsas från eller lagras i en GPU:s minne av GPU:n själv. Denna bandbredd är en kritisk prestandaaspekt, särskilt för applikationer som involverar stora datamängder eller kräver hög genomströmning för uppgifter som bildbehandling, simuleringar eller djupinlärning. Högre minnesbandbredd indikerar en GPU:s bättre förmåga att hantera stora datamängder effektivt. Detta test visar oss att X13-bladen inte har några problem med att upprätthålla H100 GPU:erna.
GPU | Bandbredd |
---|---|
smci-a7-GPU0 | 55,546.3 |
smci-a1-GPU0 | 55,544.9 |
smci-a3-GPU0 | 55,525.5 |
smci-a5-GPU0 | 55,549.8 |
Genomsnitt | 55,541.6 |
GPU-till-GPU-bandbredd (MB/s)
Detta test mäter den dubbelriktade bandbredden mellan olika GPU:er. Det är viktigt för uppgifter som involverar komplexa beräkningar fördelade över flera GPU:er, där hastigheten på dataöverföringen mellan GPU:erna kan påverka den totala behandlingstiden avsevärt. Hög GPU-till-GPU-bandbredd är fördelaktigt för att accelerera multi-GPU-arbetsflöden och parallella datoruppgifter.
GPU | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
smci-a7-GPU0 | 0.0 | 30,719.8 | 30,817.7 | 30,823.8 |
smci-a1-GPU0 | 30,719.8 | 0.0 | 30,710.0 | 30,670.9 |
smci-a3-GPU0 | 30,817.7 | 30,710.0 | 0.0 | 30,835.1 |
smci-a5-GPU0 | 30,823.8 | 30,670.9 | 30,835.1 | 0.0 |
Genomsnitt | 30,762.9 |
GPU0 till fjärrvärdbandbredd (MB/s)
Testet "GPU0 till fjärrvärdbandbredd" kvantifierar dataöverföringshastigheten mellan den primära GPU:n (GPU0) och ett fjärrvärdsystem. Detta är viktigt i distribuerade datormiljöer där data ofta måste flyttas mellan huvud-GPU:n och andra delar av ett nätverkssystem, vilket påverkar uppgifter som distribuerad djupinlärning eller dataanalys på fjärrservrar.
GPU | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
smci-a7 | 0.0 | 30,804.3 | 30,753.5 | 30,768.1 |
smci-a1 | 30,804.3 | 0.0 | 30,732.9 | 30,679.7 |
smci-a3 | 30,753.5 | 30,732.9 | 0.0 | 30,970.8 |
smci-a5 | 30,768.1 | 30,679.7 | 30,970.8 | 0.0 |
GPU Neighbor Latency (µsec)
Testet "GPU Neighbor Latency" mäter den tid det tar för en liten mängd data att färdas från en GPU till dess närliggande GPU. Lägre latens är önskvärt, särskilt i applikationer som kräver databehandling i realtid eller höghastighetskommunikation mellan GPU:er, såsom realtidsrendering eller komplexa vetenskapliga simuleringar.
GPU | Latens |
---|---|
smci-a7 med smci-a1 | 11.03 |
smci-a3 med smci-a5 | 11.01 |
GPU till Remote Host Latency (µsec)
Testet "GPU0 till Remote Host Latency" mäter fördröjningen i datakommunikation mellan den primära GPU:n (GPU0) och ett fjärrvärdsystem. Denna latens är en kritisk faktor i distribuerade datormiljöer, och påverkar lyhördheten och effektiviteten hos applikationer som är beroende av interaktionen mellan en GPU och fjärrsystem, såsom molnbaserat spel eller fjärrdatabehandling.
GPU | smci-a7 | smci-a1 | smci-a3 | smci-a5 |
---|---|---|---|---|
smci-a7 | 0.00 | 3.35 | 3.36 | 3.33 |
smci-a1 | 3.35 | 0.00 | 3.41 | 3.37 |
smci-a3 | 3.36 | 3.41 | 0.00 | 3.37 |
smci-a5 | 3.33 | 3.37 | 3.37 | 0.00 |
Genomsnitt | 3.37 |
NVIDIA ClusterKit-testerna avslöjade imponerande prestandamått för InfiniBand-nätverket på Supermicro SuperBlades. Duplexbandbreddstesterna avslöjade höga dataöverföringshastigheter, vilket tyder på ett effektivt utnyttjande av InfiniBands möjligheter. På samma sätt visade latenstesterna minimala förseningar, vilket underströk nätverkets lämplighet för krävande HPC-uppgifter. Detta innebär att den här plattformen presterar i nivå med fristående system och erbjuder en mycket högre täthet av beräkningar och nätverk, allt i en enhetlig lösning.
Fristående GPU-servertestning
Därefter flyttade vi 4x NVIDIA H100s till en Supermicro 4U AMD EPYC GPU-server som kan stödja alla 4 samtidigt, vi tittade på att testa GPU till GPU och latens. Det är viktigt att förstå att vi bara försöker förstå prestandaprofilen för korten i den här servern, utan kommunikation över bladen. Även om den här 4U-servern är flexibel när det gäller de kort den kan stödja, har den inte den extrema komponerbarhet som Supermicro X13 SuperBlade-chassit erbjuder. Naturligtvis erbjuder Supermicro som vanligt en lösning för alla applikationer, inklusive vätskekylda GPU:er med sockel också.
Låt oss först titta på peer-to-peer-bandbredden för de 4 GPU:erna i en plattform.
Skrivbandbredd (GB/s) – Enkelriktad
GPU | GPU0 | GPU1 | GPU2 | GPU3 |
---|---|---|---|---|
GPU0 | 0.00 | 54.29 | 39.50 | 40.51 |
GPU1 | 54.60 | 0.00 | 40.55 | 40.22 |
GPU2 | 40.60 | 38.73 | 0.00 | 54.03 |
GPU3 | 40.99 | 40.33 | 53.79 | 0.00 |
Läsbandbredd (GB/s) – Enkelriktad
GPU | GPU0 | GPU1 | GPU2 | GPU3 |
---|---|---|---|---|
GPU0 | 0.00 | 53.17 | 39.23 | 35.69 |
GPU1 | 53.70 | 0.00 | 36.96 | 41.02 |
GPU2 | 36.28 | 39.88 | 0.00 | 53.32 |
GPU3 | 40.40 | 37.08 | 53.68 | 0.00 |
Viktigt att notera här att GPU0 och GPU1 GPU:erna finns på en NUMA-nod och GPU2 och GPU3 finns på en annan NUMA-nod. Du kan tydligt se här effekten av att gå över NUMA-noden på prestanda.
Copy Engine (CE) – Skrivfördröjning (oss)
Slutligen, mätning av GPU till GPU-latens.
GPU | GPU0 | GPU1 | GPU2 | GPU3 |
---|---|---|---|---|
GPU0 | 0.00 | 1.67 | 1.64 | 1.64 |
GPU1 | 1.57 | 0.00 | 1.61 | 1.61 |
GPU2 | 1.66 | 1.69 | 0.00 | 1.65 |
GPU3 | 1.65 | 1.66 | 1.61 | 0.00 |
Som förväntat ger vi att flytta alla GPU:er till en enda plattform 2x på bandbredden jämfört med Blades 200G IB-anslutningar. Bandbredd här kan vara ett övervägande för applikationen, men när man talar om latensnummer, som arbetar i storleksordningen mikrosekunder, finns det ingen stor förändring att rapportera att gå från ett genomsnitt på 1.6 us GPU till GPU medan allt i ett chassi, till endast 1.5 us i bladen när man måste korsa PCIe-bussen, IB-switchen och tillbaka till GPU:n är anmärkningsvärt. Men det vill säga inte hela historien.
Slutsats
Supermicro X13 SuperBlade, med sina Emerald Rapids-processorer och NVIDIA H100 GPU:er, är en välkommen vidareutveckling av vad bladservrar kan vara. Dess kapacitet sträcker sig över olika beräkningsintensiva uppgifter, vilket gör den till en mångsidig och robust lösning för industrier som sträcker sig från dataanalys till AI och molnberäkning. När efterfrågan på högpresterande datorer fortsätter att växa, är X13 redo att möta dessa utmaningar, vilket visar Supermicros engagemang för innovation och excellens inom serverteknologi.
Allt sett från test är vi särskilt intresserade av denna plattform tack vare dess unika och mycket anpassningsbara karaktär ur ett holistiskt perspektiv. Det är viktigt att kontextualisera tillämpningen av plattformen.
Föreställ dig ett scenario på en forskningsavdelning där du har Supermicro X13 Blade-systemet i ditt rack för alla dina högkalkylerade hästkrafter. Du kan använda den centraliserade förvaltningsinfrastrukturen som är inbyggd i plattformen för att inte bara styra bladen och själva plattformen utan också som ett nav för kontroll, nätverk och hantering av annan utrustning. Genom att ansluta ett tillräckligt kraftfullt lagringsserverbo till SuperBlades för att mata de datahungriga GPU:erna och du kan mata in alla bitar i dina modeller i linjehastighet. I det här fiktiva scenariot kan vi få alla våra GPU:er att användas dagligen av olika forskare, och sedan när det är dags, länka alla bladen över InfiniBand och få dem att fungera tillsammans.
Bandbreddstesten av en-till-en-relationen mellan CPU och GPU visade också att, givet ett fulladdat bladchassi, kan du överträffa en enda server med GPU:er för tilläggskort med bladsystemet. Med ett korrekt utformat distribuerat träningsarbetsflöde kan du se prestanda som i princip är lika bra som eller bättre än att ha alla GPU:er i en enda nod, men nu får du en plattform som enkelt kan dra dubbelt arbete, vilket halverar GPU-kostnaden i förväg . Tack vare stödet från de senaste processorerna, när de väl implementerats, ser vi fram emot att gå från HDR InfiniBand till NDR, eftersom det skulle sätta SuperBlades utöver den prestanda du kan få i en enda GPU-serverplattform.
Supermicro X13 SuperBlade-chassi och GPU-blad är ett mycket anpassningsbart, robust val för dem som har utvecklande eller regelbundet förändrade AI-behov. Genom vår långa tid med plattformen mötte vi behov av DRAM-, CPU- och GPU-ändringar, eller som det är känt inom AI-världen, "en annan dag", allt hanterat av plattformen med lätthet. Överlag är plattformen solid och landar som en spännande och kraftfull apparat för AI-utrymmet utan att lämna mycket annat att begära av det. Med tanke på prisnivån på konkurrerande system, om du kan dra fördel av flexibiliteten hos ett blad, är detta nästan oslagbart.
Engagera dig med StorageReview
Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde