Hem FöretagAI Öppna Wallet Bay Doors Hal: The Power of Multi-GPU Utilization and Model Parallelism

Öppna Wallet Bay Doors Hal: The Power of Multi-GPU Utilization and Model Parallelism

by Jordan Ranous

Världen av artificiell intelligens utvecklas i rasande fart, blinka, och du kommer att missa nästa framsteg. Med modellstorlekar som blir större och större söker forskare och utvecklare ständigt sätt att förbättra effektiviteten och prestandan hos AI-modeller. Ett av de enklaste sätten att uppnå detta är att använda flera Graphics Processing Units (GPU) eller Tensor Processing Units (TPUs, mer om detta i nästa del) för AI-träning och slutledning.

Världen av artificiell intelligens utvecklas i rasande fart, blinka, och du kommer att missa nästa framsteg. Med modellstorlekar som blir större och större söker forskare och utvecklare ständigt sätt att förbättra effektiviteten och prestandan hos AI-modeller. Ett av de enklaste sätten att uppnå detta är att använda flera Graphics Processing Units (GPU) eller Tensor Processing Units (TPUs, mer om detta i nästa del) för AI-träning och slutledning.

DNN-träning på HP z8 G5 Fury

Bygger vidare på vår sista delen av AI I labbet, tog vi en djupdykning och en praktisk praktisk titt på fördelarna med att övergå från att använda en enda GPU till att använda två, och så småningom fyra, av dessa kraftfulla kort i vår HP Z8 G5 Fury-arbetsstation, med särskilt fokus på PyTorch-modellparallellism .

Kraften i modellparallellism

Innan vi dyker in i detaljerna är det viktigt att förstå begreppet parallellism. I samband med AI hänvisar parallellism till processen att köra flera beräkningar samtidigt. Detta är särskilt fördelaktigt i AI-träning och slutledning, där stora mängder data behöver bearbetas. PyTorch, ett maskininlärningsbibliotek med öppen källkod som vi använder i labbet, erbjuder modellparallellism, vilket möjliggör distribution av en AI-modell över flera GPU:er. Detta leder till snabbare träningstider, effektivare slutledning och möjligheten att köra större, mer komplexa modeller.

Att se till att SLI är inaktiverat är avgörande

Fördelar med att skala upp

Enkel GPU

Från och med en enda GPU ger den här installationen en solid grund för AI-träning och slutledning. Att köra en enda modern (eller till och med några generationer gammal) GPU i en arbetsstation för utveckling är mer än tillräckligt för POC-stadiet. Den kan hantera en rimlig mängd data och kan leverera tillfredsställande resultat för mindre AI-modeller. Men eftersom komplexiteten och storleken på modellerna ökar kan en enda GPU snabbt kämpa för att hänga med, vilket leder till längre träningstider och långsammare slutledning.

Enkel GPU-användning

Två GPU:er

Att byta till ett par GPU: er kan märkbart förbättra prestandan hos AI-modeller. Tänk på det: dubbelt så mycket processorkraft kan dramatiskt minska träningstiderna, vilket banar väg för snabbare iterationer och en snabb resa till resultat.

Slutledningsstadiet gynnar också, det blir mer effektivt och kan bearbeta större databatcher samtidigt. I en sådan miljö kommer PyTorchs modellparallellism in i bilden. Det fördelar effektivt arbetsbördan mellan de två enheterna och maximerar deras användning. Det är ett smart sätt att se till att varje maskinvara bär sin vikt för att uppnå en mycket produktiv AI-drift.

3x så roligt, NVIDIA A6000

Fyra GPU:er

Att skala upp till fyra GPU:er tar fördelarna med multi-GPU-användning till en annan nivå. Med fyrdubbla processorkraften kan AI-modeller tränas och slutas med oöverträffade hastigheter. Denna inställning är särskilt fördelaktig för stora, komplexa modeller som kräver betydande beräkningsresurser. PyTorchs modellparallellism kan fördela modellen över alla fyra enheterna, vilket säkerställer optimalt utnyttjande och prestanda.

På en arbetsstation kan användning av manuella fläkt- och klockvärden också ge högre träningsprestanda.

Implementering i labbet

Att gå från en soloenhet till en duo och så småningom till en kvartett GPU:er för AI-träning och slutledning kan låsa upp avsevärda fördelar. Tack vare PyTorchs modellparallellism kan dessa fördelar utnyttjas optimalt, vilket ger snabbare och mer effektiva AI-modeller.

Trial and error, tålamod är nyckeln med AI/ML/DL-träning.

När vår törst efter mer intrikat och kompetent AI sväller, kommer antagandet av flera GPU:er utan tvekan att växa i betydelse. I nästa artikel kommer vi att visa upp komplexitetsförbättringarna när du lägger till mer processorkraft och distribuerar över system.

Obs: Den här artikeln är baserad på det aktuella tillståndet för AI och PyTorch i juni 2023. För den senaste informationen, se till att kolla vår senaste AI-artiklarna.

Engagera dig med StorageReview

Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde