Hoewel er een aanzienlijke hype bestaat rond dichte GPU-servers voor AI, en terecht, is de realiteit dat de meeste AI-trainingsprojecten op werkstations beginnen. Hoewel we nu maximaal vier NVIDIA A6000 Ada GPU's in één werkstation kunnen plaatsen, is het een grotere uitdaging om robuuste opslag in deze AI-boxen te krijgen. We hebben hierover nagedacht en een plan bedacht om enkele AI-werkstations zo goed mogelijk te voorzien van snelle opslag. We hebben samengewerkt met Supermicro en KIOXIA om een server te vullen met 24 XD7.68P SSD's van 7 TB om zo een verbazingwekkend capabele 1U-opslagserver te creëren met een inferencing-truc in petto.
Hoewel er een aanzienlijke hype bestaat rond dichte GPU-servers voor AI, en terecht, is de realiteit dat de meeste AI-trainingsprojecten op werkstations beginnen. Hoewel we nu maximaal vier NVIDIA A6000 Ada GPU's in één werkstation kunnen plaatsen, is het een grotere uitdaging om robuuste opslag in deze AI-boxen te krijgen. We hebben hierover nagedacht en een plan bedacht om enkele AI-werkstations zo goed mogelijk te voorzien van snelle opslag. We hebben samengewerkt met Supermicro en KIOXIA om een server te vullen met 24 7.68TB XD7P-serie Data Center NVMe SSD's om een verbazingwekkend capabele 1U-opslagserver te creëren met een inferentietruc in petto.
We weten wat u denkt: hoe wilt u de punten verbinden tussen een serverplatform gevuld met E1.S SSD's, werkstations die AI-modellen trainen en gevolgtrekkingen op dezelfde opslagserver? Geef een beetje speelruimte om het uit te leggen.
AI-werkstations hoeven niet onder een bureau te staan
Op enkele uitzonderingen na zouden krachtige AI-werkstations met dure GPU's waarschijnlijk niet naar de rand moeten worden verspreid, of misschien zelfs niet binnen een kantoorgebouw. De problemen zijn talrijk. In de eerste plaats lopen deze eindpunten een hoog risico op beveiligingsbedreigingen en gegevenslekken, en belangrijker nog: ze lijden onder onderbenutting. De meeste AI-professionals hebben geen toegang tot de enorme hoeveelheid gegevens die nodig zijn om hun modellen te trainen vanwege inadequate LAN-configuraties.
Als we deze krachtige werkstations daarentegen in het datacenter zouden plaatsen, behalen we nu verschillende voordelen. Ten eerste wordt de fysieke beveiliging opgelost en kunnen de problemen met toegang op afstand worden weggenomen met thin clients of toegang die alleen pixels in plaats van gegevens over de draad stuurt. In dit scenario bevinden de gegevens zich op de server en niet op het werkstation. Ten tweede is het maken van back-ups van deze systemen in het datacenter sneller, zo niet eenvoudiger. Ten derde kunnen we met slimme voorzieningen het gebruik in het hele bedrijf verhogen door deze systemen te delen met een gedistribueerd AI-personeelsbestand. Ten slotte geeft het feit dat we ons in het datacenter bevinden ons toegang tot het kostbaarste AI-middel: data.
Voor dit werk hebben we een drietal Lenovo-werkstations ingericht die we in het laboratorium hadden staan. Elk is een beetje anders geconfigureerd, waarbij gebruik wordt gemaakt van zowel AMD- als NVIDIA-GPU's, wat flexibiliteit biedt, aangezien sommige modellen het beter doen op verschillende versnellers. In elk systeem is een NVIDIA ConnectX-6 100GbE-kaart geïnstalleerd, wat van fundamenteel belang is om ervoor te zorgen dat deze systemen snelle toegang tot de opslag hebben. Elk systeem maakt vervolgens verbinding met een Dell Z9100 100GbE-switch, waaraan ook de opslagservice is gekoppeld.
Deel | Werkstation 1 | Werkstation 2 | Werkstation 3 |
Model | Lenovo P620 | Lenovo P620 | Lenovo P5 |
CPU | AMD Ryzen Threadripper PRO 5995WX | AMD Ryzen Threadripper PRO 3995WX | Intel Xeon w7-2495X |
Geheugen | 128GB DDR4 3200 | 32GB DDR4 3200 | 32GB DDR5 4800Mhz |
GPU | AMD Radeon PRO W7900 | NVIDIA RTX-A6000 | NVIDIA RTX-A4500 |
Snelle AI-opslag met SSD's uit de KIOXIA XD7P-serie
Nu het AI-werkstationtestbed is gesorteerd, gaan we naar de opslagserver. In dit geval gebruiken we een Supermicro-opslag SuperServer SSG-121E-NES24R. Deze 1U-server beschikt over dubbele Intel Xeon Platinum 8450H-processors met 28 cores en 56 threads met een basisfrequentie van 2.00 GHz. De 8450H-processors kunnen een maximale turbofrequentie van 3.50 GHz bereiken, terwijl ze beschikken over een cache van 75 MB en een TDP van 250 W. De 512 GB DDR5 RAM is een relatief bescheiden RAM-voetafdruk. De server gebruikt dezelfde NVIDIA ConnectX-6 100GbE NIC als de werkstations voor connectiviteit. We hebben ook een NVIDIA A2 GPU geïnstalleerd voor gevolgtrekking.
Wat opslag betreft, stuurde KIOXIA ons 24x XD7P Series Data Center NVMe SSD's. De KIOXIA XD7P-serie E1.S SSD's zijn speciaal ontworpen om tegemoet te komen aan de behoeften van hyperscale-applicaties in moderne datacenters, met name wat betreft prestaties, energie-efficiëntie en thermische vereisten zoals uiteengezet in de Open Compute Project (OCP) Datacenter NVMe SSD-specificatie.
Deze SSD's zijn verkrijgbaar in E9.5.S-varianten met een dikte van 15 mm en 1 mm, waarbij de laatste is voorzien van een koellichaam om de warmteafvoer te verbeteren. KIOXIA's eigen architectuur van de XD7P, die de controller, firmware en 5th-gen BiCS FLASH™, draagt bij aan de algehele efficiëntie, betrouwbaarheid en prestaties. De nieuwe serie wordt aangeboden in capaciteiten variërend van 1.92 TB tot 7.68 TB om aan de uiteenlopende opslagbehoeften te voldoen.
Enkele belangrijke functies zijn onder meer bescherming tegen stroomverlies (PLP) en end-to-end gegevensbescherming, die van cruciaal belang zijn voor het behoud van de gegevensintegriteit in scenario's met onverwacht stroomverlies. Bovendien voegt de beschikbaarheid van Self-Encrypting Drive (SED)-technologie een extra laag gegevensbeveiliging toe.
Wat betreft prestaties bieden de SSD's uit de KIOXIA XD7P-serie indrukwekkende potentiële cijfers over verschillende capaciteiten. Met aanhoudende sequentiële leessnelheden tot 7,200 MB/s en sequentiële schrijfsnelheden tot 4,800 MB/s voor grotere capaciteiten zijn deze SSD's ontworpen om gegevensintensieve taken efficiënt uit te voeren. Bovendien maken de aanhoudende willekeurige lees- en schrijfsnelheden tot respectievelijk 1,650K IOPS en 200K IOPS ze geschikt voor workloads die hoge I/O-bewerkingen vereisen.
De XD7P maakt gebruik van de E1.S-vormfactor om een unieke balans te vinden tussen prestaties en dichtheid. Dit positioneert de nieuwe schijven als een toekomstgerichte oplossing voor flash-opslag in cloud- en hyperscale datacenters, waarmee wordt voldaan aan de veranderende eisen van deze veeleisende omgevingen. Het gestandaardiseerde formaat en de ingebouwde koellichamen van de XD7P bieden een efficiënte manier om onze 24 aan de voorzijde gemonteerde schijven in de 1U SuperServer SSG-121E-NES24R te huisvesten, waardoor de serverdichtheid aanzienlijk toeneemt. Bovendien positioneert de hot-swappbaarheid van E1.S, in combinatie met het vermogen om hoge werklasten te verwerken zonder thermische problemen, het als een praktische vervanging voor de M.2-connector in datacenters, met verbeterde efficiëntie en prestaties voor opslagoplossingen zoals datacenters. .
De XD7P ondersteunt PCIe Gen4 x4-lanes. De schijf werkt goed met Gen4- of Gen5-backplanes.
KIOXIA XD7P-serie Snelle specificaties
Inhoud | 7,680 GB | 3,840 GB | 1,920 GB | 7,680 GB | 3,840 GB | 1,920 GB |
Basis Specificaties | ||||||
Form Factor | E1.S 15 mm | E1.S 9.5 mm | ||||
Interface | PCIe 5.0, NVMe 2.0 | |||||
Flash-geheugentype | BiCS FLASH TLC | |||||
Prestaties (tot) | ||||||
Aanhoudende 128 KiB sequentiële lezing | 7,200MB / s | |||||
Aanhoudende 128 KiB sequentiële schrijfbewerkingen | 4,800MB / s | 3,100MB / s | 4,800MB / s | 3,100MB / s | ||
Aanhoudende 4 KiB willekeurig lezen | 1,550K IOPS | 1,650K IOPS | 1,500K IOPS | 1,550K IOPS | 1,650K IOPS | 1,500K IOPS |
Aanhoudende 4 KiB willekeurig schrijven | 200K IOPS | 180K IOPS | 95K IOPS | 200K IOPS | 180K IOPS | 95K IOPS |
Stroomvoorziening | ||||||
Voedingsspanning | 12 V ± 10% | |||||
Stroomverbruik (actief) | 20 W typ. | 20 W typ. | 16 W typ. | 20 W typ. | 20 W typ. | 16 W typ. |
Stroomverbruik (gereed) | 5 W typ. | |||||
Betrouwbaarheid | ||||||
MTTF | 2,000,000 uur kunt opladen | |||||
DWPD | 1 |
Prestaties van opslagservers met SSD's uit de KIOXIA XD7P-serie
Om beter te begrijpen hoe goed deze combo kan presteren, hebben we eerst de opslagserver opgeschud met interne prestatietests. Toen we naar de prestaties van de opslagserver keken, hebben we ons gericht op de volledige onbewerkte prestaties in een JBOD-configuratie in Ubuntu Linux om te karakteriseren waartoe de opslag in staat is.
We hebben gekeken naar de piekdoorvoer met een willekeurige werkbelasting van 4K en vervolgens naar de piekbandbreedte met een sequentiële werkbelasting van 64K. Deze tests werden uitgevoerd met behulp van VDbench in een Ubuntu 22.04-omgeving.
Werkdruk | Lees | Schrijven |
---|---|---|
64K sequentieel, 64 draads belasting | 158GB / s | 64.1GB / s |
4K Willekeurig, 512-draads belasting | 4.09 miljoen IOPS, 16 GB/s | 4.5 miljoen IOPS, 17.7 GB/s |
In onze experimentele opstelling hebben we besloten gebruik te maken van Windows Storage Spaces in combinatie met het SMB3-protocol om de supersnelle KIOXIA-schijven te benutten. Door gebruik te maken van Storage Spaces om een veerkrachtige gespiegelde opslagpool te creëren, konden we de data-integriteit garanderen en de I/O-prestaties optimaliseren.
De verbeterde functies van SMB3, zoals meerkanaalsmogelijkheden en persistente handvatten, maken directe streaming van grote datablokken met hoge doorvoer naar meerdere GPU-werkstations mogelijk, waardoor traditionele knelpunten worden omzeild die vaak gepaard gaan met langzamer, CPU-gebonden geheugen. Deze opstelling had het dubbele voordeel dat het snel ophalen van gegevens mogelijk maakte, terwijl meerdere werkstations tegelijkertijd toegang hadden tot gegevens en deze konden laden van en naar onze door KIOXIA aangedreven gedeelde opslag.
Terwijl onze vorige tests de ruwe prestaties van de KIOXIA XD7P-serie SSD's maten zonder dat er een bestandssysteem aanwezig was, keken we nog eens naar de prestaties binnen de Windows Server 2022-omgeving. In deze opstelling, met de gespiegelde virtuele schijf op onze grote opslagpool, gebruikten we het NTFS-bestandssysteem.
Om sterke prestaties binnen ons gespiegelde volume te bevestigen, hebben we CrystalDiskMark lokaal op de server gebruikt. Deze test is opgezet om de sequentiële lees- en schrijfprestaties te meten met een overdrachtsgrootte van 1 MB en willekeurige 4K-overdrachtssnelheden. Hier, met een bestandsvoetafdruk van 64 GB, maten we een leessnelheid van 87.4 GB/s en een schrijfsnelheid van meer dan 18.4 GB/s.
Voor dit artikel kijken we naar de algehele mogelijkheden van de gehele AI-oplossing. Hoewel dit soort prestatieprofiel indrukwekkend is, geeft KIOXIA ons duidelijk meer dan we nodig hebben. Dit is een goede zaak, omdat het betekent dat we gemakkelijk het aantal AI-werkstations kunnen opschalen of extra taken aan de opslagserver kunnen toewijzen, of het nu gaat om het opschonen en opschonen van onze gegevens of iets heel anders.
Voeding van AI-werkstations Voldoende snelle opslag
Met onze GPU-werkstations in het laboratoriumrek, via een netwerk van 100GbE met onze KIOXIA-gebaseerde all-flash 1U-bestandsserver en gedeelde shares opgezet, gingen we op pad om dit in de praktijk te testen. In onze testopstelling hebben we gekozen voor een standaard enkele 100GbE-link van elk werkstation naar onze Dell Z9100 100GbE-switch, die vervolgens weer met de opslagserver werd verbonden via een andere 100GbE-link.
Hier konden we een indrukwekkende leessnelheid van 11.4 GB/s en een schrijfsnelheid van 11 GB/s meten vanaf een Windows-bestandsshare op onze KIOXIA-opslagserver.
Dit prestatieniveau en de dichtheid via de draad naar de AI-werkstations zullen enorme waarde opleveren. In plaats van te proberen de AI-werkstations te vullen met lokale opslag, kunnen we nog beter presterende opslag delen via 100GbE, die min of meer onbeperkt is qua capaciteit.
GenAI in de praktijk - LLM-trainingsgegevenssets
Large Language Models (LLM's) zijn tegenwoordig de meest populaire kinderen in het IT-blok. Het trainen en verfijnen ervan is een enorme onderneming die enorme datasets en nog grotere GPU-paardenkracht vereist om ze te verwerken. Om enkele GPU-werkstations te laden en wat tests in de echte wereld uit te voeren, hebben we een dump gemaakt van alle Reddit-inzendingen en -opmerkingen van 2012 tot 2021, met enkele aanpassingen, evenals de Stanford Alpaca-trainingsgegevensset, naar de LLaMa-model voor meerdere fijnafstemmingspogingen. Het doel was om de efficiëntie, nauwkeurigheid en levensvatbaarheid van het LLaMa-model te evalueren wanneer het werd onderworpen aan grootschalige datasets uit de echte wereld.
Vanaf het Windows Server 2022-platform werden de 24 SSD's uit de KIOXIA XD7P-serie gegroepeerd in een pool van 168 TB en vervolgens in een gespiegeld volume van 83.7 TB. Dit volume werd vervolgens gedeeld via het 100GbE-netwerk, waarbij elk van de drie werkstations een bestandsshare kon gebruiken. De gebruikte Supermicro Superserver-opslagserver kan een datagrootte aan die het volledige volume van 84TB vult, zonder dat dit invloed heeft op de prestaties. De huidige gebruikte datagrootte is 5.6TB, maar het volume kan een veel grotere omvang aan.
Elk GPU-werkstation werd iets anders geconfigureerd om een diverse omgeving te bieden. We behandelden elke machine alsof het een individuele ontwikkelaar was die met verschillende modellen op een gedeelde dataset werkte en gaven geen enkele training. De keuze voor Windows in deze context was om een vroeg onderzoeks- of ontwikkelingsscenario te emuleren.
Voor de context van de gegevensschaal waarmee we te maken hebben: onze datasets voor deze test bestonden uit 16,372 bestanden voor LLM-trainingsgegevens, die 3.7 TB aan schijfruimte in beslag namen, en nog eens 8,501 bestanden voor beeldtrainingsgegevens die 1.9 TB in beslag namen. In totaal werkten we met 24,873 bestanden, goed voor 5.6 TB. Het is belangrijk op te merken dat we opzettelijk de omvang van onze datasets hebben beperkt en niet de volledige capaciteit van de opslag voor deze experimenten hebben benut; anders zou het training- of verfijningsproces voor dit project te veel tijd hebben gekost. Met deze configuratie konden alle werkstations de datasets delen en controlepunten en shards op de server opslaan voor samenwerking.
Bestanden | Grootte op schijf | |
LLM-trainingsgegevens | 16,372 | 3.7TB |
Beeldtraininggegevens | 8,501 | 1.9TB |
Totaal | 24,873 | 5.6TB |
De softwarestack voor onze beide experimenten was een eenvoudige configuratie en we vertrouwden op de kracht van Anaconda en Windows-subsysteem voor Linux (WSL). Anaconda biedt een robuuste omgeving voor het beheer van onze op Python gebaseerde machine learning-bibliotheken en afhankelijkheden, waardoor een modulaire en eenvoudig repliceerbare installatie op onze GPU-werkstations mogelijk is. WSL helpt de kloof te overbruggen tussen op Windows en Linux gebaseerde hulpprogramma's en biedt de flexibiliteit om Linux-specifieke tools voor gegevensmanipulatie en orkestratie naadloos op onze Windows-werkstations uit te voeren. We zouden shell-scripts kunnen uitvoeren voor de voorverwerking van gegevens en op Python gebaseerde trainingstaken kunnen starten, allemaal binnen een uniforme workflow. Een deel van de reden dat we voor deze route hebben gekozen, was niet alleen het configuratiegemak, maar ook om een gelijk speelveld te creëren met onze gemengde GPU-omgeving.
Tijdens het trainingsproces werden een paar belangrijke observaties gedaan:
- Datadiversiteit: de samensmelting van Reddit-inzendingen en -commentaren, die bijna een decennium besloeg, presenteerde het model met een eclectische mix van onderwerpen, lexicons en conversatiecontexten. Deze rijke diversiteit bood het model een alomvattend platform om verschillende nuances, sentimenten en culturele verschuivingen in de loop van de tijd te begrijpen en zich eraan aan te passen.
- Modelschaalbaarheid: het omgaan met zo'n enorme hoeveelheid gegevens was een lakmoesproef voor de schaalbaarheid van het LLaMa-model. We ontdekten dat naarmate de trainingsperioden toenamen, het vermogen van het model om relevante reacties te voorspellen en te genereren aanzienlijk verbeterde, wat het potentieel ervan voor grootschalige toepassingen benadrukte. Overfitting was een punt van zorg na ongeveer een half dozijn, maar was niet noodzakelijkerwijs een punt van zorg voor deze test, omdat het doel was om onze GPU's en netwerkshare meer te belasten dan om een algemeen LLM-model te creëren.
- Optimalisatie van hulpbronnen: Gezien de enorme GPU-kracht die nodig was, was het van cruciaal belang om een efficiënt gebruik van computerbronnen te garanderen. Er werd gebruik gemaakt van dynamische taakverdeling, periodieke controlepunten en on-the-fly gegevensvergrotingstechnieken om optimale prestaties te garanderen.
- Overdrachtsleervermogen: Het gebruik van de Stanford Alpaca-trainingsdataset in combinatie met Reddit-gegevens speelde een belangrijke rol bij het meten van de overdrachtsleermogelijkheden van het model. De inherente structuur en het academische karakter van de Alpaca-dataset, gecombineerd met het informele en gevarieerde karakter van Reddit-data, vormden een spannende uitdaging. De resultaten gaven aan dat LLaMa kennis uit verschillende bronnen naadloos kon integreren, waardoor deze veelzijdig en aanpasbaar werd.
- Ethische overwegingen: Hoewel de enorme Reddit-dataset een schat aan informatie biedt, is het essentieel om ervoor te zorgen dat persoonlijk identificeerbare informatie wordt uitgesloten en dat de gegevens ethisch en verantwoord worden gebruikt. Voor de publicatie van het model zouden rigoureuze gegevensopschonings- en anonimiseringsprocessen moeten worden ingevoerd om de privacy van gebruikers te waarborgen.
Deze oefening onderstreepte de instrumentele rol die KIOXIA's high-density drives speelden bij het verbeteren van onze trainingsefficiëntie. Gezien de enorme omvang van de datasets en het iteratieve karakter van modeltraining zijn opslagsnelheid en capaciteit vaak knelpunten bij dergelijke experimenten. Met de schijven van KIOXIA kregen we de luxe om meerdere exemplaren van de dataset, tussentijdse modelgewichten en tientallen nauwkeurig afgestemde controlepunten op te slaan. Hun hoge lees- en schrijfsnelheden maakten het snel ophalen van gegevens mogelijk, waardoor we meerdere iteraties van de fijnafstemming met verschillende hyperparameters parallel konden verwerken, zoals hieronder weergegeven.
Dit was cruciaal in ons streven om een optimaal werkend controlepunt te identificeren. Dankzij onze nieuw gebouwde, door KIOXIA aangedreven opslagserver konden we ons concentreren op het verfijnen van het model, het aanpassen van parameters en het evalueren van de resultaten, in plaats van beperkt te worden door opslagbeperkingen. De schijven met hoge dichtheid waren daarom niet alleen een opslagoplossing, maar een cruciaal hulpmiddel dat onze experimenteerfase aanzienlijk versnelde. Dit maakte een grondiger en efficiënter onderzoek naar het potentieel van het LLaMa-model mogelijk en stelde ons in staat ons eigen nieuwe convolutionele neurale netwerk (CNN) te ontwikkelen.
Voor niet-ingewijden, een convolutioneel neuraal netwerk (CNN) is een gespecialiseerd type deep learning-architectuur dat voornamelijk wordt gebruikt bij beeldverwerking en computervisietaken. Het onderscheidende kenmerk ligt in de convolutionele lagen die automatisch en adaptief ruimtelijke hiërarchieën van kenmerken leren uit invoerbeelden. In tegenstelling tot traditionele neurale netwerken die afhankelijk zijn van volledig verbonden lagen, profiteren CNN's van de ruimtelijke structuur van de gegevens door convolutionele filters toe te passen, die invoergegevens in kleine stukjes of receptieve velden verwerken. Dit resulteert in een netwerk dat ingewikkelde patronen, zoals randen, texturen en complexere structuren, kan detecteren door op te bouwen uit eenvoudigere patronen. Naarmate gegevens dieper het netwerk binnendringen, worden deze patronen abstracter, waardoor CNN's diverse en vaak ingewikkelde visuele entiteiten hiërarchisch kunnen herkennen en classificeren.
Via meerdere verfijningspogingen heeft het model laten zien dat het in staat is enorme datasets efficiënt te verwerken en dat het potentieel heeft om relevante, contextbewuste en genuanceerde resultaten te produceren. Terwijl LLM’s steeds meer grip krijgen, bieden dergelijke experimenten waardevolle inzichten in hun praktische toepassingen en beperkingen, waardoor de weg wordt vrijgemaakt voor meer geavanceerde en gebruikersgerichte AI-oplossingen in de toekomst.
Mogelijkheden voor serverinferentie
Het uitvoeren van inferentiebewerkingen op dezelfde dataset biedt een gestroomlijnde structuur, waardoor de complexiteit van gegevensbeheer wordt vereenvoudigd. Onze server is niet slechts een opslagtool; hij is uitgerust voor activiteiten die verband houden met inferentie, inclusief gegevensopname en -voorbereiding.
Om gevolgtrekkingen op grotere datasets te testen, hebben we een reeks astrofotografiebeelden geselecteerd variërend van ongeveer 1 Mb tot 20 Mb en een nieuwe CNN uitgevoerd waar we aan werken. In ons scenario wordt het model naar de GPU geladen en vervolgens wordt een afbeelding of een reeks afbeeldingen geladen voor verwerking via het neurale netwerk.
Dit is een breder opslagvoetafdrukprofiel dan je zou tegenkomen bij zoiets als een computervisie-objectclassificatie van een gestandaardiseerde camera. Toch illustreerde het de flexibiliteit en consistentie van de prestaties van het platform. In de onderstaande grafiek, die is gesorteerd op grootte en niet op de volgorde waarin deze is geladen (met uitzondering van enkele uitschieters), zijn de lees- en terugschrijftijden op de juiste manier geschaald.
Het is belangrijk om te onthouden dat dit diagram is gesorteerd van klein naar groot om de lineaire prestaties van de schijven en de server te illustreren. De daadwerkelijke run en dataset waren gerandomiseerd, dus er had een bestand van 1 MB gelezen en geschreven kunnen zijn, onmiddellijk gevolgd door een bestand van 20 MB. Het soort feitelijke verwerking was in willekeurige volgorde. De leestijden varieerden van 10 ms tot 25 ms, met uitschieters tot meer dan 70 ms.
Het onderstaande diagram illustreert het schrijven van een vergelijkbare lineaire progressie met minder afwijking en toont het schrijven van dezelfde bestanden, variërend van 12 ms tot 118 ms.
Een ander essentieel stukje informatie om te onthouden is dat deze plot een aggregaat is van het volgen van drie GPU-werkstations die tegelijkertijd een gevolgtrekking maken naar dezelfde dataset. De KIOXIA-schijven konden een indrukwekkende 10.5 GB verwerken en terugschrijven naar drie GPU-werkstations die inferentie uitvoerden op basis van een willekeurige dataset van 1000 afbeeldingen, exclusief de geserialiseerde verwerking die het model gebruikt. Het hele proces duurde slechts 59.62 seconden, oftewel 59 ms, om één afbeelding te lezen en terug te schrijven.
Verschillende opties kunnen de snelheid en latentie verbeteren, aangezien dit ontwerp kan worden opgeschaald naar meerdere werkstations of GPU-servers. Het implementeren van NVIDIA's GPUDirect Storage, gecombineerd met het RDMA-protocol (Remote Direct Memory Access), zou een naadloze gegevensverplaatsing van de gedeelde opslag met hoge dichtheid rechtstreeks naar het GPU-geheugen mogelijk maken. Deze aanpak zou effectief CPU- en systeemgeheugenknelpunten omzeilen. Door gebruik te maken van NVMe via Fabrics en NVIDIA-netwerkapparatuur kunnen grote datavolumes vrijwel realtime vooraf in het GPU-geheugen worden geladen. Dit zou vooral nuttig zijn bij de omgang met LLM's, gezien hun omvangrijke datasets en rekenvereisten. Een dergelijke mogelijkheid zou de noodzaak van datacaching kunnen elimineren en zou het mogelijk maken dat meerdere werkstations tegelijkertijd gegevens uit de gedeelde opslagpool kunnen lezen en opnemen.
Conclusie
Het aanpakken van het I/O-knelpunt van grotere modellen is cruciaal voor de voortdurende evolutie van machinaal leren, vooral als het gaat om uitgebreide datasets. Een gecentraliseerd, snel netwerkshare biedt een drievoudig voordeel ten opzichte van traditionele lokale opslag.
- Ten eerste stroomlijnt het de activiteiten door de noodzaak weg te nemen om enorme datasets naar individuele werkstations te migreren voor training. Dit bestrijdt direct de I/O-knelpunten die machine learning-projecten kunnen verlammen, vooral die waarbij deep learning-modellen betrokken zijn.
- Ten tweede vermijdt u, door te kiezen voor een gecentraliseerde aanpak, dat de waardevolle PCIe-lanes van het werkstation worden overspoeld met buitensporige of zelfs onbereikbare hoeveelheden lokale opslag. Dankzij de snelle verbinding zou dit ervoor kunnen zorgen dat meer GPU's gegevens efficiënter parallel kunnen verwerken, waardoor machine learning-operaties slanker en wendbaarder worden.
- Ten derde brengt gecentraliseerde opslag inherent betere beveiligingsmaatregelen met zich mee. Wanneer gegevens op één veilige locatie worden opgeslagen, wordt het eenvoudiger om toegangscontroles te beheren en beveiligingsprotocollen te implementeren, waardoor het risico op datalekken, fysieke bedreigingen of ongeautoriseerde toegang wordt verminderd.
Bovendien zorgt het centraliseren van gegevens voor verbeterde gegevensconsistentie en een extra laag gegevensredundantie. Werkstations hebben toegang tot de meest actuele gegevens uit één enkele bron, waardoor verschillen in resultaten als gevolg van verouderde of inconsistente training of het verfijnen van gegevens of modelcontrolepunten tot een minimum worden beperkt. Dit vereenvoudigt ook het gegevensbeheer en bespaart opslagruimte.
Nu schaalbaarheid, efficiëntie en veiligheid steeds belangrijker worden in het hypersonisch evoluerende landschap van AI en machinaal leren, vormt de verschuiving naar gecentraliseerde, dichte, snelle opslag die wordt geboden door technologie zoals het KIOXIA E1.S-platform een overtuigend voorbeeld. Dit is niet alleen van cruciaal belang voor verbeterde prestaties, maar ook voor een fundamentele transformatie in de manier waarop we databeheer en modeltraining benaderen.
KIOXIA XD7P-serie E1.S NVMe-datacenterspecificatieblad
Dit rapport wordt gesponsord door KIOXIA America, Inc. Alle standpunten en meningen in dit rapport zijn gebaseerd op onze onbevooroordeelde kijk op het (de) product(en) in kwestie.
Neem contact op met StorageReview
Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed