Hem Företag Programvarudefinierad lagring: Göra fördelarna med hyperskala molnen tillgängliga för massorna

Programvarudefinierad lagring: Göra fördelarna med hyperskala molnen tillgängliga för massorna

by Gästförfattare

Datorn har förändrats dramatiskt, särskilt under de senaste tio åren. Enligt IDC har uppkomsten av webb- och mobilapplikationer, och kommodifieringen av verktyg för innehållsskapande, ökat konsumtionen av slutpunktsinnehåll och innehållsskapandet med minst 30 gånger. Som sådan strävar företag idag efter att få ut mer värde av de petabyte data som de nu vanligtvis lagrar. Verkligen självbetjäningsmoln, som arbetar i applikations- och infrastrukturlager, är nu företag med flera miljarder dollar. Sensornätverk och andra maskin-till-maskin-interaktioner lovar ytterligare ett exponentiellt hopp i datarörelse och lagring. Men trots alla dessa monumentala förändringar i användningen av både data och innehåll, förutom ökningar i kapacitet och processorkraft, har vanliga lagringsarkitekturer förblivit i princip oförändrade under de senaste tjugo åren. Vi försöker beräkna i multi-petabyte-skala med arkitekturer designade för terabyte.


Av Leo Leung, VP för företagsmarknadsföring, Scality

Datorn har förändrats dramatiskt, särskilt under de senaste tio åren. Enligt IDC har uppkomsten av webb- och mobilapplikationer, och kommodifieringen av verktyg för innehållsskapande, ökat konsumtionen av slutpunktsinnehåll och innehållsskapandet med minst 30 gånger. Som sådan strävar företag idag efter att få ut mer värde av de petabyte data som de nu vanligtvis lagrar. Verkligen självbetjäningsmoln, som arbetar i applikations- och infrastrukturlager, är nu företag med flera miljarder dollar. Sensornätverk och andra maskin-till-maskin-interaktioner lovar ytterligare ett exponentiellt hopp i datarörelse och lagring. Men trots alla dessa monumentala förändringar i användningen av både data och innehåll, förutom ökningar i kapacitet och processorkraft, har vanliga lagringsarkitekturer förblivit i princip oförändrade under de senaste tjugo åren. Vi försöker beräkna i multi-petabyte-skala med arkitekturer designade för terabyte.

Software-Defined Storage (SDS) lovar en mer flexibel lagringsmodell där lagring verkligen blir en av tjänsterna bland andra datortjänster. Hårdvaruoberoende är en del av denna arkitektur eftersom data och tjänster måste flöda mer fritt när applikationer förändras och system skalas upp och ner. Istället för att bädda in datahanteringsfunktionalitet i proprietära slutna apparater, frikopplar SDS denna funktionalitet från den hårdvaruaktiverande funktionaliteten som fokuserar på data – och spänner naturligtvis över hårdvara. Liksom andra mönster för kommodifiering av infrastruktur över tid (t.ex. mjuka switchar), exponerar denna frikoppling också de uppblåsta marginalerna (60 procent) som finns i lagringsapparater idag.

Eftersom SDS ofta kommer att distribueras i multi-petabyte-skala, måste tillgängligheten vara extremt hög och kräver inga ingrepp i kända felscenarier. Applikationsgränssnitt måste vara vänliga mot både befintliga applikationer och nyare webb- och mobilbaserade appar. Prestanda bör vara stark, linjärt skalbar och lämplig för blandade arbetsbelastningar. Tjänster som dataskydd och dataåterställning måste utformas för samma nivå av dynamik och skalning.

Detta står i stark kontrast till äldre lagringsarkitekturer, som är helt knutna till fysisk hårdvara och bäddar in tillgänglighet, dataåtkomst, prestanda, hantering och hållbarhetskapacitet inom det begränsade omfånget av proprietära apparater. Dessa äldre arkitekturer är designade för mindre skala över var och en av de ovannämnda dimensionerna.

SAN är fortfarande ett bra tillvägagångssätt för tillgång till data med låg latens, men är dålig i stor skala

SAN designades som det mest grundläggande sättet att samverka med lagring över ett dedikerat lokalt nätverk. Den kontrollerar datablock i små logiska volymer, men har inget sammanhang för vad data är och beror helt på applikationen för att organisera, katalogisera och strukturera data. Genom designen är SAN begränsade i skala, gränssnitt och omfattning, och vanligtvis högre i kostnad på grund av den dedikerade nätverksinfrastrukturen.

Fil är fortfarande dominerande och NAS är en arbetshäst, men utmanas i stor skala

NAS designades också som ett sätt att samverka med lokalt nätverkslagring, men ger mer struktur i form av filsystem och filer. Filsystem har naturliga gränser baserat på de lokala interna strukturer som används för att hantera filhierarkin och filåtkomst. På grund av informationen inom den hanterade filhierarkin finns det mer grundläggande medvetenhet om innehållet i systemet, men det är helt lokaliserat till en fysisk lagringskontroller. Också genom design är NAS-system begränsade i skala och omfattning. Klustrade NAS-system utökar skalbarheten av tekniken, men har också naturliga gränser knutna till fysiska kontroller (numrering på 10-talet) och den centrala databasen som används för att hålla reda på filhierarkin och filerna.

Objektlagring adresserad skala, men är mycket begränsad i arbetsbelastningsstöd

Object Storage är en teknik som skapar ytterligare abstraktion, ofta ovanpå och över lokala filsystem. Detta innebär att data i systemet hanteras som objekt (istället för block eller filer) över ett globalt namnområde, med unika identifierare för varje objekt. Denna namnrymd kan sträcka sig över hundratals servrar, vilket möjliggör enklare skalning av kapacitet än antingen SAN- eller NAS-modeller. 

Emellertid är objektlagrar i grunden begränsade i applikationsstöd eftersom de kräver att applikationer skrivs om till en specifik variant av HTTP API och prestanda är vanligtvis begränsad till att skriva en gång, läsa många (WORM) eller skriva en gång, läs aldrig scenarier. Denna brist på prestanda beror på arkitekturer som tvingar trafik genom en begränsad uppsättning metadatanoder, vilket ibland lägger till overhead till dessa begränsade noder med tjänster som raderingskodning.

Software-Defined Storage är utformad holistiskt för massiv skala

Software-Defined Storage är ett nytt tillvägagångssätt som helt frikopplar lagringsfunktionalitet från specifik hårdvara och möjliggör mer flexibel driftsättning, skalbarhet, tillgänglighet och drift som ett resultat.

Frikopplingen av SDS gör att programvaran kan utnyttja hårdvaran oberoende, skalningskapacitet, prestanda och tillgänglighet oberoende baserat på användningsfallet. Denna typ av anpassning är omöjlig utanför den mest avancerade traditionella lagringen, som har specialbyggda hårdvarukomponenter för detta ändamål, vilket i slutändan fortfarande begränsar flexibiliteten och total skala.

Frikoppling av lagringsfunktionalitet från hårdvaran gör det också lättare att identifiera problem i det övergripande systemet, istället för att behöva felsöka apparater som kombinerar hårdvaru- och mjukvaruundantagshantering till en stack med låg signal-till-brus.

Utöver basseparationen av mjukvara och hårdvara, drar SDS-lagringstjänsterna också fördel av frikopplingen genom att erbjuda kapacitet, tillgänglighet, hållbarhet och tillgänglighetstjänster som kan sträcka sig över fysiska gränser. Ett vanligt attribut för SDS är användningen av objektlagring för att skapa ett nästan obegränsat namnutrymme med unika objekt. Detta överskrider enheterna för hantering av logiska enhetsnummer (LUN) och filsystem, som har grundläggande skalgränser genom design. Detta gör att ett SDS-system kan skalas helt enkelt genom att lägga till mer fysisk kapacitet utan att lägga till nya ledningsenheter.

Tillgängligheten för SDS-system kan också vara mycket överlägsen och utnyttjar det privata nätverksutrymmet bland SDS-noder. Istället för det begränsade aktiva/passiva styrarrangemanget för de flesta SAN- och NAS-system, eller det klustrade arrangemanget av utskalad NAS, kan SDS-system fortsätta att skalas till tusentals adresser inom en domän. Dessutom kan SDS-system också dra nytta av avancerade routingalgoritmer för att garantera respons även i storskaliga topologier och inför flera felscenarier. Detta går långt utöver de enkla växlade tygerna eller daisy chains av traditionell lagring där en hel array kan gå ner på grund av ett enkelt kabelfel.

Hållbarheten hos traditionella lagringssystem är utformade för att stödja enstaka fel på en eller två diskar, med nästan omedelbar utbyte som krävs. I ett system i petabyte-skala börjar antalet diskar i hundratals, och växer ofta till tusentals. Även med en hög medeltid mellan fel (MTBF) kommer flera diskar alltid att vara nere. SDS-system är designade för att förvänta sig många fel och många olika feldomäner. De drar naturliga fördelar av distribuerad kapacitet och bearbetning för distribuerade skyddssystem och extremt snabba ombyggnader. Detta är nödvändigt i stor skala jämfört med schemat med dubbla kontroller för uppskalningsarkitekturer, som har allvarliga flaskhalsar under diskombyggnader, eller andra lagringstjänster.

Tillgänglighet var ett mindre problem i traditionella lagringssystem. Applikationsservrar eller stordatorer fanns på lokala, lagringsspecifika nätverk med ett fåtal mogna protokoll. Delade Ethernet-nätverk och blandad offentlig och privat åtkomst är nu normen. SDS-system måste stödja en mycket bredare uppsättning krav. Från webbaserad till Ethernet-baserad åtkomst, från lagringsresurser som är nätverksbaserade till att distribueras som en lokal resurs på applikationsservern – SDS måste stödja dem alla. 

Som framgår av den här artikeln är traditionell lagring högt specialiserad, vilket leder till många silos av funktionalitet och data i en typisk stor verksamhet. Detta är inte bara mycket ineffektivt ur ett operativt perspektiv, utan ger också inga stordriftsfördelar och begränsar drastiskt möjligheterna till datadelning och återanvändning.

SDS är designat för att möta de flesta kraven på applikationsintegration, med protokoll som varierar från beständiga till statslösa, från enkla till mycket interaktiva och semantiskt rika. Detta möjliggör en allmän miljö, där lagring kan vara en allmän tjänst för applikationer, oavsett om de har små eller stora filer, olika skyddskrav och olika protokollbehov. Detta kollapsar de nuvarande gränserna mellan NAS-, objekt- och bandlagring, låser upp hävstångseffekten som hyperskaliga spelare har haft i åratal och uppdaterar lagringstjänster för en värld där anslutningsmöjligheterna har breddats till miljarder slutpunkter.

Sammanfattningsvis har ansökningar och krav förändrats dramatiskt. Med 90 procent av all data som skapas under bara de senaste två åren; vi befinner oss helt i Petabyte-eran, med Exabytes precis runt hörnet. Smärtan av petabyte-skala och strävan efter förbättrat datavärde har blivit katalysatorn för att överväga nya tillvägagångssätt när decennier gamla traditionella metoder når sina designade gränser och överväldigas.

Diskutera den här historien

Om författaren

Du kan följa Leo Leung på Twitter eller se hans hemsida på techexpectations.org.