Hem Företag HCI vid kanten drar nytta av Intel Optane & QLC NVMe SSD:er

HCI vid kanten drar nytta av Intel Optane & QLC NVMe SSD:er

by StorageReview Enterprise Lab

Vi i IT-gemenskapen är ofta besatta av utställningshästar – de snabbaste och/eller kraftfullaste enheterna eller systemen – eftersom vi älskar de stora och små siffrorna som de visar upp. Verkligheten är dock att de flesta användare helt enkelt inte behöver den pråliga kraften hos utställningshästar. De behöver arbetshästar, system som kan hantera verklig arbetsbelastning på en daglig basis till ett överkomligt pris. Vi har ägnat en hel del tid åt att undersöka DataONs Hyperconverged Infrastructure (HCI) erbjudanden, och till och med gett DataON HCI-224 med Intel® Optane™ SSD:er vårt Editor's Choice pris förra året. I den här artikeln kommer vi att titta på ett annat HCI-224 tvånodskluster. Den här har dock en unik blandning av lagring: Intel Optane SSD:s frontend Intel® SSD D5-P4326 15.36TB med QLC 3D NAND, vilket skapar ett system som optimerar kapacitet, prestanda och kostnad.

Vi i IT-gemenskapen är ofta besatta av utställningshästar – de snabbaste och/eller kraftfullaste enheterna eller systemen – eftersom vi älskar de stora och små siffrorna som de visar upp. Verkligheten är dock att de flesta användare helt enkelt inte behöver den pråliga kraften hos utställningshästar. De behöver arbetshästar, system som kan hantera verklig arbetsbelastning på en daglig basis till ett överkomligt pris. Vi har ägnat en hel del tid åt att undersöka DataONs Hyperconverged Infrastructure (HCI) erbjudanden, och till och med gett DataON HCI-224 med Intel® Optane™ SSD:er vårt Editor's Choice pris förra året. I den här artikeln kommer vi att titta på ett annat HCI-224 tvånodskluster. Den här har dock en unik blandning av lagring: Intel Optane SSD:s frontend Intel® SSD D5-P4326 15.36TB med QLC 3D NAND, vilket skapar ett system som optimerar kapacitet, prestanda och kostnad.

Innan vi dyker in i det här klustret kommer vi dock först att diskutera varför DataON gick med QLC för sin lagringskapacitetsnivå, och ge en recension av Microsoft Azure Stack HCI, DataON och HCI-kluster med två noder. 

Intel® SSD D5-P4326-serien

Att använda QLC-baserad Intel SSD D5-P4326 för kapacitetslagring i detta HCI-kluster är ett logiskt val, eftersom det ger solid, pålitlig och kostnadseffektiv prestanda. Vi har säkert sett snabbare SSD:er, men SSD D5-P4326 hittar den rätta balansen mellan prestanda och kostnad, med en enorm kapacitet på 15.36 TB per enhet. Denna kombination beror på dess underliggande arkitektur. Genom att använda Intel® QLC 3D NAND-teknik kan Intel sänka kostnaderna för denna enhet samtidigt som den ökar dess kapacitet. 

Intel var en av de första lagringsleverantörerna som tillverkade QLC-baserade enheter. QLC eller quad-level cell-teknologi lagrar fyra bitar av data på en enda cell, medan äldre teknik som TLC, MLC och SLC bara lagrar tre, två eller en bit(ar) per cell. På grund av QLC lagring med högre densitet kan de ha en lägre kostnad per GB lagring. Dessutom tillåter Intels 3D NAND-teknik att dessa celler kan staplas horisontellt på chippet, vilket ytterligare ökar lagringstätheten.  Det finns dock en kompromiss. För att effektivt dra fördel av Intel SSD D5-P4326 SSD måste skrivarbetsbelastningar buffras innan du går in i den QLC-baserade enheten. QLC SSD:er är idealiska för kapacitetsoptimerade, lästunga arbetsbelastningar. Som sådan måste plattformar som ett HCI-kluster använda en lämplig cache-enhet framför QLC SSD:erna för att leverera jämn prestanda. I fallet med DataON HCI-224, fyra Intel Optane SSD DC P4800X NVMe 750GB 2.5”-enheter används per nod för att absorbera skrivningar innan data flyttas ner i QLC-lagret. Detta tillvägagångssätt förhindrar överdriven skrivning från att orsaka prestandaförsämring av QLC-lagret. Nettoresultatet är att kunderna får en sömlös upplevelse och en idealisk blandning av Intel Optane-baserad prestanda med QLC-baserad kapacitet. 

Microsoft Azure Stack HCI

Kortfattat är Microsoft Azure Stack HCI en lokal implementering av Microsoft Azure Cloud Services. I grund och botten tog Microsoft sin befintliga HCI-teknik in i Azure Stack-familjen så att deras kunder kan köra virtualiserade applikationer på plats med direkt tillgång till Azure-hanteringstjänster som säkerhetskopiering och katastrofåterställning. 

Azure Stack HCI ska inte förväxlas med Azure eller Azure Stack Hub. Medan Azure är en offentlig molntjänst, är Azure Stack Hub och Azure Stack HCI lokala lösningar. Dessutom kör Azure Stack Hub Azure OS med Azure Services och är en IaaS- och PaaS-lösning. Azure Stack HCI, å andra sidan, kör Windows Server OS med Azure Services och låter dig köra virtualiserade arbetsbelastningar på samma sätt som du är van vid, med den extra fördelen att kunna ansluta till Azure-molnet för ytterligare tjänster. Detta är en enorm skillnad och gör att IT-administratörer kan använda samma verktyg och hanteringsstack på Azure Stack HCI som de använder med Azure.

Azure Stack HCI använder Hyper-V för sin hypervisor, Storage Spaces Direct för lagring, Microsoft Software Defined Networking (SDN) för nätverk och Windows Admin Center (WAC) för sin hantering. Azure Stack HCI körs på standard x86-servrar och andra råvarukomponenter.

WAC är en lokalt distribuerad, webbläsarbaserad hanteringsplattform som kan hantera både lokala och Azure molnbaserade instanser av Windows 10 och Windows Server. WAC är installerat på ett Windows-system och använder PowerShell-skript. Den använder också Microsoft Windows Management Framework (WMF) över WinRM (Windows Remote Management) för att övervaka och hantera Windows-system, inklusive HCI-kluster och virtuella Azure-datorer. 

WAC:s huvudinstrumentpanel ger en översikt över CPU, minne, nätverk och diskaktivitet för de system som övervakas. På vänster sida av skärmen innehåller WAC också ett antal systemhanterings- och webbläsarverktyg inklusive certifikat, enheter, händelser, filer, lokala användare och grupper, brandvägg, processer, register, roller och funktioner, tjänster och lagring.

DataON var ett av de första företagen att dra nytta av WAC:s öppna ramverk och portade dess Management Utility Software Tool (MUST)-tillägg till WAC. DataON MUST tillhandahåller infrastruktursynlighet, övervakning och hantering för Windows-serverbaserad HCI, nätverk och lagring.

DataON HCI

Även om Azure Stack HCI använder råvarukomponenter, måste dessa artiklar konstrueras för att fungera tillsammans för att ge optimala resultat. På vissa sätt är det lättare att designa högpresterande system än arbetshästsystem. Med högpresterande system kan du välja de bästa komponenterna och ignorera kostnaden. Men med arbetshästar måste du utvärdera kostnaden/prestanda för komponenterna och sedan ställa in dem för att optimera deras prestanda. Det krävs lika mycket – om inte mer – ingenjörsarbete för att leverera ett värdeorienterat system, och detta system teknik är där vi fortsätter att vara imponerade av DataON.

DataON har ett starkt partnerskap med både Microsoft och Intel, och de utnyttjade dessa relationer när de konstruerade system för Azure Stack HCI. DataONs HCI Intel Select-lösningar kan förkonfigureras och skickas i sitt eget rack, redo att distribueras omedelbart. Denna leveransmetod är inte bara användbar i datacentret, utan visar sig också vara fördelaktig för system som distribueras i kanten där befintlig IT-infrastruktur och personal är antingen begränsad eller obefintlig.

2-Node HCI-kluster

Vi gjorde nyligen en artikel om Microsoft Azure Stack HCI 2 nodkluster (2NC). Nedan är en sammanfattning av den artikeln. Vi fann att en 2NC för många användningsfall kan ge den motståndskraft som behövs för en organisation och att 2NC:er är mindre komplexa och kostsamma än ett traditionellt kluster med tre noder eller fyra noder. DataON var en av de första leverantörerna att inse värdet av och omfamna integrationen av 2NC. Men 2NCs är inte nya för DataON, eftersom DataON i september 2017 tillkännagav de två första kommersiellt tillgängliga Kepler-47 HCI för Windows Server 2016 Storage Spaces Direct-system (nu Azure Stack HCI). 

DataONs 2NC-implementering stöder att ha både ett diskfel och serverfel samtidigt. Den gör detta genom att använda RAID 5 + 1 för att göra paritetsförmåga och spegla det till den andra servern. Microsoft kallar denna förmåga "kapslad resiliency" och lade till denna förmåga till Storage Spaces Direct i Windows Server 2019. Återigen är 2NC inte det rätta teknikvalet för alla, men de kan tillhandahålla en pålitlig och kostnadseffektiv lösning för många organisationer.

Bygg och design

Azure Stack HCI-klustret vi arbetar med här byggdes på DataON HCI-224 all-flash NVMe-plattformen. Dessa servrar var 2U i storlek med 24-NVMe-fack på framsidan, vilket erbjuder massor av expansion på baksidan för PCIe-baserade komponenter. Märkningen var hög i motsats till de mattsvarta drivcaddyerna, vilket gör det lätt att upptäcka specifika enheter i händelse av ett nödvändigt byte. Allt var märkt, vilket inte är så ovanligt, men omfattningen av märkningen var extraordinär. Vår implementering hade varje nod märkt (1 och 2), såväl som flera andra objekt, vilket gjorde det enkelt att distribuera och hantera DataON-system i datacentret.

Noderna i det här testet inkluderade dual 2nd Gen Intel® Xeon® Scalable Gold 6248 2.5 GHz, 20-kärniga, 28 MB Cache-processorer, samt åtta Samsung 32GB DDR4 2933MHz ECC-registrerade RDIMMs (256GB totalt per nod) och dubbla Intel S4510 480GB-startenheter SATA M.

För lagring kom varje nod med fyra Intel Optane SSD DC P4800X NVMe 750GB 2.5"-enheter (används för cachning) och fyra Intel SSD D5-P4326 15.36TB 2.5" QLC-enheter (kapacitetslagringsnivå). 

Noderna kopplades till varandra via Mellanox ConnectX-4 EN dubbelport QSFP28 40/56 GbE-kort med hjälp av 3M Mellanox LinkX ETH 40GbE, 40Gb/s, QSFP passiva kopparkablar.

Uppenbarligen tillbringade DataON en hel del tid och eftertanke med avseende på konfigurationen och komponentvalet för detta system för att balansera prestanda och kostnad. Vi var mycket intresserade av att se hur Intel SSD D5-P4326 SSD:erna skulle fungera som lagringsnivå. Genom att kombinera Intel Optane SSD:er och Intel QLC 3D NAND SSD:er bör D5-P4326 SSD:erna ge en högpresterande nivå och kostnadseffektiv flashlagring, som tidigare var domänen för tröga men stora hårddiskar.

I StorageReview-labbet distribuerade vi de två lagringsnoderna och switcharna enligt schemat nedan.

Testning 

För att få en känsla för hur ett litet kluster som detta kan prestera i ett edge-användningsfall, satte vi upp flera Microsoft SQL Server-tester. Målet var att undersöka full klusterprestanda för att säkerställa att DataON kunde använda Intel Optane-tekniken och Intel QLC SSD:er på rätt sätt. Sekundärt ville vi undersöka kapaciteten hos bara en enda nod, för att få en känsla av hur denna lösning hanterar förlusten av en nod, antingen för planerade uppdateringar eller i händelse av ett allvarligare fel. 

Vår testplan utnyttjade Quests Benchmark Factory med hjälp av TPC-C-profilen som belastningsgenerator för de virtuella SQL Server-datorerna vi distribuerade. Vi konfigurerade åtta virtuella datorer (fyra per nod), vilket erbjöd en bra balans mellan CPU och diskaktivitet för klustret. Arbetsbelastningsgeneratorerna var värd på ett system utanför denna miljö och anslutna till detta kluster över 10 GbE nätverk.

SQL Server-testkonfiguration (per virtuell dator)

  • Windows Server 2019
  • Lagringsutrymme: 800 GB tilldelat, 620 GB använt
  • 8 vCPU:er
  • 60 GB RAM (55 GB i misslyckad lägeskonfiguration)
  • SQL Server 2019
    • Databasstorlek: 1,500 XNUMX skala
    • Virtuell klientbelastning: 15,000 XNUMX
    • RAM-buffert: 48GB
  • Testlängd: 3 timmar
    • 15 minuters förkonditionering
    • 45 minuters provperiod

I våra tester fokuserade vi på latensprestanda, där transaktionsprestandanivån förblev konstant med Benchmark Factory.

Med en belastning på totalt 4 virtuella datorer (2 per nod) mätte vi en genomsnittlig latens på 2.5 ms med en sammanlagd transaktionsbelastning på 12,649 XNUMX TPS.

Genom att öka belastningen till 6VM, ökade den genomsnittliga latensen något till 4ms med en sammanlagd transaktionsbelastning på 18,967 XNUMX TPS.

Vid toppbelastningen på 8VMs (4 per nod) toppade latensen på 6.5 ms i genomsnitt, med en sammanlagd transaktionsbelastning på 25,277 XNUMX. 

Under dessa tester såg vi tydligt fördelen med att ha Optane SSD:erna i denna mix. De tog huvudet av skrivningarna och frigjorde QLC SSD:erna för responsiv läsning som höghastighetskapacitetsnivån. Även när vi fördubblade arbetsbelastningen till åtta virtuella SQL Server-datorer som träffade detta HCI-kluster, ökade latensen bara något, vilket visade att denna konfiguration är väl lämpad för arbetsbelastningar som kan brista från tid till annan. 

Även om prestanda i en fullt fungerande miljö är viktig, är ett annat övervägande hur arbetsbelastningarna kommer att fungera om en nod i klustret går offline eller om arbetsbelastningar måste migreras för systemunderhåll. För att testa detta scenario behöll vi vår fulla last på 8VM och migrerade dem till en enda nod. I den här installationen mätte vi en genomsnittlig latens på bara 4.5 ms, vilket var bättre än båda noderna online. En del av detta är från borttagandet av lagringsoverhead i drift med en enda nod.

Slutsats 

För det här projektet körde vi en serie SQL-tester på systemet för att illustrera de prestandabelastningar som vanligtvis finns i edge- och SMB-användningsfall. Vårt mål var att förstå hur effektivt Microsoft Azure Stack HCI i detta DataON-kluster kunde utnyttja hårdvaran för att åstadkomma de önskade resultaten. Specifikt innebär detta att tillhandahålla en lösning som erbjuder en sällsynt kombination av prestanda och värde.

Vi kan bekräfta genom våra tester att DataONs komponentval verkligen lyckades skapa en kostnadseffektiv Azure Stack HCI SDS-lösning som presterar extremt bra. Detta beror delvis på deras val att använda Intel SSD D5-P4326 för kapacitetslagring, som effektivt drar fördel av Intel Optane SSD:er för nivåindelning. 

Detta är en kritisk uppfattning, eftersom QLC SSD:erna ger massiv, tät kapacitet till klustret, samtidigt som de ger TCO-fördelarna som kommer med flashlagring. För att slå poängen, möjliggör QLC-enheterna 15.36 TB kapacitet per 2.5” enhetsfack. Det skulle ta 8 2TB hårddiskar i RAID 0 för att matcha kapaciteten, eller byta till ett 3.5” chassi för att dra fördel av större men ännu långsammare hårddiskar. Hursomhelst, prestandaminskningen från Intel QLC-enheten till hårddiskarna är mer än betydande; det är en exponentiell skillnad när det gäller applikationskänslighet.

Så mycket som vi vill att alla läsningar och skrivningar ska komma från Optane SSD:erna (eftersom de är de högst presterande medierna i den här konfigurationen), ibland kommer det att bli en miss. I så fall kommer QLC SSD-prestandan att avbryta hårddiskar, vilket skyddar HCI-klustret från prestandaoregelbundenheter som är vanliga i topologier som kombinerar flash- och hårddiskar. Faktum är att vi såg en så balanserad prestanda här att företag i allmänhet i framtiden kan behöva tänka om HDD/blixtdesign och luta sig mer mot QLC/Optane-design för att dra största möjliga nytta av HCI. 

Den andra stora oro kring 2-nodskluster är prestanda i ett försämrat tillstånd. Vi testade detta genom att misslyckas med en nod och gav all SQL-arbetsbelastning till en enda nod. I det här fallet var SQL mer lyhörd och presterade lite bättre än i 2-nod, mest på grund av den minskade overheaden från nod-till-nod-kommunikation. Naturligtvis föreslås det inte att köra i ett degraderat tillstånd som detta länge, men det är betryggande att veta att det kan göras utan att offra prestanda. 

Sammantaget var HCI-224 HCI-klustret med D5-P4326 QLC SSD:er enkel att distribuera, lätt att använda och tillräckligt kraftfull för ett brett utbud av arbetsbelastningar. Dess prisläge gör den också tillgänglig för ett brett spektrum av användare. Utöver det har detta system certifierats för Microsoft Windows Server 2019 och validerats som en Intel Select Solution. 

DataON Intel QLC Infographic

Data på

Engagera dig med StorageReview

Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | Rssflöde

Denna rapport är sponsrad av DataON. Alla åsikter och åsikter som uttrycks i denna rapport är baserade på vår opartiska syn på produkten/de produkter som övervägs.