Hem Företag Vikten av motståndskraft och klusterhantering i ROBO HCI

Vikten av motståndskraft och klusterhantering i ROBO HCI

by Tom Fenton
Dell EMC AX-640

Utplaceringen och den löpande hanteringen av datorresurser i små kontor och fjärr-/kontorsmiljöer (ROBO) har alltid varit problematisk, med många olika och konkurrerande faktorer som spelar in. Många företag, såväl som små och medelstora företag (SMB), är beroende av ROBO HCI-system för att hantera de dagliga affärskritiska transaktionerna som är livsnerven i dessa organisationer. Dessa system måste vara billiga men ändå prestanda, erbjuda redundans men ändå ha så få komponenter som möjligt och vara väl underhållna men inte ha dyra IT-resurser och personal dedikerad till varje plats.

med Dell EMC Solutions för Microsoft Azure Stack HCI

Utplaceringen och den löpande hanteringen av datorresurser i små kontor och fjärr-/kontorsmiljöer (ROBO) har alltid varit problematisk, med många olika och konkurrerande faktorer som spelar in. Många företag, såväl som små och medelstora företag (SMB), är beroende av ROBO HCI-system för att hantera de dagliga affärskritiska transaktionerna som är livsnerven i dessa organisationer. Dessa system måste vara billiga men ändå prestanda, erbjuda redundans men ändå ha så få komponenter som möjligt och vara väl underhållna men inte ha dyra IT-resurser och personal dedikerad till varje plats.

Lyckligtvis har IT-leverantörer insett de unika utmaningarna med ROBO-system och har kommit på lösningar för att hantera dem. I den här artikeln kommer vi att titta på hur Dell Technologies hårdvara som kör Microsoft-programvara tacklar dessa utmaningar. Vårt tillvägagångssätt kommer att skilja sig lite från det i våra vanliga artiklar där vi vanligtvis fokuserar på systemets prestanda. Även om vi kommer att köra prestandatester på systemet, kommer vi också att ta en titt på hela livscykeln från och med dess ursprungliga storlek.

ROBO HCI Introduktion

Systemet som vi kommer att titta på i den här artikeln är ett Dell EMC-lösningar för Microsoft Azure Stack HCI kluster med 2 AX-noder som kör Windows Server 2019 (2NC). Tidigare i år släppte Dell Technologies AX-noder speciellt utformade (med validering och certifiering) för att köra Azure Stack HCI. Dell Technologies erbjuder för närvarande tre olika nodtyper i sin lösningskatalog: AX-640, AX-740xd och AX-6515. Var och en av dessa modeller ger kunderna möjlighet att designa den idealiska plattformen för deras ROBO HCI-distributioner genom konfiguration med olika komponenter.

AX-640- och AX-740xd-noderna är dual-socket-noder som använder andra generationens Intel Xeon Scalable-processorer, medan AX-6515 är en enkelsockelnod som kör en 64-kärnig Gen 2 AMD EPYC-processor. Dell EMC:s AX-modeller låter kunderna välja de noder som bäst passar deras användningsfall. AX-640 är anpassad för arbetsbelastningar med datordensitet, AX-740xd för tunga arbetsbelastningar med lagringskapacitet och AX-6515 för användare som behöver ett värdeoptimerat system och processordiversifiering i sina företagsdatacenter.

Dell EMC Azure frontvinkel

Systemet som vi kommer att titta närmare på i den här artikeln är AX-640, en dual-socket 1U-nod som stöder 96 till 768 GB RAM. Den kan konfigureras med 3 till 92 TB NVMe-, SSD- och/eller HDD-lagring för att skapa hybrid- eller all-flash-lagring. Det är för närvarande den enda noden i AX-portföljen som stöder Intels ultrahögpresterande Optane Persistent Memory och SSD-enheter. När den är korrekt konfigurerad är AX-640-noden en stark utmanare om titeln på den snabbaste HCI-noden som finns kommersiellt tillgänglig. Dell Technologies har ett trevligt diagram som beskriver deras Azure Stack HCI-konfigurationsalternativ för deras AX-noder.

StorageReview-Dell-Azure-Stack1

AX-640-noden som vi kommer att använda i den här artikeln kom utrustad med dubbla Intel Xeon 6230-processorer, 384 GB DDR4-minne samt tio 4TB NVMe SSD:er.

Att ha tillförlitlig och presterande hårdvara är bara halva historien när man implementerar en ROBO HCI-lösning; den andra hälften är programvaran. I det här fallet kommer vi att köra ett Azure Stack HCI-validerat system. Azure Stack HCI tillåter kunder att köra ett Windows Server OS med den extra fördelen att sömlöst ansluta till Azure-molnet för ytterligare tjänster (som säkerhetskopiering och katastrofåterställning) via Microsoft Windows Admin Center. Azure-tjänsterna integreras via WAC-tillägg från samma hanteringsplan.

Azure Stack HCI använder Hyper-V för sin hypervisor och Storage Spaces Direct för sin lokala lagring. Att använda en 2NC för ROBO HCI-distributioner kan avsevärt sänka kostnaden för implementering. För extremt kostnadsmedvetna implementeringar kan den konfigureras för att fungera i en 2NC-konfiguration utan en switch i en enkel- eller dubbellänkskonfiguration för dess lagringsstruktur. För switchade implementeringar kommer ett 10GbE-nätverk att fungera. Dell Technologies rekommenderar ett 25GbE-lagringsnätverk eftersom det inte kommer att kosta mycket mer än 10GbE-nätverket.

Det är uppenbart att minska den investering som ett företag gör i utrustning en icke-startare om systemet inte är motståndskraftigt. På systembasis stöder Storage Spaces Direct tvåvägs- och trevägsspegling och enkel- och dubbelparitetsraderingskodning. Microsoft har gjort ett bra jobb med att dokumentera lagringseffektiviteten och allmänna fördelar och avvägningar med dessa olika skyddssystem. Vi rekommenderar att du läser den för att avgöra vilket schema som passar bäst för din miljö. Spegling är vanligtvis den mest presterande, vilket är vad vi använde i våra tester.

Azure Stack HCI kan använda kapslad tvåvägsspegling eller kapslad spegelaccelererad paritet som ett alternativ för motståndskraft. Den första ger bättre prestanda och den senare ger större dataeffektivitet. Kapslad tvåvägsspegling gör en RAID 1-kopia av data på värden och på den andra noden. Kapslad spegelaccelererad paritet gör en kopia av datan på varje server men använder raderingskodning, snarare än RAID 1, för dataresiliens (förutom de senaste skrivningarna som använder tvåvägsspegling för att säkerställa tillförlitlighet). Kapslad tvåvägsspegling har en dataeffektivitet på 25 % eftersom fyra kopior av data skrivs till disk; i jämförelse har kapslad spegelaccelererad paritet en dataeffektivitet på 33 % till 40 %.

Båda scheman kan samtidigt stödja ett enhetsfel och ett serverfel.

Varken kapslade resiliensscheman kräver speciell RAID-hårdvara.

Microsoft 2NC-topologi kräver att ett vittne som fungerar som en neutral tredje part lägger till en röst till den överlevande noden för att förhindra ett "split-brain"-scenario. Du kan antingen använda en filresurs (som vi använde i våra tester) eller Azure-molnet som vittne. Microsoft rekommenderar det senare om båda noderna i klustret har en pålitlig internetanslutning. Azure-molnvittnet är ett bloblagringsobjekt medan filresursen är en SMB-filresurs. Vittnet innehåller endast vittnesloggfilen.

ROBO HCI Inköp och distribution

Som utlovat ville vi ta en helhetssyn på vad som krävs för att skaffa, distribuera och hantera ett AX-nodkluster i en ROBO-situation.

Det första steget när du implementerar ett nytt system är att dimensionera det. Dell Technologies gör det enkelt att beräkna utrustningen som kommer att krävas för distribution med Live Optics, ett gratis onlineverktyg som används för att samla in data om en miljös lagring, dataskydd, server och filsystem. Även om den kan få insikter i din miljö bara 24 timmar efter implementeringen, ju längre du låter Live Optics köra, desto bättre förståelse kommer den att ha angående egenskaperna hos de arbetsbelastningar du kör. Live Optics kan samla in data från Microsoft Windows-, VMware vCenter- eller Linux/Unix-servrar.

Live Optics dashboard kommer att presentera sammanställda insamlade data från CPU, minne och lagringsanvändning i hela din miljö, vilket allt kommer att ge dig en korrekt bild av vilken typ av system du behöver i din miljö. Du kan också dela denna data med andra användare (t.ex. kollegor, VARs, etc.) om du vill att de ska ge storleksrekommendationer.

Data som samlas in från Live Optics används i storleksverktyget Azure Stack HCI som är tillgängligt via Dell Technologies-kontoteamet. Sizer-verktyget har alla Engineerings bästa praxis inbakade för att producera konfigurationsalternativ inte bara för dina nuvarande behov utan de kan ta hänsyn till din framtida tillväxt.

Ett av problemen med ROBO-miljöer är att hitta lokala IT-talanger för att installera och konfigurera dem. Ett sätt att få detta gjort är att använda Dell EMC ProDeploy Services. Det här alternativet hjälper organisationer att påskynda distributionen till fjärrplatser, vilket innebär att de är online och ger mervärde direkt. Alternativt, om du har lokala resurser och vill distribuera det själv, har Dell dokumentation och skript som leder dig genom processen.

En av de största huvudvärkarna för alla organisationer är att stödja ett system. En stor del av besväret med att stödja komplexa system är de många inblandade hårdvaru- och mjukvaruleverantörerna. Till exempel kan du ha en leverantör som tillhandahåller servrarna och lagringen, en annan som tillhandahåller nätverksväxlar och en tredje som tillhandahåller operativsystemet. Dell EMC ProSupport har hjälpt till att effektivisera denna process genom att ha dedikerad supportpersonal för sina HCI-lösningar. Dessa supportingenjörer är utbildade och kunniga om både hårdvaran och programvaran i ett Dell Azure Stack HCI-system, och om det behövs känner de rätt personer att eskalera problem till.

Vi hade möjlighet att använda Dell Technologies HCI dedikerade supportpersonal när vi oavsiktligt felkonfigurerade vårt system när vi installerade det. Supportingenjören som vi arbetade med var mycket kunnig och kunde hjälpa oss att reda ut den röra som vi hamnade i.

Daglig hantering av AX Node

I den perfekta världen skulle ROBO HCI-distributioner inte kräva någon hantering alls. Det är dock inte verkligheten och Dell Technologies och Microsoft har det näst bästa alternativet. När systemen är placerade på en avlägsen plats med lite eller inget lokalt IT-stöd är det viktigt att ha de verktyg som krävs för systemunderhåll. Dell Technologies gör detta genom att använda Windows Admin Center (WAC) med vissa tillägg anpassade till deras egen IP, Dell EMC OpenManage Integration for Windows Admin Center.

WAC är ett webbläsarbaserat hanteringsplattformsverktyg för att hantera Windows 10 och Windows Server. Den är installerad på ett klientsystem och använder fjärrstyrd PowerShell och Windows Management Instrumentation (WMI) över Windows Remote Management (WinRM) för att övervaka och hantera Windows-systemen såväl som Azure Stack HCI-klustren.

WAC:s översiktsfönster ger en sammanfattning av ett systems resursutnyttjande och verktyg för att hantera ett systems certifikat och enheter. WAC låter dig också se händelser och processer, installera roller och funktioner och hantera lokala användare och grupper, brandväggar, tjänster och lagring.

Dell Technologies utnyttjade WAC:s utbyggbarhet och skapade Dell EMC OpenManage Integration med Microsoft Windows Admin Center (OMIMSWAC). Denna designades för att underlätta och förenkla processen med djupgående hårdvaruövervakning och inventering och orkestrering av BIOS, firmware och drivrutinsuppdateringar. OMIMSWAC använder funktionen Cluster-Aware Update i Windows Server 2019 för att uppdatera AX-noder och Azure Stack HCI-klustret. För att starta OMIMSWAC, klicka Dell EMC OpenManage Integration placerad på bandlisten i WAC.

Vi lade till OMIMSWAC till vårt system genom att starta WAC, klicka Inställningar och då Extensions in Dell EMC i söktextrutan, välj Dell EMC Open Manage Integration, och sedan klicka installera.

Genom att använda OMIMSWAC för att titta på vårt kluster kunde vi se systemets tillstånd och dyka ner i hårdvaran tillräckligt djupt för att se en inventering av dess komponenter och vilken firmware de använde.

Du kan till och med använda OMIMSWAC för att starta iDRAC-konsolen för out-of-band-hantering av AX-noderna.

När du har upptäckt klustret kan du använda OMIMSWAC för att se en efterlevnadsrapport för noderna på klusternivån. Om systemet som OMIMSWAC körs på har en internetanslutning kommer det automatiskt att ladda ner Dell EMC System Update (DSU) och Dell EMC Inventory Collector (IC) verktyg från downloads.dell.com för att köra efterlevnad och uppdatera målnod(erna) om DSU och IC är inte konfigurerade i inställningarna.

OMIMSWAC lyser verkligen när det gäller att utföra rutinuppgifter, såsom uppdateringar. Inte bara kommer OMIMSWAC automatiskt att ladda ner nödvändiga Dell Update Packages (DUPs), den kommer också att göra en rullande uppdatering av ett kluster för att eliminera driftstopp.

AX Node Testing

När vi tittade på Dell EMC 2-nods HCI-klustret ville vi titta på både dess prestanda och applikationstillgänglighet genom olika felscenarier. För det ändamålet konfigurerade vi ett SQL Server-prestandatest bestående av upp till 8 SQL Server 2019 virtuella datorer som kör Windows Server 2019 balanserade på vårt 2-nodskluster. Varje SQL Server-instans fick sedan en 1,500 350 skala TPC-C-databas där databasen och loggfilerna motsvarade 1.4 GB i kapacitet per instans. Detta gav oss ett databaslagringsfotavtryck som sträckte sig från 4 TB med 2.8VMs upp till 8TB med 15,000VMs. Vi använde Quest's Benchmark Factory som arbetsbelastningsgenerator för detta projekt, med XNUMX XNUMX virtuella användare som interagerar med varje virtuell dator.

Varje virtuell dator tilldelades 8 virtuella processorer och 60 GB RAM tillsammans med dess lagringsutrymme. Med vårt kluster konfigurerat med 384 GB RAM per värd, i vårt misslyckade nodscenario sänkte vi VM RAM-allokeringen till 40 GB för att passa alla 8VM på en enda värd.

Våra fyra scenarier för databastestning var:

  • Arbetskluster: 8VM totalt, 4VM per nod
  • 1 SSD misslyckades på en nod: 8VMs totalt, 4VMs per nod
  • En nod misslyckades: 8 virtuella datorer totalt, 8 virtuella datorer per nod

I vårt första test som mätte prestandan för 8VM, 4 på varje nod, mätte latensen 5ms i genomsnitt.

Även om stark prestanda och låg databaslatens är bra, är det lika viktigt att veta hur en plattform presterar under mindre än optimala förhållanden. Vårt första scenario täckte hur plattformen skulle svara på en misslyckad SSD. Vi satte igång arbetsbördan och direkt efter att den stabiliserats drog vi en enda SSD från en nod. I den situationen avtog prestandan något till 6.5 ms från 5 ms under normala förhållanden.

Vårt andra scenario omfattade hur klustret skulle fungera om en nod var offline för underhåll eller hur saker och ting skulle fungera om en misslyckades. Under båda förhållanden faller allt tillbaka till bara en nod, även om det finns en subtil fördel med att ingen trafik passerar över backend-nätverket. I den här situationen mätte vi en genomsnittlig latens på 5.875ms.

Avslutande tankar

Vi ser mer och mer intresse för 2NCs för ROBO-applikationer. Företag letar efter system som är rimligt prissatta, stenhårda och som bara kräver en minimal mängd interaktion med IT-personal eftersom tillgången till dem kan vara problematisk. Dell EMC Solutions for Azure Stack HCI markerar alla dessa krav.

AX noder Intel SSD

Vi tittade på vad som skulle krävas för att korrekt dimensionera, förvärva och ställa in ett 2NC ROBO HCI-system. Vi var imponerade över hur enkelt det var med Dell Technologies. Efter att ha tittat på den första systeminstallationen tittade vi sedan på vad som skulle krävas för att underhålla systemet och blev återigen imponerade över hur lätt WAC gjorde denna process. Vad som verkligen blåste bort oss var Dell Technologies OMIMSWAC-integrering eftersom den utförde en rullande uppgradering av vårt system, som täckte allt från firmware och uppåt, med lite operatörsinteraktion. Detta är en grundläggande skillnad för Dell Technologies, eftersom detta djup av integration är unikt för Azure Stack HCI-leverantörer.

När vi körde våra riktmärken på systemet fann vi en stark applikationsprestanda under optimala förhållanden. Våra SQL Server TPC-C-arbetsbelastningar mätte 2.25 ms över fyra virtuella datorer i 1,500 5 skala jämnt placerade på klustret och 8 ms när den arbetsbelastningen ökades till åtta virtuella datorer. Vad som dock var ännu mer imponerande var hur bra klustret presterade med en misslyckad SSD eller endast en nod i drift. Under det första scenariot med en misslyckad SSD ökade vår 5VM-arbetsbelastning från 6.5 till 5.875 ms latens. Med en nod helt offline dock, tog latensen knappt upp till XNUMX ms.

För att sammanfatta våra tester på det här systemet fann vi att det lätt kunde hantera den belastning som ROBO-installationer skulle lägga på det. Det här är viktigt; dessa typer av installationer borde oroa sig mycket mindre för prestandaförmågan hos ett system som detta och mer för långsiktig drift. Till den första punkten har Dell Technologies konstruerat dessa AX-noder till en nivå där prestanda i stort sett är irrelevant. Alla våra tester validerar att även aggressiva SQL Server-arbetsbelastningar absorberades utan problem.

Om prestandan löses effektivt för ROBO HCI-användningsfall, måste organisationerna vända sig till dag 2-verksamheten. Här börjar Dell EMC AX-noderna verkligen dra iväg, integrationen med WAC för klusteruppdateringar är kritisk ur ett pågående förvaltningsperspektiv. Dell Technologies är en tydlig ledare på denna front när det gäller Azure Stack HCI. Slutligen bör organisationer titta på systemets motståndskraft. Med endast två noder och i många fall utan omedelbar support på plats är drifttiden affärskritisk. I vår testning av flera försämrade tillstånd, soldater AX-noderna på utan avbrott, vilket innebär att kontoret kommer att förbli online utan att det påverkar applikationsprestanda. Det finns ett antal sätt att distribuera Azure Stack HCI, men det finns ingen mer heltäckande lösning än vad Dell Technologies ger till bordet med AX-noder.

Se infografiken

Dell EMC Azure Stack HCI-lösningar

Den här rapporten är sponsrad av Dell Technologies. Alla åsikter och åsikter som uttrycks i denna rapport är baserade på vår opartiska syn på produkten/de produkter som övervägs.