Hem Företag Big Data Analytics möter stort minne med Intel Optane PMem

Big Data Analytics möter stort minne med Intel Optane PMem

by Tom Fenton

När Intel® Optane™ persistent memory (PMem) först kom ut visste vi att det radikalt skulle förändra hur affärer bedrivs i datacentret, men vi kunde inte helt förutse hur många sätt det skulle göra det. Som är fallet med all ny teknik, kände vi till de initiala användningsfallen för persistent minne, men vi förstod också att ytterligare användningsfall skulle dyka upp när de blev allmänt tillgängliga.

När Intel® Optane™ persistent memory (PMem) först kom ut visste vi att det radikalt skulle förändra hur affärer bedrivs i datacentret, men vi kunde inte helt förutse hur många sätt det skulle göra det. Som är fallet med all ny teknik, kände vi till de initiala användningsfallen för persistent minne, men vi förstod också att ytterligare användningsfall skulle dyka upp när de blev allmänt tillgängliga.

DellEMC PowerEdge PMEM 200 Series Server

I våra diskussioner med företag visste vi att de behövde de prestandavinster som minnessystem gav för att förbli konkurrenskraftiga. Att använda DRAM för detta hade kostnads- och storleksbegränsningar som gjorde det svårt med tanke på storleken på data som de ville lagra i minnet. I det här dokumentet kommer vi att titta på hur Intel Optane PMem utnyttjas av Hazelcast och MemVerge, för att övervinna begränsningarna med DRAM för att skapa en infrastrukturkonstruktion som stöder snabba realtidsapplikationer som använder stora datamängder.

Vi gick samman med MemVerge, Hazelcast, Intel och Dell Technologies för att visa hur infrastruktur kan distribueras för att möjliggöra realtidsanalys. Närmare bestämt satte vi upp en miljö som hade en snabbt inkommande ström av realtidsdata som togs in och omvandlades innan den lagrades i en datamart i minnet. Huvudmålet var att visa hur Intel Optane PMem är avgörande för att möjliggöra storskaliga realtidssystem och att ytterligare programvara behövs för att Intel Optane PMem ska kunna realisera sin fulla potential.

Innan vi lyfter fram testerna som vi gjorde, här är en kort uppdatering om Intel Optane PMem, Hasselcast, och MemVerge.

Intel Optane PMem

Persistent minne, som ett koncept, har funnits sedan mitten av 1980-talet, men det blev en verklig användbar produkt för kommersiella datacenter först 2018 när Intel började släppa sina Intel Optane Persistent Memory Modules (PMM). Intel Optane PMem är en spelväxlare för branschen eftersom den är något långsammare än DRAM men är avsevärt snabbare än solid-state-enheter (SSD).

Även om det är långsammare än DRAM, har Intel Optane PMem några distinkta fördelar jämfört med det eftersom det är betydligt billigare, kommer i större minneskapacitetsstorlekar än traditionellt DRAM; och, som namnet antyder, när direktläge i appen är aktiverat, är det beständigt – vilket betyder att data som lagras på den kommer att överleva ett strömavbrott eller omstart av enheten som den finns på.

Intel Data Pyramid 2022

En av hemligheterna med Intel Optane PMems låga latens är att den finns på minnesbussen, vilket gör att den kan ha DRAM-liknande tillgång till data.

Medan DDR4 har en teoretisk maximal kapacitet per modul på 128 GB, är den mest använda kapaciteten mellan 4 GB och 64 GB (men även 64 GB-moduler, även om de är tillgängliga, används inte ofta).

Intel levererar för närvarande Intel Optane PMem i moduler på 128 GB, 256 GB och 512 GB. Detta ger upp till 16 gånger kapaciteten för DRAM.

På en kostnad per GB är Intel Optane PMem ungefär hälften av DRAM. På grund av sin större kapacitet och lägre pris, kan en server ha mer data med låg latens tillgänglig för applikationer till en lägre kostnad än för en server med bara DRAM. Och, som du ser från våra tester, för många applikationer är latensskillnaden mellan DRAM och PMem i verklig användning försumbar.

Intel Optane PMem 128GB sidovyÄven om namnet på tekniken inkluderar ordet "persistens", förbises ofta beständigheten hos data som finns i Intel Optane PMem och har tidigare inte utnyttjats fullt ut. MemVerge har dock utarbetat sätt att dra fördel av datapersistens för att erbjuda ytterligare tjänster till företag.

MemVerge

Med den stora kraft som Intel Optane PMem ger kommer ansvaret att använda det på ett klokt sätt, och det är här MemVerge kommer in. Medan de flesta serverövervaknings- och hanteringsverktyg tittar på äldre hårdvara som CPU, disk och nätverksstatistik, MemVerge® Memory Machine™ är laserfokuserad på övervakning, hantering och användning av DRAM och Intel Optane PMem.

En av de tidiga utmaningarna med Intel Optane PMem var att bestämma hur man skulle tillåta applikationer att använda den. Utan MemVerge Memory Machine kan du använda Intel Optane PMem som ett alternativ till DRAM, men inte som en drop-in ersättning eftersom Intel Optane PMem använder ett specialiserat API. MemVerge abstraherar bort det API så att Intel Optane PMem ser ut precis som DRAM för alla applikationer. Med hjälp av Memory Machine presenteras Intel Optane PMem för applikationer på samma sätt som DRAM är för applikationer. Genom att göra detta kan befintliga applikationer använda Intel Optane PMem utan att behöva byggas om, vilket sparar ett företag kostnaden för att omprogrammera applikationer, och, ännu viktigare, den tid det skulle ta att göra det. Genom sin patenterade teknologi skapar Memory Machine en minnespool och lägger sedan upp Intel Optane PMem och DRAM för att maximera dess inverkan på applikationer genom att flytta data mellan de två efter behov för att optimera applikationsprestanda.

Memory Machines innovativa ZeroIO tillåter minne-till-minne ögonblicksbilder (dvs ögonblicksbilder av data som finns på DRAM till Intel Optane PMem), vilket i själva verket gör DRAM beständigt.

PMem Minnesmaskinhanteringscenter

Tidigare var vi tvungna att lagra ögonblicksbilder i minnet på traditionell lagring, en process som kunde ta så lång tid som en timme. Med ZeroIO kan dock samma operation ske, utan störningar, på några sekunder.

MemVerge använder ZeroIO för att tillhandahålla andra minnesdatatjänster. Tidsresor låter en applikation återgå till tidigare tagna ögonblicksbilder, och nära kopplat till denna funktion är AutoSave som automatiskt tar ögonblicksbilder med tidsbaserade intervall. I de fall då data som lagras i minnet behöver flyttas till en annan fysisk server kan en ZeroIO-ögonblicksbild flyttas till den.

Minnesövervakningen, såväl som underlättandet av ovanstående tjänster, görs genom MemVerge Memory Machine Management Center (M3C).

Även om vi har nämnt att Memory Machine används med databaser, stöder den också ett brett utbud av applikationer: från Autodesks Maya 3D för animering och rendering till TensorFlow (ett ramverk för maskininlärning) samt andra applikationer, inklusive Hazelcast, en produkt vi kommer att lyfta fram i den här artikeln.

Hasselcast

Hazelcast är en viktig innovatör och ledare inom det växande fältet av in-memory-datorplattformar. Deras plattform används av finans-, e-handels- och andra typer av organisationer där realtidsinformation är kritisk; till exempel för att upptäcka bedrägerier och för att hjälpa till med att fatta handelsbeslut.

Hazelcast stöder snabba applikationer på två nivåer. För det första erbjuder det en minneslagring som distribuerar data över flera servrar i ett kluster för att möjliggöra en skalbar virtuell pool av snabbt minne. Processen att lägga till mer data innebär helt enkelt att lägga till en annan server till klustret. För det andra inkluderar Hazelcast en beräkningsmotor som hanterar applikationslogik som är uppdelad i deluppgifter som sedan distribueras över alla processorer i ett kluster av servrar. Detta utnyttjar inte bara klustrets kollektiva beräkningskraft, utan det tillåter också parallell bearbetning av data på ett effektivt och höghastighetssätt (detta inkluderar transformation, anrikning, aggregering och analys). Eftersom Hazelcast kan bearbeta data direkt efter skapandet via sina strömmande datafunktioner, är det användbart för att bygga nästa generation av realtidsapplikationer.

Analysera realtidsdata

Realtidssystem drivs i första hand av två huvudegenskaper: hastighet och skala. Medan hastighet säkerställer att du kan hålla jämna steg med den data som skapas, garanterar skala att du kan hantera volymen av den datan. För att komplicera saken ytterligare kan data komma från många olika källor. Naturligtvis är högre hastigheter och högre skala lika med en högre kostnad, såvida inte innovativa medel används, som att ersätta dyrt DRAM med mer överkomligt Intel Optane PMem.

Realtidsdataanalysfunktioner ger omedelbar insikt i en mängd olika situationer som företag och organisationer kan ställas inför och ger dem den information de behöver för att svara på dem. Till exempel innebär efterlevnad av initiativ som Basel III, där banker måste upprätthålla högre likviditet än tidigare, att de har mindre pengar att utnyttja för att generera intäkter. Samtidigt måste de bevisa att deras dagliga risker förstås så att de inte straffas av revisorer och tillsynsmyndigheter med ännu högre likviditetskrav. Genom att ha realtidssystem för riskhantering och efterlevnad kan banker få omedelbara vyer av sina handelspositioner för att mer effektivt förstå och rapportera sin riskexponering.

För att lyfta fram ett annat exempel, spårar analyssystem för aktiehandel affärer och presenterar dem i en analyserbar form i realtid. Dessa system kan motivera sina höga kostnader på grund av den tydliga avkastningen på investeringen (ROI) via de intjänade intäkterna från aktiehandel.

Testscenario

Applikationen som vi valde att använda för att undersöka dessa teknologier är baserad på en handelsövervakningskodbas skapad av Hazelcast för att visa hur kostnadseffektiv "on-demand analytics" är ett lämpligt alternativ till högkostnadssystem i realtid.

Eftersom detta var ett småskaligt forskningsprojekt gjorde vi några avvägningar som gjorde att vår testmiljö inte helt återspeglade en typisk produktionsmiljö. Till exempel var beräkningskraften hos Dell EMC-servrarna som vi använde mycket kraftfullare än vad vår tillgängliga datakälla behövde, så vi utnyttjade inte fullt ut den tillgängliga CPU-kraften i dem. För enkelhetens skull har vi inte optimerat det externa dataleveranssystemet. I ett produktionssystem skulle alla komponenter ha optimerats och trimmats för att förbättra prestanda och kostnadseffektivitet för denna installation.

Testmål

Den mest kritiska aspekten av våra tester var att ta reda på om Intel Optane PMem kunde upprätthålla en realtidsmatning av data.

Vi avledde att testa åtkomsthastigheterna för aggregerade/indexerade data i en datamart i minnet som stöddes av Intel Optane PMem; i tidigare tester av MemVerge och Hazelcast har riktmärken visat att dataåtkomsthastigheterna har legat mycket nära DRAM-hastigheterna (i många fall har identiska hastigheter för både läsning och skrivning demonstrerats), och därmed mycket snabbare än disk- eller SSD-baserad data åtkomster. Eftersom vi visste att dataåtkomsthastigheterna gav en fördel gentemot andra arkitektoniska konfigurationer, fokuserade vi våra tester endast på intagssidan.

För vår testning genererade vi fiktiv data på datakällservern. Varje dataelement i det inkommande dataflödet representerade en aktiehandel. Aktiesymbolen, kvantiteten, priset och tiden var de mest kritiska värdena. Varje aktiesymbol användes flera gånger i den genererade datamängden för att simulera flera affärer på en dag för en given aktie. Dessa separata affärer aggregerades sedan för att ge en löpande summa av affärer för en given aktiesymbol.

Den genererade datan lagrades i Apache Kafka på grund av dess förmåga att fånga en snabb ström av data. Varje post från Kafka krävde 210 byte, inklusive all metadata i nyttolasten. Kafka konfigurerades för att köra tre separata mäklare, alla på en enda datakälla, och med fyra partitioner på varje mäklare. Denna konfiguration skulle naturligtvis inte användas i en produktionsmiljö eftersom det är orealistiskt att ha en enkällsmaskin för en distribuerad teknik; men det var lämpligt för våra tester.

Testmiljö

Vi använde tre Dell EMC PowerEdge R750-servrar och en Dell EMC PowerEdge R74xd-server för våra tester; tre körde analysapplikationerna med MemVerge Memory Machine och Hazelcast, medan den fjärde skapade och lagrade testdata.

Analytics-servrar

Modell Dell EMC PowerEdge R750
CPU: er Dubbla Intel® Xeon® Gold 6330-processorer @ 2GHz (Ice Lake)

28 kärnor vardera (56 totalt, 112 med Intel® Hyper-Threading-teknik)

DRAM 16 DIMM med 64 GB DRAM DDR4

1 TB per server

Intel Optane PMem 16 DIMM med 128 GB Intel Optane PMem DDR-T-gränssnitt

2 TB per server

Nätverksgränssnitt 10 GbE
Mjukvara MemVerge Memory Machine 1.2

Hazelcast-plattform 5.0

Datakälla Server

Modell Dell EMC PowerEdge R740xd
CPU: er Dubbla Intel® Xeon® Gold 6140-processorer @ 2.3 GHz (Skylake)

18 kärnor vardera (36 totalt; 72 med Intel® Hyper-Threading-teknik)

DRAM 12 DIMM med 32 GB DRAM DDR4 (384 GB)

2 DIMM på 16 GB NVDIMM DDR4 (32 GB)

Intel Optane PMem Behövs inte
Nätverksgränssnitt 10 GbE
Mjukvara Apache Kafka 2.8

Datagenereringsverktyg från Hazelcast

Under våra tester fann vi att mängden DRAM i analysservrarna kunde ha varit betydligt mindre; medan DRAM mestadels användes av operativsystemet, använde applikationen främst Intel Optane PMem med endast en liten mängd DRAM. För att optimera kostnadsbesparingar skulle ett absolut minimum av DRAM på servern vara en rimlig konfiguration.

Testresultat

Vi skapade cirka 5 miljarder poster som lagrades i Kafka för att skapa datakällan. Inmatningsapplikationerna som kördes på de tre applikationsservrarna startades sedan för att mata in data över de tre Hazelcast-instanserna (en Hazelcast-server per Dell Technologies-server).

Vi testade applikationen när vi bara använde DRAM och jämförde det med att använda Intel Optane PMem med MemVerge. Resultaten av våra tester visade att för arbetsbelastningar som till övervägande del var skrivningar såg vi en prestandastraff på 32 % för att endast använda Intel Optane PMem jämfört med rent DRAM (242K vs. 357K). Men när vi använde Intel Optane PMem + DRAM-konfigurationen såg vi bara en straffavgift på 9%. Detta kunde ha minskat ytterligare genom att ha ett ökat antal servrar i klustret för att sprida ut skrivningarna ännu mer. Den extra kostnaden för ytterligare servrar skulle kunna kompenseras genom att skaffa processorer med lägre effekt eftersom den givna arbetsbelastningen inte nödvändigtvis skulle utnyttja hela processorkraften i denna testade hårdvarukonfiguration.

konfiguration Prestanda (rekord per sekund)
Endast DRAM 357,000
Intel Optane PMem assisterad med 50 GB DRAM + minnesmaskin 325,000
Endast Intel Optane PMem + minnesmaskin 242,000

Vi övervägde att prissätta var och en av de konfigurationer vi testade men avböjde att göra det med tanke på potentiella fluktuationer i kostnad och andra faktorer som kan göra dessa uppskattningar snart föråldrade. Oavsett de fastställda kostnaderna kommer Intel Optane PMem assisterad med DRAM dock att vara betydligt mindre än en DRAM-baserad server.

Testtolkning

Vårt viktigaste bidrag från våra tester var att ett kluster av Intel Optane PMem-aktiverade servrar kunde fungera i nästan samma hastighet som ett kluster som bara använde DRAM – men till en betydligt lägre kostnad.

En annan viktig takeaway för oss var att veckor eller månader av data kunde fångas in och lagras med hjälp av Intel Optane PMem, som ger företag möjligheten att inte bara analysera data i realtid utan också ha data tillgänglig för höghastighetsanalys av historiska data. Detta öppnar möjligheter för att analysera trender och mönster som kan avslöja ytterligare insikter med hjälp av avancerade analysverktyg som maskininlärning (ML).

Med andra ord kan företag distribuera en analysmiljö i realtid som täcker ett brett tidsintervall och utforska nya former av analys, utan kostnad eller snabba avvägningar när de distribuerar datalager eller datasjöar.

Övriga tester

Samtidigt som vi hade miljön inställd, ville vi också testa några av MemVerge Memory Machines andra funktioner, i synnerhet dess ögonblicksbild och återställningsfunktioner. Lyckligtvis har Memory Machine integration med Hazelcast-kluster så att ögonblicksbilder och ögonblicksbildsåterställning kan hanteras direkt i M3C.

Ögonblicksbilderna kan tas när som helst på begäran eller enligt ett fastställt schema, och vi testade båda metoderna under vårt klusters toppoperationer. Ögonblicksbilderna slutfördes på några sekunder utan några problem eller påverkade analysens prestanda. Om något hade hänt med Hazelcast-klustret, till exempel ett strömavbrott, kunde data ha återställts med en av våra ögonblicksbilder.

Snapshot-funktionen är inte bara användbar för skydd utan den kan också användas för att öka utnyttjandegraden av servrar. I finansiella institutioner används servrar hårt under normala öppettider men är relativt inaktiva under öppettider. Genom att använda ett hot start-schema kan utnyttjandegraden av servrarna förbättras dramatiskt. Till exempel, i slutet av handelsdagen, kan en ögonblicksbild av handelsdatabasen tas. Sedan när handelsdatabasen stängs av kan servrarna ställas in på andra databearbetningsuppgifter som datautvinning. I början av en handelsdag kan handelsdatabasen snabbt återställas och handelsverksamheten kan återupptas.

Slutsats

Intel Optane PMem är en spännande och transformativ teknik som börjar omforma datacentret, men som med alla andra teknologier existerar den lyckligtvis inte i ett vakuum. Ledande, framåtblickande företag som Dell Technologies, Intel, MemVerge och Hazelcast hittar synergier och börjar utnyttja denna nya teknik för att hitta sin verkliga potential i datacentret: Intel Optane PMem-moduler erbjuds till ungefär halva kostnaden för DRAM; Dell Technologies har servrar som stöder de enorma mängder minneskapacitet med låg latens som Intel Optane PMem tillhandahåller; Hazelcast tillåter applikationer att dra fördel av dessa teknologier i stor skala; och MemVerge tillhandahåller övervakning, hantering och datatjänster för Intel Optane PMem, och genom att abstrahera bort DRAM API får det Intel Optane PMem att framstå som DRAM för befintliga applikationer, vilket gör att de kan köras utan att modifieras eller omarbetas.

Om allt annat är lika, skulle företag välja realtidsaktiviteter kontra batchaktiviteter. Men eftersom allt inte är lika, är batchbearbetning ofta det valda mönstret för att undvika kostnader förknippade med realtidsbearbetning. Men eftersom kundernas förväntningar fortsätter att stiga i en värld som blir allt mer realtidsorienterad, måste företag hitta nya sätt att skapa en konkurrensfördel. Genom att utnyttja realtidshastigheter utan att drabbas av de traditionella kostnaderna för in-memory computing, kan ledande företag ta steget med tekniker som Intel Optane PMem, MemVerge och Hazelcast för att bygga lösningar som hjälper dem att svara på deras och deras kunders krav , snabbare än någonsin tidigare.

Hasselcast

MemVerge

Denna rapport är sponsrad av MemVerge. Alla åsikter och åsikter som uttrycks i denna rapport är baserade på vår opartiska syn på produkten/de produkter som övervägs. Intel, Intels logotyp och Intel Optane är varumärken som tillhör Intel Corporation eller dess dotterbolag.

Engagera dig med StorageReview

Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | Rssflöde