Hem Företag Micron P320h 2.5″ PCIe Application Accelerator Review

Micron P320h 2.5″ PCIe Application Accelerator Review

by Kevin OBrien

I mars förra året tillkännagav Micron en ny 2.5" formfaktor för deras P320h applikationsacceleratorkort. PCIe-kort har varit de facto-standarden för alla företag som vill få maximal respons från sin lagring. Formfaktorn lider dock av problem som inte stör traditionella 2.5" och 3.5" formfaktorer som hot swapability. Det är sällan praktiskt att stänga av en server och ta bort den från ett rack för att serva lagringen inuti. Således möjliggör 2.5" PCIe-formfaktorn den hastighet som PCIe-gränssnittet kan leverera, med den servicevänlighet som standarddiskar erbjuder. Naturligtvis betyder ett nytt gränssnitt lite utan serverstöd, och som en del av tillkännagivandet från Micron gick Dell upp med serverstöd för de nya diskarna i många av deras 12:e generationens PowerEdge-servrar. Dell-servrarna, som vår Dell PowerEdge R720 12G med Express Flash (Dells varumärke på 2.5" PCIe), erbjuder upp till fyra 2.5" P320h-enheter tillgängliga med standardåtkomst på framsidan av servern via ett specialiserat bakplan.


I mars förra året tillkännagav Micron en ny 2.5" formfaktor för deras P320h applikationsacceleratorkort. PCIe-kort har varit de facto-standarden för alla företag som vill få maximal respons från sin lagring. Formfaktorn lider dock av problem som inte stör traditionella 2.5" och 3.5" formfaktorer som hot swapability. Det är sällan praktiskt att stänga av en server och ta bort den från ett rack för att serva lagringen inuti. Således möjliggör 2.5" PCIe-formfaktorn den hastighet som PCIe-gränssnittet kan leverera, med den servicevänlighet som standarddiskar erbjuder. Naturligtvis betyder ett nytt gränssnitt lite utan serverstöd, och som en del av tillkännagivandet från Micron gick Dell upp med serverstöd för de nya diskarna i många av deras 12:e generationens PowerEdge-servrar. Dell-servrarna, som vår Dell PowerEdge R720 12G med Express Flash (Dells varumärke på 2.5" PCIe), erbjuder upp till fyra 2.5" P320h-enheter tillgängliga med standardåtkomst på framsidan av servern via ett specialiserat bakplan. 

Eftersom 2.5" PCIe-enheterna i huvudsak är halverade versioner av de större syskonen, reduceras kapaciteten i enlighet med detta. Micron och Dell erbjuder enheterna i 175 GB och 350 GB kapacitet för upp till 1.2 TB som fyller alla fyra platserna i en PowerEdge 12G-server. Intressant nog diskarnas prestanda halveras inte exakt även om de är 4 banor i motsats till 8 banor i fullstorlekskort. Båda kapaciteterna erbjuder slumpmässig läs IOPS i 415,000 785,000-intervallet, jämfört med 1.75 3.2 i fullstorlekskort, och sekventiell läskapaciteten är upp till XNUMX Gb/s, jämfört med XNUMX Gb/s.

Även om servrar kan få prestanda av PCIe-flash i framsidan av systemet, finns det lite kompromisser. Bakplanet tar upp det utrymme som vanligtvis är dedikerat till den andra satsen av 8 x 2.5" enhetsfack som vanligtvis finns i en 2U-server. Så i 2U-fallet kan en server konfigureras med upp till fyra 2.5" P320h-flashenheter och uppåt till 8 standard 2.5"-enhetsfack. Den andra uppenbara potentiella oro är att dessa enheter inte kan konfigureras i en hårdvaru-RAID på grund av gränssnittet. De kan dock placeras i mjukvaru-RAID.

Dell för sin del tar upp dessa problem på några sätt. För det första accepteras avvägningar som kvantitet för enhetsfack eller total kapacitet i allmänhet av de som använder den här plattformen eftersom deras oro mer handlar om att driva en viss nivå av lagringsprestanda till applikationer samtidigt som de drar nytta av fördelarna med servicevänlighet. För dem som har databaser som är för stora för en enda 2.5" P320h att hantera och mjukvaru-RAID inte är genomförbart, har Dell släppt Fluid Cache programvara, som kan göra det möjligt för 2.5-tums P320h-enheterna att accelerera hårddiskar med högre kapacitet i de andra fack. Det är också värt att notera att denna speciella installation inte är för alla; det är fortfarande en framväxande lösning som drar ihop det bästa av rasen hårdvara för att erbjuda något som annars inte finns på servermarknaden. 

I denna recension inkluderar vår konfiguration en Dell R720 med alla fyra Express Flash-platser fyllda med 350 GB 2.5" Micron P320h-enheter. 

Micron P320h 2.5" PCIe-specifikationer

  • Kapacitet
    • 175 GB (MTFDGAL175SAH-1N3AB)
    • 350 GB (MTFDGAL350SAH-1N3AB)
  • Micron SLC NAND (34nm)
  • Gränssnitt: x4 PCIe Gen2
  • Kontakt: SATA/SAS/PCIe-kombination
  • Micron RAIN (redundant array av oberoende NAND)-teknik
  • Stöd för kommandouppsättningar för självövervakning, analys och rapporteringsteknik (SMART).
  • Prestation
    • Sekventiell läs-/skrivprestanda: Upp till 1.75/1.1 GB/s
    • Slumpmässig läs-/skrivprestanda: Upp till 415,000 145,000/XNUMX XNUMX IOPS
    • Latens: <50μs
  • Effekt
    • Aktiv strömförbrukning: 25W (max)
    • Strömförbrukning vid tomgång/standby/viloläge (genomsnitt): 6.5W
  • Driftstemperatur: 0C-70C – temperaturstrypningsstöd
  • Chock och vibration
    • Stöt: 400G vid 2.0ms
    • Vibration: 3.1 grms, 5–500 Hz, 30 minuter per axel
  • Okorrigerbar bitfelfrekvens: <1 sektor per 1017 lite läst
  • MTTF: 2 miljoner enhetstimmar
  • Uthållighet – Drive livslängd: 12.5 PB (175 GB), 25 PB (350 GB)
  • Dell-serverstöd – PowerEdge 12G-bakplanet stöder upp till fyra enheter 
  • Mått (HxBxL): 15 x 69.85 x 100.5 mm
  • Vikt: 172g (175GB), 175g (350GB)

Design och bygga

När man tänker på Microns 2.5" P320h är det i grunden som om Micron halverade en standard PCIe P320h och packade om den i 15 mm 2.5" formfaktorn. Från ytan skulle de flesta aldrig märka; även porten ser ganska lik ut ett standard SAS-gränssnitt. Magin ligger dock i det specialiserade bakplanet som vi kan se i R720 nedan. 

Det specialiserade bakplanet stöder upp till fyra 2.5" P320h-enheter som är anslutna till ett PCIe-expanderkort på serverns baksida. Layouten inuti R720 är ren och lätt att underhålla. Faktum är att Dell har bekräftat att bakplanet, expanderkortet och Alla kablar kan uppgraderas allt eftersom lagringen utvecklas, nämligen till NVMe. Plattformens flexibilitet är övertygande för tidiga användare som vill kunna migrera sin lagring till det senaste och bästa.

När vi undersöker de enskilda drivenheterna själva är höljet konstruerat av massivt aluminium och dess grå färg har ett hållbart, industriellt utseende. Det övre omslaget har en Dell-produktinformationsetikett som innehåller all relevant information (kapacitet, modell, etc.). Sidoprofilerna visar de fyra skruvhålen som gör att frekvensomriktaren kan monteras i hot-swap-enhetscaddies. När du flyttar till baksidan av enheten finns en Express Bay SFF-8639-kontakt, som liknar en SAS- eller SATA-kontakt, men som också bär x4 PCIe-signal.

Undersidan av höljet är räfflad för att hjälpa till att passivt kyla frekvensomriktaren, och med drevet demonterat kan vi se att insidan av botten av höljet är fodrad med flera termiska värmekuddar. Dessa termiska kuddar drar in värmen som sedan försvinner genom fodralet.

Inuti, 2.5" Micron P320h, finns en anpassad 16-kanals Micron/IDT ASIC-kontroller, liknande den som används i HHHL Micron P320h i full storlek men med hälften av minneskanalerna. Micron levererar även NAND-paketen som sprids över två PCB, totalt 512 GB vilket är överprovisionerat till 350 GB användbart.

Den översta PCB:n innehåller kontakten, styrenheten och DRAM och 8 NAND-paket. Det nedre kretskortet har en strömlinjeformad layout med 12 NAND-paket som kantar mitten på ena sidan och 12 på den andra. Den innehåller också två kontakter på varje sida av kretskortet för att ansluta båda dotterkorten.  

Testa bakgrund

Vi använde vår Dell PowerEdge R720 12G som testplattform för 2.5" Micron P320h, eftersom den var utrustad med Dells Express Flash-konfiguration som använder Micron SSD. Vårt testsystem konfigurerades med följande hårdvara:

  • 2 x Intel Xeon E5-2640 (2.6 GHz, 15 MB cache, 6 kärnor)
  • Intel C602 Chipset
  • Minne – 192GB (24 x 8GB) 1333Mhz DDR3-registrerade RDIMM
  • CentOS 6.3 64-bitars
    • 8 x 300 GB Seagate Savvio 15K.3 i RAID10 för uppstart

Applikationsprestandaanalys

På företagsmarknaden är det en enorm skillnad mellan hur produkter presterar på papper och hur de presterar i en produktionsmiljö. På StorageReview förstår vi vikten av att expandera till applikationstestning, där vårt första test är vårt MarkLogic NoSQL Databas Storage Benchmark. Även om syntetiska tester kommer att fortsätta att vara en viktig del av våra recensioner, planerar vi att utöka våra applikationstester till att täcka ett brett spektrum av områden, inklusive VDI-prestanda, VM-belastningsgenerering, utökade databasprestandatester och många andra områden.

I vår MarkLogic NoSQL Database-miljö testar vi grupper om fyra SATA- eller SAS SSD-enheter, enkla PCIe-lösningar i full storlek med en användbar kapacitet som är större än eller lika med 200 GB. Eftersom vår Dell PowerEdge R720 12G kom utrustad med fyra Express Flash SSD:er, utnyttjade vi dem alla i vårt MarkLogic-test, och dedikerade en per databaskluster. Vår NoSQL-databas kräver ungefär 650 GB ledigt utrymme att arbeta med, jämnt fördelat mellan fyra databasnoder. I vår testmiljö använder vi en SCST-värd (som R720 satt i som) och presenterar varje enskild SSD i JBOD, med en tilldelad per databasnod. Testet upprepas över 24 intervaller, vilket kräver mellan 30-36 timmar totalt för SSD:erna i denna kategori. Genom att mäta de interna latenserna som ses av MarkLogic-mjukvaran, registrerar vi både total genomsnittlig latens, såväl som intervalllatens för varje SSD.

Dell PowerEdge R720 12G är den första servern i datorsegmentet som vi har kört genom MarkLogic NoSQL-testet som erbjuder högpresterande flash från fabrik. Den hade i genomsnitt en total latens på 1.239 ms, vilket var utmärkt och tog topplaceringen i vår totala ranking.

Om vi ​​tittar på den totala genomsnittliga latensen i varje område vi mätte, registrerade vi toppar så höga som 16ms, med de flesta toppar som mätte mellan 3-11ms.

Syntetisk arbetsbelastningsanalys för företag

Flashprestanda varierar under förkonditioneringsfasen för varje lagringsenhet. Vår benchmarkprocess för företagslagring börjar med en analys av hur enheten presterar under en grundlig förkonditioneringsfas. Var och en av de jämförbara enheterna raderas säkert med hjälp av leverantörens verktyg, förkonditionerade till steady-state med samma arbetsbelastning som enheten kommer att testas med under en tung belastning på 16 trådar med en utestående kö på 16 per tråd, och sedan testas i fastställda intervall i flera tråd-/ködjupsprofiler för att visa prestanda under lätt och tung användning.

Förkonditionering och primära stationära tester:

  • Genomströmning (Read+Write IOPS Aggregate)
  • Genomsnittlig fördröjning (läs+skrivfördröjning i medeltal)
  • Max fördröjning (maximal läs- eller skrivfördröjning)
  • Latens standardavvikelse (läs+skriv standardavvikelse i genomsnitt)

Vår Enterprise Synthetic Workload Analysis inkluderar fyra profiler baserade på verkliga uppgifter. Dessa profiler har utvecklats för att göra det lättare att jämföra med våra tidigare riktmärken samt allmänt publicerade värden som max 4K läs- och skrivhastighet och 8K 70/30, som vanligtvis används för företagsenheter. Vi inkluderade också två äldre blandade arbetsbelastningar, den traditionella filservern och webbservern, som var och en erbjuder en bred blandning av överföringsstorlekar.

  • 4k
    • 100% Läs eller 100% Skriv
    • 100 % 4k
  • 8k 70/30
    • 70 % läser, 30 % skriver
    • 100 % 8k
  • 128k (sekventiell)
    • 100% Läs eller 100% Skriv
    • 100 % 128k
  • Fil server
    • 80 % läser, 20 % skriver
    • 10% 512b, 5% 1k, 5% 2k, 60% 4k, 2% 8k, 4% 16k, 4% 32k, 10% 64k
  • webbserver
    • 100% läst
    • 22% 512b, 15% 1k, 8% 2k, 23% 4k, 15% 8k, 2% 16k, 6% 32k, 7% 64k, 1% 128k, 1% 512k

Vårt första test är 128k-testet som är ett stort blocksekventiellt test som visar den högsta sekventiella överföringshastigheten. Med en titt på 128 100 prestanda för både 100 % skriv- och 320 % läsaktivitet, uppnådde Micron P4h x 6.88 4.7 GB/s läsning och XNUMX GB/s skriv.

I vår nästa företagsarbetsbelastning tittar vi på en helt slumpmässig 4k-skrivförkonditioneringsprofil med en enastående arbetsbelastning på 16T/16Q. Micron P320h x 4 mätte en skurhastighet på 1.1 miljoner IOPS som planade ut strax under 600,000 320 IOPS. Singeln PXNUMXh mätte nästan samma hastigheter i skala.

I vår förkonditionerande 4k slumpmässiga skrivning 16T/16Q arbetsbelastning varierade Micron P320h från 0.9-1.7ms i burst till 1.8ms i steady-state.

När vi tittar på max latens i vår 4k förkonditioneringsarbetsbelastning, hade Micron P320h toppsvarstider från 70-175 ms i skur som ökade till 60-200 ms när den närmade sig steady-state.

Vid jämförelse av latensstandardavvikelsen skalade Micron P320h x 1 till lägre toppar än Micron P320h x 4, men även den högsta toppen var bara runt 1.3 ms.

Efter att vår 6-timmars förkonditioneringsperiod slutade på Micron P320h x 4, mätte dess slumpmässiga läs 4k-prestanda i stabilt tillstånd en topp på nästan 1.65 miljoner IOPS med en skrivhastighet på 571,173 320 IOPS. Micron P1h x XNUMX visar nästan identisk prestanda i skala.

Genom att jämföra genomsnittlig latens med en tung 16T/16Q arbetsbelastning med 100 % 4k slumpmässig läsaktivitet, mätte Micron P320h x 4 0.62 ms i läsaktivitet och 1.79 ms i skrivaktivitet - nästan samma som Micron P320h x 1.

När vi jämförde max latens i vårt 4k steady-state test, hade Micron P320h x 4 en maximal läslatens på 115.9 ms och en topp skrivlatens på 27.3 ms. Micron P320h x 1 presterade bättre med en maximal läslatens på 45.4 ms och en maximal skrivlatens på 6.2 ms.

Om man tittar på latensstandardavvikelsen levererade Micron P320h x 1 lite mer latenskonsistens är både läs- och skrivaktivitet.

Vårt nästa test går över till en 8K 70/30 blandad arbetsbelastning där Micron P320h x 4 hade bursthastigheter som mätte upp till 900,000 480,000 IOPS innan den planade ut till cirka 320 1 IOPS i stationärt tillstånd. Återigen matchade Micron PXNUMXh x XNUMX prestanda i skala.

Genom att jämföra genomsnittlig latens i vår 8k 70/30 förkonditionering 16T/16Q arbetsbelastning, erbjöd Micron P320h x 1 och x 4 burst latens mellan 2.0-1.2 ms som ökade till 2.2 ms nära steady-state.

Med en 8k 70/30 arbetsbelastning varierade topplatensen från Micron P320h x 4 från 25-130 ms under burst till 40-80 ms när den närmade sig steady-state.

Om man jämför latenskonsistensen i vår 8k 70/30 förkonditioneringsarbetsbelastning, hade Micron P320h x 4 något högre standardavvikelse än Micron P320h x 1.

Jämfört med den fasta arbetsbelastningen med 16 trådar och max 16 köer som vi utförde i 100 % 4K-skrivtestet, skalar våra profiler för blandad arbetsbelastning prestandan över ett brett utbud av kombinationer av tråd/kö. I dessa tester spänner vi över vår arbetsbelastningsintensitet från 2 trådar och 2 köer upp till 16 trådar och 16 köer. I vårt utökade 8K 70/30-test skalade Micron P320h x 4 från 150,000 450,000-2 16 IOPS med högre IOPS från 320T/1Q. Micron PXNUMXh x XNUMX skalade på liknande sätt i skala.

I det skalade genomsnittliga latenssegmentet i vårt 8k 70/30-test skalade Micron P320h från 0.15 ms vid 2T/2Q och ökade till 1.9-2.2 ms vid 16T/16Q.

Max latens i vårt 8k 70/30 huvudtest uppmättes högre på Micron P320h x 4 från och med 8T16Q, med ett totalt intervall på 12-78ms i toppsvarstider.

Latenskonsistensen för Micron P320h x 4 och Micron P320h x 1 var liknande bortsett från en spik som bara nådde upp till 0.87 ms för Micron P320h x 4.

 

Filserverns arbetsbelastning representerar ett större spektrum av överföringsstorlekar som träffar varje enskild enhet, så istället för att sätta sig in i en statisk arbetsbelastning på 4k eller 8k, måste enheten klara förfrågningar som sträcker sig från 512b till 64k. I denna arbetsbelastning erbjöd Micron P320h x 4 en burst-hastighet på 300-365,000 280,000 IOPS, och när den närmade sig stabilt tillstånd klockade den in på cirka XNUMX XNUMX IOPS.

Vid en låg arbetsbelastning i vårt filserverförkonditioneringstest, mätte den genomsnittliga latensen 2.8-3.3 ms, vilket ökade något under testet till 3.6 ms.

Under förkonditioneringsfasen av vårt filservertest varierade toppsvarstiderna från Micron P320h x 4 från 7-35 ms i burst-läge och ökade till 12-70 ms när det närmade sig steady-state.

Vid utvärdering av latenskonsistensen hade Micron P320h x 4 och Micron P320h x 1 i burst-läge nästan identisk latensstandardavvikelse.

Efter att filserverns förkonditionering hade slutförts med en konstant 16T/16Q belastning, föll vi in ​​i våra huvudtester som mäter prestanda på inställda nivåer mellan 2T/2Q och 16T/16Q. I vår huvudsakliga filserver-arbetsbelastning varierade Micron P320h x 4 från cirka 115,000 2 IOPS vid 2T/280,000Q till 16 16 IOPS vid 320T/1Q. Micron PXNUMXh x XNUMX hade liknande märken i skalan.

Genomsnittlig latens från Micron P320h x 4 varierade från 0.52-0.53 vid 2T/2Q till 2.75-3.60ms vid 16T/16Q.

Om man jämför max latens, hade Micron P320h x 4 ett par toppar som hindrade dess prestanda från att matcha Micron P320h x 1 med en topptid på 990ms.

Micron P320h x 4 och Micron P320h x 1 gick från topplatens till latensstandardavvikelse nästan identiskt.

I vår senaste syntetiska arbetsbelastning som täcker en webbserverprofil, som traditionellt är ett 100 % lästest, tillämpar vi 100 % skrivaktivitet för att helt förbereda varje enhet innan våra huvudtester. Under detta stressiga förkonditioneringstest hade Micron P320h x 4 spränghastigheter som mätte mellan 110,000 190,000-77,000 80,000 IOPS, även om siffrorna när den närmade sig stabil prestanda var runt XNUMX XNUMX-XNUMX XNUMX IOPS.

Genomsnittlig latens i vårt stressiga förkonditioneringstest för webbservern började vid 5-10 ms i skur som ökade till 12.5 ms när Micron P320h närmade sig steady-state.

När Micron P320h x 4 närmade sig steady-state varierade dess toppsvarstid mellan 40-55ms.

Latenskonsistensen för Micron P320h skalades lägre när enheten närmade sig stationära förhållanden genom att hålla sig till höger runt 2.5 ms.

Genom att byta till huvudsegmentet i vårt webbservertest med en 100 % läsprofil hade Micron P320h x 4 prestandaskalning från 125,000 365,000-320 1 IOPS. Jämfört med Micron PXNUMXh x XNUMX matchade dessa siffror i skala.

I vårt lästunga huvudtest för webbservern erbjöd Micron P320h en genomsnittlig latensskalning från 0.2 ms vid 2T/2Q upp till 2.2-2.8 ms vid 16T/16Q.

Micron P320h x 4 skalade högre i toppsvarstider från 16T4Q jämfört med Micron P320h. Max latens uppmätt mellan 2-23ms under loppet av arbetsbelastningen.

Genom att byta till latenskonsistens erbjöd Micron P320h latensstandardavvikelse från 0.1-0.68ms.

Slutsats

Den 2.5" Micron P320h PCIe-applikationsacceleratorn är intressant av en ganska lång lista av skäl. Överst på listan är dock att ta prestandapotentialen hos PCIe-flashlagring och pressa ner dem till en frontmonterad formfaktor som är lätt att underhålla. Micron är först med att lansera denna formfaktor på marknaden och Dell är först med att använda den, med en innovativ serverbakplansdesign som är kompatibel med många R720 12G-servrar. Medan plattformen tvingar användare att ge upp fyra enhetsfack, är denna typ av lagring inriktad på marknaden. för, det är förmodligen en acceptabel kompromiss. Detta är verkligen inte och ska inte tolkas som ett massmarknadsspel, det är ungefär lika nisch som det blir för servrar. Men för de med mindre databaser eller större databaser som kan gynnas från Fluid Cache, den nya designen fyller vissa behov perfekt. 

Express Flash-konfigurationen av PowerEdge 720 12G, när den är utrustad med fyra SSD:er, är lätt den snabbaste lagringsplattformen vi har testat hittills och tjänar toppbetyg i alla våra lagringsnormer. När det gäller rå bandbredd kan fyra av 2.5" Micron P320h SSD:erna trycka 6.9 GB/s läsning och 4.7 GB/s skriv med sekventiell belastning. Byt till maximal slumpmässig I/O-genomströmning med 4K-överföringar och systemet har inga problem hanterar 1.6 miljoner IOPS-läsning och 571k IOPS-skrivning i steady-state. När man tittar på vår 8k 70/30-arbetsbelastning, planar R720 ut till 480,000 XNUMX IOPS-steady-state, vilket även av PCIe Application Accelerator-standarder i full storlek kräver två eller fler för att möta eller överträffa det från klassledarna i utrymmet.

Det är inte ofta som en viss server eller lagringsprodukt kan göra anspråk på att vara den snabbaste i branschen, men Dell och Micron har arbetat tillsammans för att göra just det. Vår R720 parad med fyra 2.5" P320h-flashenheter ger poäng som överträffar alla PCIe-kort på marknaden och hade drivrutinsstöd som gjorde att den sammanlagda prestandan kunde skalas mycket bra. För att dessa enheter på bästa sätt har lagring i datorn skulle det ta minst två standard PCIe-kort och beroende på drivrutinsuppsättningen kanske inte erbjuder prestanda som skalar lika bra. Dessutom kan den här plattformen servas från framsidan, vilket gör icke-störande konfigurationsändringar möjliga. 

Fördelar

  • Bästa möjliga prestanda från 2.5" bay
  • Bandbredd och I/O-prestanda i sortimentet av dedikerade all-flash-arrayer
  • Lätt att serva med hot-swap-funktioner

Nackdelar

  • Måste byta ut 8 traditionella 2.5"-fack mot 4 Express Flash-fack

Bottom Line

Kombinationen av Dell-servrar och 2.5" Micron P320h erbjuder en helt unik lagringslösning som ger snabbast möjliga lagring i 2.5" formfaktorn. För användare som vill ha den prestanda som PCIe erbjuder och servicevänligheten hos vanliga frontmonterade enheter har denna lösning en enorm potential.

Dell Express Flash-sida

Diskutera denna recension