Hem Företag DapuStor J5060 SSD-recension: High-Density QLC SSD avstämd för läscentrerad arbetsbelastning

DapuStor J5060 SSD-recension: High-Density QLC SSD avstämd för läscentrerad arbetsbelastning

by Lyle Smith

Även om den lämpar sig för lästunga arbetsbelastningar, begränsar dålig skrivprestanda dess mångsidighet i AI och dataintensiva miljöer.

DapuStor J5060 SSD är en företagsfokuserad NVMe-enhet med hög kapacitet designad för att möta den ökande efterfrågan på tät, energieffektiv lagring i dataintensiva miljöer. Den är baserad på 3D Enterprise QLC NAND Flash och stöder PCIe 4.0 x4-gränssnittet med NVMe 1.4a, inrymt i en standard U.2 15 mm formfaktor. Enheten är designad för situationer där läsprestanda och kostnad per terabyte är avgörande. Detta gör den potentiellt lämplig för applikationer som molninfrastruktur, AI-inferens, big data-plattformar och intelligenta tillverkningspipelines, där skrivoperationer är sällsynta eller förutsägbara.

DapuStor J5060

DapuStor J5060 funktioner och prestandaprofil

Med kapaciteter som skalar upp till 61.44 TB är J5060 en intressant lösning för organisationer som vill konsolidera lagring samtidigt som den fysiska densiteten och strömförbrukningen är i schack. Denna kapacitetsnivå i en enda U.2-enhet är särskilt relevant för hyperskala och företagsmiljöer som hanterar multi-petabyte-datauppsättningar, där rackutrymme och energieffektivitet är verkliga begränsningar. J5060 inkluderar funktioner i företagsklass som stöd för dubbla portar, avancerat skydd för strömavbrott och spänningsoptimering på blixtnivå för att säkerställa dataintegritet och stabilitet i driftsättningar med hög tillgänglighet.

DapuStor J5060 bakväska

När det gäller dess prestanda är J5060 specificerad för lästunga arbetsbelastningar. Den är citerad för att ha en sekventiell läskapacitet på upp till 7,300 1.5 MB/s och stöder upp till 4 miljoner 30K slumpmässig läs IOPS, vilket är starkt för en QLC-baserad enhet. Dess skrivprestanda är dock betydligt mer begränsad, med en specifikation på bara 16K IOPS för 3,000KB slumpmässiga skrivningar, och denna begränsning är konsekvent under hela vår arbetsbelastningstestning. Enhetens skrivbandbredd är klassad till XNUMX XNUMX MB/s. Det håller dock inte bra under långvariga eller djupgående skrivoperationer, vilket kan påverka dess lämplighet för blandade eller skrivintensiva uppgifter.

DapuStor J5060-port

Att använda QLC NAND gör det möjligt för DapuStor att leverera dessa höga kapaciteter till en lägre kostnad, men med kompromisser. Uthålligheten är rankad till bara 0.5 DWPD (Drive Writes Per Day) över fem år, vilket gör J5060 bäst lämpad för läscentrerade applikationer med låga till måttliga skrivvolymer. Arbetsbelastningar som involverar frekventa kontrollpunkter, transaktionsloggning eller aktiv cachelagring kan stressa enhetens uthållighet och avslöja begränsningar i skrivprestanda.

DapuStor J5060 PCb

För ström drar enheten cirka 12 watt vid läsning, upp till 23 watt under skrivning och bara 5 watt vid tomgång. Dessa siffror överensstämmer väl med moderna företagsdatacenters förväntningar, särskilt för högdensitetsinstallationer, där effekt per terabyte är ett växande problem.

I den här recensionen fokuserar vi på 61.44TB-modellen och kommer att undersöka dess verkliga prestandaprofil genom en serie syntetiska och applikationsanpassade arbetsbelastningar.

Specifikationer för DapuStor J5060

J5060
Kapacitet (TB) 61.44
Formfaktor U.2 15 mm
Gränssnitt PCIe 4.0 x4, NVMe 1.4a, Dual-port stöds
Läs-/skrivbandbredd (128K) MB/s 7400 / 3000
Slumpmässig läs/skriv (4KB) K IOPS 1500/30 (16KB)
4K slumpmässig latens (typ) R/W µs 105 (4KB) / 33 (16KB)
4K sekventiell latens (typ) R/W µs 7 (4KB) / 12 (16KB)
Typisk effekt (W) 23
Tomgångseffekt (W) 5
Flash-typ 3D Enterprise QLC NAND Flash
Endurance 0.5 DWPD
MTBF 2 miljoner timmar
UBER 1 sektor per 10^17 bitar avläsning
Garanti 5 år

DapuStor J5060 Prestanda

Checkpointing

För att utvärdera Dapustor J5060 SSD:s verkliga prestanda i AI-träningsmiljöer, använde vi Data and Learning Input/Output (DLIO) benchmarkverktyg. Utvecklad av Argonne National Laboratory, DLIO är speciellt utformad för att testa I/O-mönster i arbetsbelastningar för djupinlärning. Det ger insikter i hur lagringssystem hanterar utmaningar som kontrollpunkter, dataintag och modellträning. Diagrammet nedan illustrerar hur båda enheterna hanterar processen över 99 kontrollpunkter. När du tränar maskininlärningsmodeller är kontrollpunkter väsentliga för att spara modellens tillstånd med jämna mellanrum, vilket förhindrar förlust av framsteg under avbrott eller strömavbrott. Detta lagringsbehov kräver robust prestanda, särskilt under långvarig eller intensiv arbetsbelastning.

Plattformen som valdes för detta arbete var vår Dell PowerEdge R760 som kör Ubuntu 22.04.02 LTS. Vi använde DLIO benchmark version 2.0 från releasen den 13 augusti 2024. Vår systemkonfiguration beskrivs nedan:

  • 2 x Intel Xeon Gold 6430 (32-kärniga, 2.1 GHz)
  • 16 x 64 GB DDR5-4400
  • 480 GB Dell BOSS SSD
  • Seriekablar Gen5 JBOF
    • 61.44TB Dapustor J5060
    • 61.44TB Solidigm D5-P5336

För att säkerställa att vår benchmarking återspeglar verkliga scenarier, baserade vi våra tester på LLAMA 3.1 405B-modellarkitekturen. Vi implementerade checkpointing med hjälp av torch.save() för att fånga modellparametrar, optimerartillstånd och lagertillstånd. Vår installation simulerade ett 8-GPU-system, och implementerade en hybrid parallellitetsstrategi med 4-vägs tensor parallell och 2-vägs pipeline parallell bearbetning fördelade över de åtta GPU:erna. Denna konfiguration resulterade i checkpointstorlekar på 1,636 XNUMX GB, representativt för moderna utbildningskrav för stora språkmodeller.

Sammantaget visade Dapustor J5060 solid konsistens under den inledande fasen av testningen, med tider som svävade runt 575.66 sekunder för de första 33 kontrollpunkterna. 5060J kunde bibehålla högre prestanda innan enheten fylldes på för första gången. Å andra sidan visade Solidigm P5336, även om den initialt var långsammare än J5060, konsekvent prestanda när testerna fortsatte.

 

När med tanke på de totala medelvärdena, hade Dapustor J5060 en tid på 769.44 sekunder, medan Solidigm P5336 slutade i 640.17 sekunder. Detta ger Solidigm P5336 före när det gäller att spara kontrollpunkter snabbare.

Sammantaget klarar Dapustor J5060 kortare operationer bra men kämpar med ihållande skrivningar längre än 30 minuter. Samtidigt är Solidigm P5336 den bättre drivkraften för konsekvent prestanda under långa arbetsuppgifter. Denna svagare skrivprestanda från Dapustor J5060 är uppenbar när dess kontrollpunktshastighet försämras när testet fortsätter.

GPU direkt lagring

GPU Direct Storage är en teknologi som möjliggör direkt dataöverföring mellan lagringsenheter och GPU:er, förbi processorn och systemminnet. Vid traditionell dataöverföring läses data från lagring till CPU:ns minne och kopieras sedan till GPU:ns minne. Denna process involverar flera datakopior, vilket leder till ökad latens och minskad prestanda. CPU:n fungerar som en flaskhals, eftersom den behöver hantera dataöverföring mellan lagring och GPU. GDS eliminerar denna flaskhals genom att direkt tillåta lagringsenheter att överföra data till och från GPU:ns minne.

Vi testade systematiskt varje kombination av följande parametrar i både läs- och skrivbelastningar:

  • Blockstorlekar: 1M, 128K, 16K
  • IOD-djup: 128, 64, 32, 16, 8, 4, 1

När vi granskar våra GDSIO-resultat undersöker vi läs- och skrivprestandan för 61.44TB Dapustor J5060 och Solidigm P5336.

GDSIO sekventiell läsprestanda

Dapustor J5060 uppnår en maximal läsgenomströmning på 4.2 GiB/s vid en 1M blockstorlek med IO-djup på 64 och 128. Vid den minsta blockstorleken (16K) varierar prestanda från 0.1 GiB/s till 0.8 GiB/s när IO-djupet ökar. Detta visar en tydlig preferens för större blockstorlekar med höga IO-djup för optimal genomströmning. Toppprestanda uppnås vid stora blockstorlekar, vilket indikerar enhetens effektivitet vid hantering av bulkdataöverföringar.

Jämförelsevis nådde Solidigm P5336 en liknande maximal genomströmning på 4.3 GiB/s vid samma blockstorlek (1M) men uppnådde den prestandan tidigare på ett IO-djup av 32 och bibehöll den konsekvent på högre IO-djup. Detta tyder på något bättre effektivitet vid hantering av stora blockstorlekar vid ett bredare intervall av IO-djup för Solidigm P5336.

För att ge en bättre jämförande bild har vi ett differentialdiagram som jämför båda enheterna. Ett grönare nyansblock visar en fördel med Dapustor SSD, medan ett block som rör sig till den röda sidan av spektrumet visar en svaghet. Här överträffar J5060 P5336 i 128K-blockstorleken med undantag för 4 till 8 IO-djupen. Genomströmningsfall noteras dock vid högre IO-djup med blockstorlekarna 16K och 1M, vilket indikerar mindre effektivitet i dessa scenarier.

I den sekventiella läslatensjämförelsen upprätthåller Solidigm P5336 konsekvent lägre latens än Dapustor J5060 över nästan alla blockstorlekar och IO-djup. Vid en 16K blockstorlek blir gapet mer uttalat när ködjupet ökar: J5060 toppar vid 2,329 128 μs på ett djup av 5336, medan P1,365 förblir lägre vid 128 4,080 μs. Vid 5060K leder Solidigm återigen över de flesta djup, med undantag vid höga belastningar (5539 5336 μs på J128 mot 1 5336 μs på P29,138) på djup 29,512. Vid XNUMXM blockstorlek upplever båda drivenheterna latenshöjningar som förväntat, men förblir med XNUMX XNUMX XNUMX kontrollerade,XNUMX μs mot XNUMX XNUMX μs på högsta ködjupet.

 

GDSIO sekventiell skrivprestanda

Dapustor J5060 visar en konsekvent skrivgenomströmning på 2.7 till 2.8 GiB/s för 128K och 1M blockstorlekar över alla IO-djup (förutom 128K, 1 IO-djupstorlek, som postade 2.2GiB/s. För 16K-blockstorlekar varierar prestanda från 0.5/1.4 GiB/1.4, GiB/XNUMX. djup, med en topp på XNUMX GiB/s vid högre IO-djup.

Som jämförelse presterar Solidigm P5336 bättre under 128K och 1M blockstorlekar, med en topp på 3.2GiB/s. För mindre blockstorlekar (16K) visar Solidigm P5336 också högre prestanda och når en topp på 1.4 GiB/s vid IO-djup på 16 till 64. Detta indikerar att Solidigm P5336 är något effektivare med mindre blockstorlekar under skrivoperationer.

När vi går till en differentiell vy ser vi ett större gap mellan Dapustor J5060 och skrivprestandan hos Solidigm P5336. Vår genomströmningsjämförelse visar att J5060 ligger bakom P5336 i de flesta områden, särskilt med stora blockstorlekar (1M) över alla IO-djup. Genomströmningsfall når -0.5 GiB/s vid de 4 IO-djupen. Även om det finns prestandavinster på högre IO-djup med 128K-blockstorlekarna, är de inte tillräckligt betydande för att kompensera för den bredare underprestandan.

När man jämför sekventiell skrivlatens mellan Dapustor J5060 och Solidigm P5336, uppvisar båda enheterna liknande beteende vid mindre blockstorlekar som 16K, med Solidigm som håller en liten kant vid lägre IO-djup, medan Dapustor stänger gapet på högre djup (64 och 128). Vid 128K blockstorlekar leder Solidigm återigen på grunda ködjup, men Dapustor levererar konsekvent lägre latens när IO-djupet ökar, vilket indikerar bättre skalning under belastning. Men med 1M blockstorlekar upprätthåller Solidigm en tydlig latensfördel över alla IO-djup, vilket visar betydligt snabbare svarstider under tunga sekventiella skrivbelastningar. Sammantaget presterar Solidigm mer konsekvent, medan Dapustors styrka är mer synlig vid medelstora block och djupare köer.

Sammanfattning av FIO:s arbetsbelastning

Flexible I/O Tester (FIO) är ett benchmarkingverktyg av industristandard som används för att mäta prestandan hos lagringsenheter under en mängd olika scenarier för arbetsbelastning. Pålitlig för sin mångsidighet och tillförlitlighet simulerar FIO verkliga förhållanden och ger insikter om en SSD:s kapacitet och prestandagränser. StorageReview utnyttjar FIO för att erbjuda omfattande analyser, mätning av genomströmning, latens och IOPS över arbetsbelastningsmönster, blockstorlekar och ködjup.

Tillämpade arbetsbelastningar:

  • 128K sekventiell läsning och skrivning
  • 64K slumpmässig läsning och skrivning
  • 16K slumpmässig läsning och skrivning
  • 4K slumpmässig läsning och skrivning

Dessa arbetsbelastningar representerar ett brett spektrum av företagsanvändningsfall, inklusive stora sekventiella överföringar, intensiv slumpmässig I/O som är typisk för databaser och slumpmässiga åtkomster med små block som vanligtvis ses i virtualiserade miljöer.

Detta prestandaavsnitt sammanfattar Dapustor J5060:s prestanda över viktiga syntetiska arbetsbelastningar, inklusive sekventiella och slumpmässiga läs-/skrivoperationer vid varierande blockstorlekar och ködjup. Mätvärden extraheras direkt från analyserad fio-utgång och inkluderar bandbredd (MB/s), IOPS och latenspercentiler upp till 99.9999 %, vilket ger insikt i både genomströmning och svansbeteende under belastning.

128K sekventiell läs- och skrivprestanda

Drive Tråd/IO-djup BW (MB/s) IOPS 99.0% 99.9% 99.99%
Dapustor J5060 1T/64Q 7,482 57,081 1.66 ms 2.02 ms 2.83 ms
Solidigm P5336 1T/64Q 7,479 57,057 1.51 ms 1.66 ms 1.81 ms
Dapustor J5060 1T/16Q 3,023 23,063 0.69 ms 0.69 ms 0.70 ms
Solidigm P5336 1T/16Q 3,364 25,669 2.67 ms 3.48 ms 4.42 ms

Dapustor J5060 levererar imponerande sekventiell läsprestanda vid 128K och når 7.48 GB/s med snäv latenskontroll, även vid högre percentiler. Jämfört med Solidigm P5336 är J5060:s genomströmning i stort sett densamma (7.48 GB/s mot 7.47 GB/s). Solidigm upprätthåller dock en liten fördel i latenskonsistensen, vilket visar upp marginellt lägre svanslatens.

Vid 128K sekventiell skrivning (QD16) uppnår J5060 solid prestanda på 3,023 5336 MB/s med mycket låg latens. Ändå överträffar Solidigm P3,364 detta med en måttlig marginal och når 99.99 4.42 MB/s, fastän med en anmärkningsvärt högre latens, särskilt vid 0.70 % percentilen (5060 ms vs. Dapustors anmärkningsvärt låga XNUMX ms). Detta indikerar att JXNUMX är en starkare kandidat för latenskänsliga sekventiella skrivscenarier.

64K slumpmässig läs- och skrivprestanda

Drive IO-djup BW (MB/s) IOPS 99.0% 99.9% 99.99%
Dapustor J5060 8T/32Q 7,475 114,058 20.05 ms 21.89 ms 25.82 ms
Solidigm P5336 8T/32Q 7,472 114,014 21.36 ms 21.89 ms 22.68 ms
Dapustor J5060 8T/32Q 534 8,151 574.6 ms 708.8 ms 742.39 ms
Solidigm P5336 8T/32Q 857 13,070 196.1 ms 208.6 ms 221.24 ms

I 64K slumpmässiga läsningar (QD256) utmärker Dapustor J5060 med en genomströmning nära 7.4 GB/s och välkontrollerad latens. Solidigms resultat stämmer noga överens (7.47 GB/s), med något bättre maximal percentillatens. Båda enheterna presterar exceptionellt här, med minimala praktiska skillnader.

Skrivprestanda vid 64K slumpmässigt är där J5060 märks kämpar, med kapaciteten som sjunker kraftigt till 534MB/s och latensen ökar markant (742.39ms vid 99.99%). Som jämförelse överträffar Solidigm P5336 avsevärt J5060, och levererar 857 MB/s och drastiskt lägre latens (221.24 ms vid samma percentil), vilket gör den mycket bättre lämpad för applikationer som är känsliga för latens och ihållande skrivgenomströmning.

16K slumpmässig läs- och skrivprestanda

Drive IO-djup BW (MB/s) IOPS 99.0% 99.9% 99.99%
Dapustor J5060 8T/32Q 7,430 453,461 5.28 ms 6.39 ms 8.16 ms
Solidigm P5336 8T/32Q 7,431 453,527 5.01 ms 5.21 ms 5.47 ms
Dapustor J5060 8T/32Q 531 32,404 143.65 ms 149.94 ms 181.40 ms
Solidigm P5336 8T/32Q 847 51,724 57.9 ms 65.8 ms 71.8 ms

Vid 16K slumpmässig läsning arbetsbelastning (QD256) uppnår Dapustor utmärkta resultat med 453K IOPS och kontrollerad latens. Solidigm P5336 speglar i huvudsak denna prestanda, något som minskar Dapustor i latens (5.47 ms mot 8.16 ms vid 99.99%), vilket tyder på något bättre latenskonsistens för Solidigm i tunga slumpmässiga lässcenarier.

Dapustor SSD:s 16K slumpmässiga skrivprestanda sjunker avsevärt till 32K IOPS, och latensen ökar till 181.4ms (99.99%). Även här överträffar Solidigm avsevärt Dapustor-disken och levererar 51.7K IOPS och en dramatiskt förbättrad latensprofil (71.8ms vid 99.99%), vilket understryker Solidigms fördel för latenskänsliga slumpmässiga skrivarbetsbelastningar.

4K slumpmässig läs- och skrivprestanda

Drive IO-djup BW (MB/s) IOPS 99.0% 99.9% 99.99%
Dapustor J5060 8T/32Q 6,941 1,694,464 1.43 ms 1.58 ms 1.79 ms
Solidigm P5336 8T/32Q 3,994 975,108 2.31 ms 2.41 ms 2.64 ms
Dapustor J5060 8T/32Q 131 31,923 143.65 ms 145.75 ms 179.31 ms
Solidigm P5336 8T/32Q 197 48,030 58.5 ms 64.2 ms 68.7 ms

4K slumpmässig lässcenario är en höjdpunkt för Dapustor J5060, med toppprestanda som överstiger 1.69 miljoner IOPS vid QD256, kombinerat med imponerande låg latens. Som jämförelse släpar Solidigm P5336 betydligt efter och hanterar endast 975K IOPS med avsevärt högre latens vid alla percentiler. För intensiva slumpmässiga läsningar av små block är Dapustor J5060 helt klart det överlägsna valet.

Tyvärr sjunker J5060:s 4K slumpmässiga skrivprestanda kraftigt, och producerar bara 131MB/s och 31.9K IOPS med hög latens (179.31ms vid 99.99%). Solidigm SSD hanterar det här scenariot mer bekvämt och levererar 197MB/s, 48K IOPS och betydligt lägre svansfördröjning (68.7ms vid 99.99%). Trots att Solidigm också upplever fördröjningstoppar är det fortfarande en mycket starkare drivkraft för krävande 4K-arbetsbelastningar för slumpmässig skrivning.

Slutsats

I slutändan är DapuStor J5060 en QLC SSD för företag med hög kapacitet designad för läsintensiva arbetsbelastningar där lagringstäthet och kostnad per terabyte har prioritet framför ihållande skrivprestanda. Med kapaciteter upp till 61.44 TB och ett PCIe Gen4-gränssnitt är det bäst lämpat för miljöer som innehållsleveransnätverk, molnarkiv eller AI-inferenssystem som förlitar sig på stora sekventiella läsningar och sällsynta skrivningar.

Med det målet i åtanke utsatte vi J5060 för olika tester för att se hur den presterar i praktiken, särskilt mot Solidigm P5336. J5060 levererar solid sekventiell läsprestanda och erbjuder högdensitetslagring, vilket kan fungera bra i lästunga miljöer. I vissa fall, särskilt på lägre IO-djup och större blockstorlekar, överträffar J5060 Solidigm P5336. Dess latens och genomströmning i dessa scenarier visar att den har byggts för att prioritera stor blockläsningseffektivitet.

Men prestanda får en betydande träff när man överväger skrivaktivitet. Över nästan varje skrivmått (inklusive IOPS, latens och genomströmning) underpresterar J5060 konsekvent. Denna svaghet är mest synlig under sekventiellt skrivtryck vid höga IO-djup och stora blockstorlekar, där latensen är relativt hög och genomströmningen planar ut. Även under AI-relaterade checkpointing-arbetsbelastningar, startar J5060 starkt men försämras snabbt i prestanda, vilket signalerar problem med ihållande skrivkonsistens.

För organisationer med lästunga, kapacitetsdrivna behov erbjuder J5060 ett tydligt värde, men dess begränsningar gör den till en tuffare försäljning för blandade eller skrivintensiva arbetsbelastningar.

Engagera dig med StorageReview

Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde