Sebbene sia adatto a carichi di lavoro intensivi in lettura, le scarse prestazioni in scrittura ne limitano la versatilità in ambienti AI e ad alta intensità di dati.
L'SSD DapuStor J5060 è un'unità NVMe ad alta capacità, pensata per le aziende, progettata per soddisfare la crescente domanda di storage denso ed efficiente dal punto di vista energetico in ambienti ad alta intensità di dati. È basata su NAND Flash 3D Enterprise QLC e supporta l'interfaccia PCIe 4.0 x4 con NVMe 1.4a, alloggiata in un fattore di forma standard U.2 da 15 mm. L'unità è progettata per situazioni in cui le prestazioni di lettura e il costo per terabyte sono essenziali. Questo la rende potenzialmente adatta ad applicazioni come infrastrutture cloud, inferenza AI, piattaforme Big Data e pipeline di produzione intelligenti, dove le operazioni di scrittura sono poco frequenti o prevedibili.
Caratteristiche e profilo delle prestazioni di DapuStor J5060
Con capacità scalabili fino a 61.44 TB, il J5060 offre una soluzione interessante per le organizzazioni che desiderano consolidare lo storage mantenendo sotto controllo la densità fisica e il consumo energetico. Questo livello di capacità in una singola unità U.2 è particolarmente rilevante per gli ambienti hyperscale e aziendali che gestiscono dataset multi-petabyte, dove lo spazio rack e l'efficienza energetica rappresentano vincoli reali. Il J5060 include funzionalità di livello enterprise come il supporto dual-port, la protezione avanzata contro le interruzioni di corrente e l'ottimizzazione della tensione a livello flash, per garantire l'integrità e la stabilità dei dati nelle distribuzioni ad alta disponibilità.
Per quanto riguarda le prestazioni, il J5060 è progettato per carichi di lavoro ad alta intensità di lettura. Si dichiara un throughput di lettura sequenziale fino a 7,300 MB/s e supporta fino a 1.5 milioni di IOPS in lettura casuale a 4K, un valore elevato per un'unità basata su QLC. Tuttavia, le prestazioni in scrittura sono significativamente più limitate, con una specifica di soli 30 IOPS per scritture casuali a 16 KB, e questa limitazione si è mantenuta costante durante i nostri test sui carichi di lavoro. La larghezza di banda in scrittura dell'unità è stimata a 3,000 MB/s. Tuttavia, questa larghezza di banda non è ottimale per operazioni di scrittura prolungate o ad alta profondità, il che potrebbe influire sulla sua idoneità per attività miste o ad alta intensità di scrittura.
L'utilizzo di NAND QLC consente a DapuStor di offrire queste elevate capacità a un costo inferiore, ma con alcuni compromessi. La durata è stimata in appena 0.5 DWPD (scritture al giorno) su cinque anni, rendendo il J5060 ideale per applicazioni incentrate sulla lettura con volumi di scrittura da bassi a moderati. I carichi di lavoro che prevedono checkpoint frequenti, logging delle transazioni o caching attivo possono mettere a dura prova la durata dell'unità e rivelare limitazioni nelle prestazioni di scrittura.
In termini di consumo energetico, l'unità consuma circa 12 watt in lettura, fino a 23 watt in scrittura e solo 5 watt in idle. Questi valori sono in linea con le aspettative dei moderni data center aziendali, soprattutto per le implementazioni ad alta densità, dove il consumo per terabyte è un problema crescente.
In questa recensione ci concentreremo sul modello da 61.44 TB e analizzeremo il suo profilo prestazionale reale attraverso una serie di carichi di lavoro sintetici e allineati alle applicazioni.
Specifiche DapuStor J5060
J5060 | |
---|---|
Capacità (TB) | 61.44 |
Fattore di forma | U.2 15mm |
Interfaccia | PCIe 4.0 x4, NVMe 1.4a, doppia porta supportata |
Larghezza di banda di lettura/scrittura (128 K) MB/s | 7400 / 3000 |
Lettura/scrittura casuale (4 KB) K IOPS | 1500 / 30 (16 KB) |
Latenza casuale 4K (tipica) R/W µs | 105 (4 KB) / 33 (16 KB) |
Latenza sequenziale 4K (tip.) R/W µs | 7 (4 KB) / 12 (16 KB) |
Potenza tipica (W) | 23 |
Potenza al minimo (W) | 5 |
Tipo di flash | Memoria NAND Flash QLC 3D Enterprise |
Resistenza | 0.5 DWPD |
MTBF | 2 milioni di ore |
UBER | 1 settore per 10^17 bit letti |
Garanzia | 5 anni |
Prestazioni DapuStor J5060
Checkpoint
Per valutare le prestazioni reali dell'SSD Dapustor J5060 negli ambienti di formazione AI, abbiamo utilizzato Strumento di benchmarking per input/output di dati e apprendimento (DLIO)Sviluppato dall'Argonne National Laboratory, DLIO è specificamente progettato per testare i modelli di I/O nei carichi di lavoro di deep learning. Fornisce informazioni su come i sistemi di storage gestiscono sfide come il checkpointing, l'ingestione dei dati e l'addestramento dei modelli. Il grafico seguente illustra come entrambe le unità gestiscono il processo attraverso 99 checkpoint. Durante l'addestramento di modelli di machine learning, i checkpoint sono essenziali per salvare periodicamente lo stato del modello, evitando la perdita di progressi durante interruzioni o interruzioni di corrente. Questa esigenza di storage richiede prestazioni elevate, soprattutto in caso di carichi di lavoro sostenuti o intensivi.
La piattaforma scelta per questo lavoro è stata il nostro Dell PowerEdge R760 con Ubuntu 22.04.02 LTS. Abbiamo utilizzato il benchmark DLIO versione 2.0, rilasciato il 13 agosto 2024. La configurazione del nostro sistema è descritta di seguito:
- 2 x Intel Xeon Gold 6430 (32 core, 2.1 GHz)
- 16 x 64GB DDR5-4400
- SSD Dell BOSS da 480 GB
- Cavi seriali Gen5 JBOF
- Dapustor J61.44 da 5060 TB
- 61.44 TB Solido D5-P5336
Per garantire che il benchmarking riflettesse scenari reali, abbiamo basato i test sull'architettura del modello LLAMA 3.1 405B. Abbiamo implementato il checkpointing utilizzando torch.save() per acquisire parametri del modello, stati dell'ottimizzatore e stati dei layer. La nostra configurazione simulava un sistema a 8 GPU, implementando una strategia di parallelismo ibrido con elaborazione parallela a tensore a 4 vie e elaborazione parallela a pipeline a 2 vie distribuita sulle otto GPU. Questa configurazione ha portato a dimensioni dei checkpoint di 1,636 GB, rappresentative dei moderni requisiti di addestramento di modelli linguistici di grandi dimensioni.
Nel complesso, il Dapustor J5060 ha dimostrato una solida costanza durante la fase iniziale dei test, con tempi che si sono attestati intorno ai 575.66 secondi per i primi 33 checkpoint. Il 5060J è stato in grado di mantenere prestazioni più elevate prima del primo riempimento dell'unità. D'altro canto, il Solidigm P5336, sebbene inizialmente più lento del J5060, ha dimostrato prestazioni costanti con il proseguire dei test.
Quando considerando le medie complessive, il Dapustor J5060 ha registrato un tempo di 769.44 secondi, mentre il Solidigm P5336 è arrivato in 640.17 secondiCiò pone il Solidigm P5336 in vantaggio in termini di salvataggio più rapido dei checkpoint.
Nel complesso, il Dapustor J5060 gestisce bene le operazioni più brevi, ma ha difficoltà con le scritture sostenute oltre i 30 minuti. Al contrario, il Solidigm P5336 è l'unità migliore per prestazioni costanti durante le attività prolungate. Le prestazioni di scrittura inferiori del Dapustor J5060 sono evidenti quando la velocità di checkpointing diminuisce con il proseguire del test.
Archiviazione diretta GPU
GPU Direct Storage è una tecnologia che consente il trasferimento diretto dei dati tra dispositivi di archiviazione e GPU, bypassando la CPU e la memoria di sistema. Nel trasferimento dati tradizionale, i dati vengono letti dallo storage alla memoria della CPU e quindi copiati nella memoria della GPU. Questo processo comporta più copie dei dati, con conseguente aumento della latenza e riduzione delle prestazioni. La CPU agisce da collo di bottiglia, poiché deve gestire il trasferimento dei dati tra lo storage e la GPU. GDS elimina questo collo di bottiglia consentendo direttamente ai dispositivi di archiviazione di trasferire i dati da e verso la memoria della GPU.
Abbiamo testato sistematicamente ogni combinazione dei seguenti parametri sia nei carichi di lavoro di lettura che di scrittura:
- Dimensioni dei blocchi: 1M, 128K, 16K
- Profondità: 128, 64, 32, 16, 8, 4, 1
Mentre esaminiamo i risultati GDSIO, esaminiamo le prestazioni di lettura e scrittura del Dapustor J61.44 da 5060 TB e del Solidigm P5336.
Prestazioni di lettura sequenziale GDSIO
Il Dapustor J5060 raggiunge un throughput di lettura di picco di 4.2 GiB/s con blocchi di 1M e profondità di I/O di 64 e 128. Alla dimensione minima dei blocchi (16K), le prestazioni variano da 0.1 GiB/s a 0.8 GiB/s con l'aumentare della profondità di I/O. Ciò dimostra una chiara preferenza per blocchi di dimensioni maggiori con elevate profondità di I/O per un throughput ottimale. Le prestazioni di picco si ottengono con blocchi di grandi dimensioni, a dimostrazione dell'efficienza dell'unità nella gestione di trasferimenti di dati di grandi dimensioni.
Comparativamente, il Solidigm P5336 ha raggiunto una velocità massima di elaborazione simile di 4.3 GiB/s con la stessa dimensione di blocco (1 M), ma ha raggiunto tali prestazioni in precedenza a una profondità di I/O di 32 e le ha mantenute costantemente a profondità di I/O più elevate. Ciò suggerisce un'efficienza leggermente migliore nella gestione di blocchi di grandi dimensioni a un intervallo più ampio di profondità di I/O per il Solidigm P5336.
Per offrire una migliore panoramica comparativa, abbiamo creato un grafico differenziale che confronta entrambe le unità. Un blocco di colore verde indica un vantaggio dell'SSD Dapustor, mentre un blocco che si sposta verso il lato rosso dello spettro ne indica un punto debole. In questo caso, il J5060 supera il P5336 nella dimensione del blocco da 128K, fatta eccezione per le profondità di I/O da 4 a 8. Tuttavia, si notano cali di throughput a profondità di I/O più elevate con blocchi di dimensioni pari a 16K e 1M, il che indica una minore efficienza in questi scenari.
Nel confronto della latenza di lettura sequenziale, Solidigm P5336 mantiene costantemente una latenza inferiore rispetto a Dapustor J5060 su quasi tutte le dimensioni di blocco e profondità di I/O. Con una dimensione di blocco di 16K, il divario diventa più pronunciato all'aumentare della profondità di coda: J5060 raggiunge un picco di 2,329 μs a una profondità di 128, mentre P5336 rimane inferiore a 1,365 μs. A 128K, Solidigm è ancora in testa nella maggior parte delle profondità, con l'eccezione dei carichi elevati (4,080 μs sul J5060 contro 5539 μs sul P5336) alla profondità 128. Con blocchi da 1M, entrambe le unità registrano aumenti di latenza come previsto, ma il P5336 rimane leggermente meglio controllato, con 29,138 μs contro 29,512 μs alla profondità di coda più elevata.
Prestazioni di scrittura sequenziale GDSIO
Il Dapustor J5060 mostra una velocità di scrittura costante da 2.7 a 2.8 GiB/s per blocchi di dimensioni 128K e 1M su tutte le profondità IO (tranne 128K, dimensione 1 profondità IO, che ha registrato 2.2 GiB/s). Per blocchi di dimensioni 16K, le prestazioni variano da 0.5 GiB/s a 1.4 GiB/s, a seconda della profondità IO, con un picco di 1.4 GiB/s a profondità IO più elevate.
In confronto, il Solidigm P5336 offre prestazioni migliori con blocchi di dimensioni pari a 128K e 1M, raggiungendo un picco di 3.2 GiB/s. Anche con blocchi di dimensioni inferiori (16K), il Solidigm P5336 mostra prestazioni più elevate, raggiungendo un picco di 1.4 GiB/s con profondità di I/O da 16 a 64. Ciò indica che il Solidigm P5336 è leggermente più efficiente con blocchi di dimensioni inferiori durante le operazioni di scrittura.
Passando a una visione differenziale, osserviamo un divario maggiore tra il Dapustor J5060 e le prestazioni di scrittura del Solidigm P5336. Il nostro confronto di throughput mostra che il J5060 è inferiore al P5336 nella maggior parte degli ambiti, in particolare con blocchi di grandi dimensioni (1 M) su tutte le profondità di I/O. I cali di throughput raggiungono -0.5 GiB/s alle profondità di I/O 4. Sebbene vi siano miglioramenti delle prestazioni a profondità di I/O più elevate con blocchi di dimensioni pari a 128 K, non sono abbastanza significativi da compensare le prestazioni inferiori a livello generale.
Confrontando la latenza di scrittura sequenziale tra Dapustor J5060 e Solidigm P5336, entrambe le unità mostrano un comportamento simile a blocchi di dimensioni inferiori, come 16K, con Solidigm che mantiene un leggero vantaggio a profondità di I/O inferiori, mentre Dapustor colma il divario a profondità maggiori (64 e 128). Con blocchi di dimensioni pari a 128K, Solidigm è ancora in vantaggio a profondità di coda ridotte, ma Dapustor offre costantemente una latenza inferiore all'aumentare della profondità di I/O, indicando una migliore scalabilità sotto carico. Tuttavia, con blocchi di dimensioni pari a 1M, Solidigm mantiene un chiaro vantaggio in termini di latenza su tutte le profondità di I/O, mostrando tempi di risposta significativamente più rapidi sotto carichi di lavoro di scrittura sequenziale elevati. Nel complesso, Solidigm offre prestazioni più costanti, mentre la forza di Dapustor è più evidente a blocchi di medie dimensioni e code più profonde.
Riepilogo del carico di lavoro FIO
Flexible I/O Tester (FIO) è uno strumento di benchmarking standard del settore, utilizzato per misurare le prestazioni dei dispositivi di storage in un'ampia varietà di scenari di carico di lavoro. FIO, apprezzato per la sua versatilità e affidabilità, simula condizioni reali, fornendo informazioni sulle capacità e sui limiti prestazionali di un SSD. StorageReview sfrutta FIO per offrire analisi complete, misurando throughput, latenza e IOPS in base a modelli di carico di lavoro, dimensioni dei blocchi e profondità di coda.
Carichi di lavoro applicati:
- Lettura e scrittura sequenziale a 128K
- 64K letture e scritture casuali
- 16K letture e scritture casuali
- 4K letture e scritture casuali
Questi carichi di lavoro rappresentano un ampio spettro di casi d'uso aziendali, tra cui grandi trasferimenti sequenziali, I/O casuale intensivo tipico dei database e accessi casuali a blocchi di piccole dimensioni comunemente osservati negli ambienti virtualizzati.
Questa sezione sulle prestazioni riassume le prestazioni di Dapustor J5060 su carichi di lavoro sintetici chiave, incluse operazioni di lettura/scrittura sequenziali e casuali a diverse dimensioni di blocco e profondità di coda. Le metriche vengono estratte direttamente dall'output fio analizzato e includono percentili di larghezza di banda (MB/s), IOPS e latenza fino al 99.9999%, offrendo informazioni sia sul throughput che sul comportamento della coda sotto carico.
Prestazioni di lettura e scrittura sequenziale a 128K
DRIVE | Profondità thread/IO | larghezza di banda (MB/s) | IOPS | 99.0% | 99.9% | 99.99% |
---|---|---|---|---|---|---|
Dapustor J5060 | 1T/64Q | 7,482 | 57,081 | 1.66 ms | 2.02 ms | 2.83 ms |
Solidig P5336 | 1T/64Q | 7,479 | 57,057 | 1.51 ms | 1.66 ms | 1.81 ms |
Dapustor J5060 | 1T/16Q | 3,023 | 23,063 | 0.69 ms | 0.69 ms | 0.70 ms |
Solidig P5336 | 1T/16Q | 3,364 | 25,669 | 2.67 ms | 3.48 ms | 4.42 ms |
Il Dapustor J5060 offre prestazioni di lettura sequenziale impressionanti a 128K, raggiungendo 7.48 GB/s con un controllo rigoroso della latenza, anche a percentili più elevati. Rispetto al Solidigm P5336, il throughput del J5060 è sostanzialmente lo stesso (7.48 GB/s contro 7.47 GB/s). Tuttavia, Solidigm mantiene un leggero vantaggio in termini di coerenza della latenza, mostrando una latenza di coda leggermente inferiore.
A 128 scritture sequenziali (QD16), il J5060 raggiunge prestazioni solide di 3,023 MB/s con una latenza molto bassa. Tuttavia, il Solidigm P5336 supera questo valore di poco, raggiungendo i 3,364 MB/s, sebbene con una latenza notevolmente più elevata, soprattutto al 99.99% (4.42 ms contro i 0.70 ms notevolmente bassi di Dapustor). Questo indica che il J5060 è un candidato più adatto per scenari di scrittura sequenziale sensibili alla latenza.
Prestazioni di lettura e scrittura casuali a 64K
DRIVE | Profondità IO | larghezza di banda (MB/s) | IOPS | 99.0% | 99.9% | 99.99% |
---|---|---|---|---|---|---|
Dapustor J5060 | 8T/32Q | 7,475 | 114,058 | 20.05 ms | 21.89 ms | 25.82 ms |
Solidig P5336 | 8T/32Q | 7,472 | 114,014 | 21.36 ms | 21.89 ms | 22.68 ms |
Dapustor J5060 | 8T/32Q | 534 | 8,151 | 574.6 ms | 708.8 ms | 742.39 ms |
Solidig P5336 | 8T/32Q | 857 | 13,070 | 196.1 ms | 208.6 ms | 221.24 ms |
Nelle letture casuali a 64K (QD256), il Dapustor J5060 eccelle con una velocità di trasmissione prossima a 7.4 GB/s e una latenza ben controllata. I risultati di Solidigm sono pressoché equivalenti (7.47 GB/s), con una latenza percentile massima leggermente migliore. Entrambe le unità offrono prestazioni eccezionali, con differenze pratiche minime.
Le prestazioni di scrittura a 64K casuali sono il punto debole del J5060, con un throughput che scende bruscamente a 534 MB/s e una latenza che aumenta significativamente (742.39 ms al 99.99%). In confronto, il Solidigm P5336 supera significativamente il J5060, raggiungendo 857 MB/s e una latenza drasticamente inferiore (221.24 ms allo stesso percentile), rendendolo di gran lunga più adatto ad applicazioni sensibili alla latenza e a un throughput di scrittura sostenuto.
Prestazioni di lettura e scrittura casuali a 16K
DRIVE | Profondità IO | larghezza di banda (MB/s) | IOPS | 99.0% | 99.9% | 99.99% |
---|---|---|---|---|---|---|
Dapustor J5060 | 8T/32Q | 7,430 | 453,461 | 5.28 ms | 6.39 ms | 8.16 ms |
Solidig P5336 | 8T/32Q | 7,431 | 453,527 | 5.01 ms | 5.21 ms | 5.47 ms |
Dapustor J5060 | 8T/32Q | 531 | 32,404 | 143.65 ms | 149.94 ms | 181.40 ms |
Solidig P5336 | 8T/32Q | 847 | 51,724 | 57.9 ms | 65.8 ms | 71.8 ms |
Con un carico di lavoro di lettura casuale di 16K (QD256), il Dapustor raggiunge risultati eccellenti con 453K IOPS e latenza controllata. Il Solidigm P5336 rispecchia sostanzialmente queste prestazioni, superando leggermente il Dapustor in latenza (5.47 ms contro 8.16 ms al 99.99%), suggerendo una consistenza di latenza leggermente migliore per Solidigm in scenari di lettura casuale intensiva.
Le prestazioni di scrittura casuale a 16K dell'SSD Dapustor scendono significativamente a 32K IOPS e la latenza aumenta a 181.4 ms (99.99%). Anche in questo caso, Solidigm supera nettamente l'unità Dapustor, raggiungendo 51.7K IOPS e un profilo di latenza notevolmente migliorato (71.8 ms al 99.99%), a sottolineare il vantaggio di Solidigm per i carichi di lavoro di scrittura casuale sensibili alla latenza.
Prestazioni di lettura e scrittura casuali a 4K
DRIVE | Profondità IO | larghezza di banda (MB/s) | IOPS | 99.0% | 99.9% | 99.99% |
---|---|---|---|---|---|---|
Dapustor J5060 | 8T/32Q | 6,941 | 1,694,464 | 1.43 ms | 1.58 ms | 1.79 ms |
Solidig P5336 | 8T/32Q | 3,994 | 975,108 | 2.31 ms | 2.41 ms | 2.64 ms |
Dapustor J5060 | 8T/32Q | 131 | 31,923 | 143.65 ms | 145.75 ms | 179.31 ms |
Solidig P5336 | 8T/32Q | 197 | 48,030 | 58.5 ms | 64.2 ms | 68.7 ms |
Lo scenario di lettura casuale 4K è un punto di forza per il Dapustor J5060, con prestazioni di picco superiori a 1.69 milioni di IOPS a QD256, combinate con una latenza incredibilmente bassa. Al confronto, il Solidigm P5336 è significativamente indietro, gestendo solo 975K IOPS con una latenza notevolmente più elevata a tutti i percentili. Per letture casuali intensive di piccoli blocchi, il Dapustor J5060 è chiaramente la scelta migliore.
Sfortunatamente, le prestazioni in scrittura casuale 5060K del J4 calano drasticamente, producendo solo 131 MB/s e 31.9 K IOPS con latenza elevata (179.31 ms al 99.99%). L'SSD Solidigm gestisce questo scenario in modo più confortevole, offrendo 197 MB/s, 48 K IOPS e una latenza finale significativamente inferiore (68.7 ms al 99.99%). Nonostante anche Solidigm riscontri picchi di latenza, rimane un'unità molto più potente per i carichi di lavoro impegnativi in scrittura casuale 4K.
Conclusione
In definitiva, DapuStor J5060 è un SSD QLC aziendale ad alta capacità progettato per carichi di lavoro ad alta intensità di lettura, in cui la densità di storage e il costo per terabyte hanno la priorità sulle prestazioni di scrittura costanti. Con capacità fino a 61.44 TB e un'interfaccia PCIe Gen4, è ideale per ambienti come reti di distribuzione di contenuti (CDN), archivi cloud o sistemi di inferenza AI che si basano su letture sequenziali di grandi dimensioni e scritture poco frequenti.
Con questo obiettivo in mente, abbiamo sottoposto il J5060 a diversi test per verificarne le prestazioni pratiche, in particolare rispetto al Solidigm P5336. Il J5060 offre solide prestazioni di lettura sequenziale e un'archiviazione ad alta densità, che può funzionare bene in ambienti con carichi di lavoro intensivi. In alcuni casi, in particolare con profondità di I/O inferiori e blocchi di dimensioni maggiori, il J5060 supera il Solidigm P5336. La latenza e il throughput in questi scenari dimostrano che è stato progettato per dare priorità all'efficienza di lettura di blocchi di grandi dimensioni.
Tuttavia, le prestazioni subiscono un calo significativo se si considera l'attività di scrittura. In quasi tutte le metriche di scrittura (inclusi IOPS, latenza e throughput), il J5060 presenta costantemente prestazioni inferiori. Questa debolezza è più evidente in presenza di una pressione di scrittura sequenziale a profondità di IO elevate e blocchi di grandi dimensioni, dove la latenza è relativamente elevata e il throughput si appiattisce. Anche durante i carichi di lavoro di checkpointing correlati all'intelligenza artificiale, il J5060 inizia bene ma subisce un rapido degrado delle prestazioni, segnalando problemi di coerenza di scrittura a lungo termine.
Per le organizzazioni con esigenze di elevata capacità e di lettura, il J5060 offre un valore evidente, ma i suoi limiti lo rendono più difficile da vendere per carichi di lavoro misti o ad alta intensità di scrittura.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed