Casa Impresa Western Digital OpenFlex Data24 – Analisi delle prestazioni GPUDirect

Western Digital OpenFlex Data24 – Analisi delle prestazioni GPUDirect

by Brian Beeler

In questo articolo dettagliato, forniamo l'analisi reale delle prestazioni della GPU NVIDIA® H100 per i dati Western Digital OpenFlex™24. Abilitando percorsi dati diretti tra la memoria GPU e lo storage, OpenFlex Data24 riduce significativamente la latenza e massimizza la larghezza di banda.

Questo rapporto è sponsorizzato da Western Digital. Tutti i pareri e le opinioni espressi in questo rapporto si basano sulla nostra visione imparziale dei prodotti in esame.

L'intelligenza artificiale è al centro dell'attenzione in questi giorni e, mentre alcuni hyperscaler sono impegnati a creare soluzioni su misura per il loro problema relativo ai dati dell'intelligenza artificiale, Western Digital (WD) ha una risposta per il resto di noi. Western Digital OpenFlex™ Data24™ offre una soluzione di storage robusta e scalabile per soddisfare le elevate esigenze di throughput dell'intelligenza artificiale e di altri carichi di lavoro accelerati da GPU. Abilitando percorsi dati diretti tra la memoria della GPU e lo storage, OpenFlex Data24 riduce significativamente la latenza. Inoltre, massimizza la larghezza di banda, garantendo una gestione efficiente dei dati e un utilizzo ottimale della GPU per un'elaborazione più rapida ed efficace di set di dati su larga scala.

Sfruttando NVMe-oF™, Western Digital può condividere storage disaggregato ad alta velocità su più server, garantendo un rapido accesso e trasferimento dei dati. La perfetta integrazione di OpenFlex Data24 con GPU ad alte prestazioni consente di fornire l'immenso throughput richiesto per l'addestramento e l'inferenza dell'intelligenza artificiale, posizionandolo come un fattore chiave per le operazioni dei data center di prossima generazione. Queste funzionalità rendono OpenFlex Data24 uno strumento potente per qualsiasi organizzazione che desideri sfruttare tutto il potenziale dell'intelligenza artificiale e di altri carichi di lavoro computazionali avanzati.

Western Digital OpenFlex Data24 4000

La piattaforma di storage NVMe-oF OpenFlex Data24 serie 4000 di Western Digital offre prestazioni senza precedenti agli ambienti di storage condiviso. Questa piattaforma ad alte prestazioni estende le funzionalità del flash NVMe™, fornendo condivisione a bassa latenza su una struttura Ethernet. La serie Data24 4000 sfrutta sei dispositivi Western Digital RapidFlex™ A2000 Fabric Bridge per fornire connettività di rete senza soluzione di continuità utilizzando fino a dodici porte 100GbE. Queste interfacce supportano entrambi RoCEv2 e protocolli TCP, fornendo opzioni versatili per il trasferimento dei dati.

Lo chassis è progettato con un fattore di forma 2U, in grado di ospitare fino a 24 SSD NVMe U.2 a doppia porta. Con il supporto per PCIe® Gen4, questa piattaforma è progettata per sfruttare appieno le prestazioni di ogni SSD, mantenendo un'elevata larghezza di banda in tutto lo chassis. Gli SSD NVMe sono disponibili in varie capacità e opzioni di resistenza, inclusi gli SSD Ultrastar® DC SN655 con capacità fino a 15.36 TB per una capacità grezza totale di 368 TB¹.

Il design della piattaforma elimina gli abbonamenti eccessivi, garantendo un accesso bilanciato che preserva le prestazioni NVMe. La serie Data24 4000 incorpora anche il supporto API RESTful per una gestione semplificata, migliorando la facilità d'uso e l'integrazione nelle infrastrutture IT esistenti.

L'elevata disponibilità e l'affidabilità di livello aziendale sono attributi critici della serie Data24 4000. Tocchi come i doppi moduli I/O e la ridondanza delle ventole N+2 garantiscono la massima tranquillità per garantire un funzionamento continuo anche in caso di guasti imprevisti dei componenti. L'intera piattaforma, inclusi gli SSD, è coperta da una garanzia limitata di 5 anni.

Specifiche chiave di Western Digital OpenFlex Data24

Specifiche di OpenFlex Data24
Capacità massima di archiviazione 368TB
Tensione di ingresso 120V - 240V
PSU Doppio 800 W.
Velocità di trasferimento dati 12 NVMe-oF da 100 Gbps
Fattore di forma 2U
Temperatura operativa 10 ° C a 35 ° C
Peso 18.25 kg / lbs 40.2
Dimensioni (L x L x A) 491.9 mm x 628.65 mm x 85.5 mm / 19.37 pollici x 24.75 pollici x 3.37 pollici
Consumo energetico (massimo/tipico) 750W/~550W
Efficienza dell'alimentatore 80 Plus Titanio
Slot di unità 24
Raffreddamento 4 ventole di sistema (N+2 supportate)
Unità rack (U) 2U
Profondità del rack richiesta 1000 mm (39.4 in.)
Larghezza rack richiesta 450mm (17.72 in.)

Testare i dati OpenFlex24

Per sgranchirsi le gambe di OpenFlex Data24, abbiamo dovuto mettere insieme alcuni elementi chiave: NVIDIA GPUDirect™, NVIDIA IndeX® e ben 5.9 TB di dati di Tornado Simulation. Sfruttando NVIDIA GPUDirect, abbiamo consentito la comunicazione diretta tra la memoria GPU e OpenFlex Data24, riducendo drasticamente la latenza e massimizzando il throughput dei dati. L'utilizzo di IndeX di NVIDIA ci ha permesso di visualizzare e interagire in modo più efficiente con l'enorme set di dati sui tornado, mostrando le capacità di elaborazione in tempo reale del sistema. Questa configurazione ha fornito un banco di prova perfetto per dimostrare la capacità di OpenFlex Data24 di gestire carichi di lavoro intensivi di intelligenza artificiale ed elaborazione di dati su larga scala con notevole velocità ed efficienza.

NVIDIA GPUDirect

NVIDIA GPUDirect La tecnologia migliora significativamente l'efficienza del trasferimento dei dati negli ambienti di GPU Computing ad alte prestazioni. Questa suite di tecnologie ottimizza lo spostamento dei dati tra GPU e altri componenti di sistema. Riducendo la latenza e il sovraccarico, GPUDirect consente una comunicazione più diretta tra GPU e periferiche come adattatori di rete, dispositivi di archiviazione e altre GPU. I tradizionali processi di trasferimento dei dati implicano l'instradamento dei dati attraverso la CPU e la memoria di sistema, creando colli di bottiglia che ostacolano le prestazioni. GPUDirect mitiga questi colli di bottiglia consentendo l'accesso diretto alla memoria (DMA) alla memoria della GPU, bypassando la CPU e la memoria di sistema, migliorando così il throughput complessivo.

Secondo Harry Petty, responsabile marketing tecnico senior di NVIDIA:

“Le tecnologie NVIDIA offrono bassa latenza e trasferimento rapido dei dati dallo storage, ottimizzando le prestazioni dei carichi di lavoro AI riducendo i tempi di inattività della GPU. Ciò garantisce tempi di addestramento del modello più rapidi e risultati più accurati, consentendo scoperte più rapide e flussi di lavoro più efficienti”.

GPUDirect comprende diverse funzionalità vitali, tra cui GPUDirect RDMA, che facilita i trasferimenti diretti di dati tra la GPU e gli adattatori di rete compatibili con RDMA. Questa comunicazione diretta è fondamentale per le applicazioni che richiedono scambi rapidi di dati, come simulazioni scientifiche e analisi dei dati su larga scala. Consentendo trasferimenti di dati più rapidi, GPUDirect RDMA riduce la latenza e aumenta l'efficienza dei cluster GPU. Inoltre, GPUDirect Storage integra le GPU in modo più stretto con i sistemi di storage ad alta velocità, consentendo alle applicazioni ad alta intensità di dati di sfruttare la larghezza di banda massima del moderno storage NVMe. Questa integrazione accelera l'accesso ai dati e riduce il tempo trascorso in attesa che i dati vengano caricati nella memoria della GPU, fondamentale per l'analisi in tempo reale e i carichi di lavoro di machine learning su larga scala.

Le funzionalità di GPUDirect hanno un impatto particolare negli ambienti in cui più GPU lavorano in tandem, come i cluster di formazione sul deep learning. Facilitando la comunicazione diretta tra GPU, GPUDirect ottimizza l'elaborazione parallela e riduce significativamente il sovraccarico associato ai trasferimenti di dati tra GPU. Questo miglioramento è particolarmente vantaggioso nell'addestramento di reti neurali complesse, dove grandi volumi di dati devono essere scambiati rapidamente tra più GPU. I miglioramenti in termini di efficienza derivanti da GPUDirect sono evidenti anche in applicazioni come le simulazioni di dinamica molecolare e la dinamica dei fluidi, in cui i carichi di lavoro computazionali sono distribuiti su numerose GPU per ottenere risultati più rapidi.

Indice NVIDIA

Indice NVIDIA è uno strumento avanzato di visualizzazione volumetrica progettato per gestire enormi set di dati con alta fedeltà. IndeX sfrutta l'accelerazione GPU per fornire una visualizzazione interattiva in tempo reale di dati volumetrici 3D, rendendolo indispensabile per settori quali l'esplorazione di petrolio e gas, l'imaging medico e la ricerca scientifica. Gli strumenti di visualizzazione tradizionali spesso si scontrano con le dimensioni e la complessità dei set di dati moderni, con conseguenti tempi di rendering più lenti e esperienze utente meno interattive. IndeX supera queste limitazioni utilizzando la tecnologia GPU NVIDIA per fornire rendering ed elaborazione dei dati ad alte prestazioni, garantendo che gli utenti possano interagire con i propri dati in tempo reale.

Le capacità di IndeX sono guidate dalla sua capacità di sfruttare la potenza di elaborazione parallela delle GPU, consentendogli di gestire ed eseguire il rendering di dati volumetrici su larga scala in modo efficiente. Questa funzionalità è preziosa in applicazioni che richiedono visualizzazione ad alta risoluzione, come l'interpretazione sismica e la simulazione dei giacimenti nel settore del petrolio e del gas. Fornendo rappresentazioni visive dettagliate e accurate delle strutture del sottosuolo, IndeX aiuta i geoscienziati a prendere decisioni più informate. In campo medico, IndeX facilita la visualizzazione di strutture anatomiche complesse da modalità di imaging come scansioni MRI e TC, aiutando la diagnosi e la pianificazione del trattamento.

La capacità di rendering in tempo reale di IndeX è fondamentale anche per la ricerca scientifica, dove grandi set di dati provenienti da simulazioni ed esperimenti devono essere visualizzati e analizzati tempestivamente. I ricercatori possono manipolare ed esplorare in modo interattivo i propri dati, consentendo test e scoperte di ipotesi più rapidi. La scalabilità di IndeX garantisce che possa gestire i crescenti volumi di dati generati da simulazioni e strumenti scientifici avanzati, fornendo ai ricercatori gli strumenti per visualizzare e interpretare i propri dati in modo efficace. Integrandosi perfettamente con i flussi di lavoro esistenti e supportando vari formati di dati, IndeX migliora la produttività e accelera il ritmo della scoperta in più discipline.

Legare tutto insieme

L'integrazione della serie Data24 4000 con la tecnologia NVIDIA GPUDirect migliora significativamente le prestazioni delle applicazioni ad uso intensivo di GPU semplificando i trasferimenti di dati tra GPU e storage. GPUDirect facilita l'accesso diretto alla memoria, consentendo allo spostamento dei dati di bypassare la CPU e la memoria di sistema per ridurre la latenza e aumentare il throughput. Se combinato con le funzionalità NVMe-oF ad alte prestazioni della serie Data24 4000, GPUDirect garantisce che le GPU possano accedere rapidamente a set di dati di grandi dimensioni archiviati sugli SSD NVMe.

Questa integrazione è particolarmente vantaggiosa negli ambienti in cui lo scambio di dati ad alta velocità tra GPU e storage è cruciale, come il deep learning e le simulazioni scientifiche. La bassa latenza e l'elevata larghezza di banda della serie Data24 4000, insieme ai percorsi dati diretti abilitati da GPUDirect, riducono al minimo i tempi di trasferimento dei dati e consentono un utilizzo più efficiente della GPU. Questa sinergia ottimizza le prestazioni delle attività di elaborazione parallela, in cui più GPU richiedono un accesso rapido e frequente ai dati condivisi.

Per questo test, OpenFlex Data24 4000 e il server GPU sono collegati tramite uno switch da 200 GbE utilizzando il protocollo NVMe-oF RoCEv2 con MTU corrispondenti di 5000. Il server GPU utilizza 3 RNIC Mellanox® CX7 con 2x 200 GbE per RNIC. OpenFlex Data24 4000 è disponibile con 12 porte 100GbE. Ciascuna porta CX7 ha 2 indirizzi IP, consentendo a un singolo CX7 di mappare quattro porte su Data24. Ciò fornisce connettività a tutte e 4 le corsie PCIe su ciascuna unità a doppia porta. I 6 collegamenti da 200 GbE equivalgono al potenziale di larghezza di banda di 12 collegamenti da 100 GbE per un'architettura di rete non bloccante.

Ogni NVIDIA H100 è collegata tramite uno slot PCIe Gen5 x16, che teoricamente può raggiungere 64 GB/s di larghezza di banda bidirezionale. Ciascuna porta RNIC da 200GbE e 100GbE può teoricamente raggiungere rispettivamente 25 GB/s e 12.5 GB/s. Una considerazione critica della progettazione è garantire un'architettura non bloccante. Ciò richiede che GPU, RNIC e unità NVMe-oF siano tutti mappati fisicamente sullo stesso switch CPU, NUMA e PLX. Ciò consente alla configurazione di sfruttare appieno GPUDirect. Come visto in questa implementazione, una configurazione con mirroring sulla seconda CPU, NUMA e switch PLX consentirebbe una scala di elaborazione prevedibile e un raddoppio teorico delle prestazioni.

Nei cluster di formazione AI, la combinazione di Data24 4000 e GPUDirect può consentire tempi di formazione più rapidi riducendo i colli di bottiglia associati al caricamento dei dati. Gli efficienti percorsi dati garantiscono che le GPU possano ricevere continuamente dati senza interruzioni, mantenendo elevate velocità di elaborazione e migliorando l'efficienza complessiva del sistema. Questa configurazione è vantaggiosa anche per l'analisi in tempo reale e altre applicazioni che richiedono un rapido accesso ed elaborazione dei dati, fornendo un significativo incremento delle prestazioni a vari carichi di lavoro computazionali.

Configurazione del server NVIDIA Index

Per il test NVIDIA IndeX, abbiamo utilizzato il Supermicro 521GE-TNRT dotato di backplane PCIe commutato, una coppia di NVIDIA H100 e tre schede di rete NVIDIA ConnectX-7.

Specifiche principali di Supermicro® 521GE-TNRT
Modello Supermicro 521GE-TNRT
Processore 2x Intel® Xeon® Platinum 8462Y+
Memorie DDR1 da 5TB
GPU 2x NVIDIA H100 PCIe
Interfaccia di rete 3 schede NIC NVIDIA ConnectX-7

Test sintetici GDSIO

Lo strumento di benchmarking utilizzato a questo scopo è GDSIO, un'utilità NVIDIA proprietaria specializzata progettata per misurare le prestazioni di archiviazione in ambienti di archiviazione diretta tramite GPU (GDS). Abbiamo esaminato alcune configurazioni per questa tornata di test: una singola GPU con 12 e 24 unità, nonché due GPU con 24 unità.

Le prestazioni del Western Digital OpenFlex Data24 nel test GDSIO Performance, abbinato alle GPU NVIDIA H100, rivelano approfondimenti sulla potenza pura delle unità. Se configurato con 12 unità e una singola GPU, il sistema ha raggiunto una larghezza di banda di scrittura di 44.14 GB/s. Aumentando il numero di unità a 24 utilizzando una GPU si è riscontrato un modesto miglioramento, con prestazioni di scrittura che hanno raggiunto 54.15 GB/s. L'introduzione di una seconda GPU nella configurazione a 24 unità ha comportato un sostanziale incremento, elevando la larghezza di banda di scrittura a 87.91 GB/s.

Le prestazioni di lettura seguono una tendenza simile. La configurazione a 12 unità e una GPU ha prodotto una larghezza di banda in lettura di 53.47 GB/s. L'espansione a 24 unità con una GPU aumenta leggermente a 54.75 GB/s. Tuttavia, il miglioramento più drammatico è arrivato con la configurazione dual-GPU, dove il sistema ha raggiunto un'impressionante larghezza di banda in lettura di 101.14 GB/s. Questi risultati sottolineano la capacità di OpenFlex Data24 di scalare in modo prevedibile con un numero maggiore di unità.

L'aggiunta di GPU gioca un ruolo cruciale nel massimizzare le prestazioni. La configurazione con 24 unità e due GPU si è rivelata la configurazione ottimale, offrendo la larghezza di banda più elevata per le operazioni di lettura e scrittura. Questo test sottolinea l'importanza dell'accelerazione GPU per sfruttare tutto il potenziale del framework GDSIO. OpenFlex Data24, se abbinato alle GPU NVIDIA H100, dimostra prestazioni eccezionali, rendendolo una soluzione solida per ambienti di storage esigenti.

Per i carichi di lavoro AI, dove la rapidità di acquisizione ed elaborazione dei dati è fondamentale, le prestazioni osservate con OpenFlex Data24 possono tradursi in significative riduzioni dei tempi di addestramento e in una gestione più efficiente di set di dati di grandi dimensioni. La capacità di spostare rapidamente i dati dallo storage alla memoria della GPU garantisce che le risorse computazionali delle potenti GPU siano sfruttate appieno, facilitando l'addestramento e l'inferenza dei modelli più rapidi ed efficienti.

Utilizzo di OpenFlex Data24 per alimentare i tornado di H100

I ricercatori climatici studiano da tempo i temporali delle supercelle, i fenomeni atmosferici responsabili dei tornado più violenti e pericolosi del mondo. Queste tempeste sono dinamiche e complesse, rendendo le simulazioni accurate dispendiose in termini di tempo e di dati. L'esplorazione di tali dati è stata un processo lento e macchinoso, che spesso richiedeva ore per il rendering di nuove visualizzazioni.

L'uso delle GPU NVIDIA e di NVIDIA IndeX ha rivoluzionato questo campo. Gli scienziati possono ora eseguire visualizzazioni volumetriche in tempo reale. La simulazione che abbiamo eseguito sul sistema Supermicro con H100 (alimentata dai dati di OpenFlex Data24) mostra una tempesta dell'Oklahoma del 2011 simulata dal professor Leigh Orf. Questa simulazione, derivata matematicamente dalle condizioni iniziali appena prima della formazione del tornado, comprende 250 miliardi di punti della griglia, ciascuno con oltre una dozzina di attributi come pioggia, grandine, pressione e velocità del vento. Questa visualizzazione dettagliata, che mostra 6000 passaggi della simulazione, fornisce una visione senza precedenti della dinamica del tornado.

La chiave di questa simulazione è NanoVDB, una struttura dati compatta a volume sparso che riduce le dimensioni dei set di dati e l'ingombro della memoria mappando i dati direttamente nella memoria della GPU. Insieme alla tecnologia GPUDirect Storage e OpenFlex Data24, abbiamo raggiunto fino a 89 GB/s e possiamo visualizzare i risultati a oltre 13 fotogrammi al secondo. Ciò si avvicina a circa 5.9 TB di set di dati acquisiti ogni 66 secondi. Questa combinazione consente la navigazione interattiva, la regolazione dei parametri al volo e lo scorrimento della simulazione con facilità.


Con GPUDirect disabilitato (e, quindi, i dati ora attraversano il complesso della CPU), la larghezza di banda è ridotta a circa 15 GB/s e il frame rate scende significativamente a 4 fotogrammi al secondo.

La velocità è fondamentale, ma anche la qualità fotorealistica è essenziale per convalidare l’accuratezza delle simulazioni. Se la simulazione e la realtà non si allineano, i modelli devono essere corretti. NVIDIA Iray, un tracciatore di percorso basato su GPU che esegue il rendering del trasporto della luce fisicamente corretto, viene utilizzato insieme ai dati di volume NVIDIA IndeX per alimentare questa visualizzazione. L'imbuto del tornado, il contatto con il suolo ed elementi dettagliati come il rapporto nuvole-acqua e la pioggia, rappresentati da pori blu-grigi, sono chiaramente visibili.

Conclusione

I vantaggi in termini di prestazioni, tempo e costi che un'architettura ben configurata e non bloccante può offrire ai carichi di lavoro accelerati tramite GPU sono ben dimostrati in questo progetto. In parole povere, portare le GPU al massimo throughput o capacità di elaborazione garantisce risultati più efficienti e un ritorno sull'investimento.

L'architettura di Western Digital supporta Open Composable Infrastructure (OCI) e la piattaforma OpenFlex Data24 4000 sfrutta questo approccio OCI disaggregando l'archiviazione dei dati utilizzando NVMe-over-Fabrics (NVMe-oF). Questo disaccoppiamento delle risorse di storage dal server GPU non solo aiuta a liberare le risorse dei server (liberando tali risorse dai tradizionali aggiornamenti lockstep), ma, così facendo, consente anche una messa a punto della mappatura di NVMe Drive sulle GPU. Questa precisa corrispondenza dell'unità ai requisiti della GPU consente di affrontare attentamente le esigenze di capacità, prestazioni e capacità della GPU, il che a sua volta offre la scalabilità prevedibile e la flessibilità necessarie per tali risorse.

Poiché i dati non sono più isolati, diventano una risorsa di archiviazione di rete accessibile, condivisibile tra più server GPU secondo necessità, aumentando ulteriormente la flessibilità.

Western Digital OpenFlex Data24, combinato con la tecnologia NVIDIA GPUDirect, dimostra una capacità formidabile nella gestione dell'intelligenza artificiale e di altri carichi di lavoro accelerati da GPU. Abilitando percorsi dati diretti tra la memoria GPU e lo storage NVMe, Data24 riduce significativamente la latenza e massimizza la larghezza di banda, garantendo una gestione efficiente dei dati e un utilizzo ottimale della GPU. Questa integrazione consente un'elaborazione più rapida ed efficace di set di dati su larga scala, rendendo Data24 una risorsa inestimabile nei moderni ambienti ad alta intensità di dati.

I nostri test nel mondo reale, che hanno coinvolto un sostanziale set di dati di simulazione di tornado, hanno mostrato i notevoli miglioramenti delle prestazioni ottenuti attraverso questa configurazione. La capacità di OpenFlex Data24 di fornire un throughput elevato e trasferimenti di dati a bassa latenza, insieme alle capacità di visualizzazione in tempo reale di NVIDIA IndeX, sottolinea il suo potenziale in applicazioni impegnative come la formazione sull'intelligenza artificiale, le simulazioni scientifiche e l'analisi in tempo reale.

L'utilizzo della serie Data24 e della tecnologia GPUDirect per i cluster di formazione AI può ridurre significativamente i tempi di formazione garantendo un flusso di dati senza interruzioni dallo storage alle GPU. Questa configurazione riduce al minimo i colli di bottiglia e migliora l’efficienza complessiva del sistema, rendendolo un componente fondamentale nel perseguire modelli di intelligenza artificiale più rapidi e accurati.

Oltre all'intelligenza artificiale, i vantaggi di OpenFlex Data24 si estendono ad altri carichi di lavoro accelerati da GPU, tra cui elaborazione ad alte prestazioni e analisi dei dati in tempo reale. La latenza ridotta e il throughput aumentato consentiti da questa piattaforma garantiscono che le applicazioni che richiedono un rapido accesso ed elaborazione dei dati possano funzionare al massimo delle prestazioni, fornendo risultati tempestivi e precisi.

Guarda questa demo in azione dal 6 all'8 agosto 2024, allo stand n. 2024 di FMS 607.

Piattaforme Western Digital OpenFlex

[1] Un terabyte (TB) equivale a mille miliardi di byte. La capacità effettiva dell'utente potrebbe essere inferiore a causa dell'ambiente operativo.

Interagisci con StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed