All'Open Compute Project di quest'anno, Toshiba ha annunciato il rilascio del suo nuovo software basato su NVMe over Fabrics (NVMe-oF), KumoScale. KumoScale è progettato per massimizzare i vantaggi prestazionali delle unità NVMe collegate direttamente sulla rete del data center attraverso la disaggregazione, l'astrazione e l'integrazione della gestione. Il software porta gli SSD NVMe già ad alte prestazioni consentendo ai nodi di elaborazione diskless (con solo un'unità di avvio) di accedere a questo storage flash tramite connettività di rete Fabric ad alta velocità. Questo tipo di connessione porterà lo storage di rete a prestazioni quasi di picco.
All'Open Compute Project di quest'anno, Toshiba ha annunciato il rilascio del suo nuovo software basato su NVMe over Fabrics (NVMe-oF), KumoScale. KumoScale è progettato per massimizzare i vantaggi prestazionali delle unità NVMe collegate direttamente sulla rete del data center attraverso la disaggregazione, l'astrazione e l'integrazione della gestione. Il software porta gli SSD NVMe già ad alte prestazioni consentendo ai nodi di elaborazione diskless (con solo un'unità di avvio) di accedere a questo storage flash tramite connettività di rete Fabric ad alta velocità. Questo tipo di connessione porterà lo storage di rete a prestazioni quasi di picco.
Anche se questo software può essere utilizzato su qualsiasi piattaforma di sistema x86 standard, per la nostra recensione stiamo sfruttando il server a doppio nodo Newisys NSS-1160G-2N. La piattaforma Newisys NSS-1160G-2N è ottimizzata per un modello di servizio su vasta scala con hot swap di unità NVMe, throughput bilanciato dalla rete alle unità, manutenzione basata su FRU del corridoio freddo, alimentazione e raffreddamento ridondanti, nonché altri fattori chiave di scalabilità. requisiti del data center. Il nostro server presenta spazio di archiviazione tramite due schede Mellanox da 100G con 8 SSD Toshiba NVMe su un nodo, il secondo nodo viene utilizzato per scopi di gestione. La generazione del carico proverrà da un singolo Dell PowerEdge R740xd collegato direttamente a Newisys tramite due schede NIC Mellanox ConnectX-100 da 5G. Newisys può contenere fino a 16 schede server NVMe e doppie Xeon nel suo fattore di forma compatto 1U ed è ottimizzato per la latenza più bassa e le massime prestazioni con unità a collegamento diretto, sebbene il server sia un po' più lungo di quello a cui siamo abituati nei nostri rack .
KumoScale offre numerosi altri vantaggi rispetto ai tradizionali SSD collegati direttamente. Sfruttando NVMe-oF gli utenti hanno bisogno di meno nodi per raggiungere una potenza di elaborazione e uno storage ancora più elevati. Avere meno nodi significa poterli gestire meglio e ridurre i costi. Parte della riduzione dei costi avverrebbe attraverso l’eliminazione dello storage non recuperabile e della potenza di calcolo. KumoScale utilizza API riposanti per integrarsi con più framework di orchestrazione; la cosa più interessante è che funziona con Kubernetes. Ciò consentirà a coloro che sfruttano Kubernetes per lo storage di contenitori di farlo con prestazioni molto più elevate, con la giusta quantità di spazio di archiviazione fornito. Oltre a Kubernetes, KumoScale funziona anche con OpenStack, Lenovo XClarity e Intel RSD.
Management
Come un po 'straordinario, KumoScale è dotato di una GUI abbastanza snella e intuitiva. In genere, questo tipo di soluzione è controllata tramite la CLI (e in effetti, diversi aspetti lo saranno ancora). Nella scheda della dashboard, gli utenti possono facilmente visualizzare le prestazioni di archiviazione, la capacità del sistema e lo stato dell'hardware e possono approfondire lo stato dei singoli SSD.
La scheda successiva è la scheda di rete che mostra la disponibilità e lo stato del collegamento dei controller, insieme al tipo, alla velocità, all'indirizzo MAC e alla MTU.
La scheda di archiviazione è suddivisa in quattro sottoschede. La prima sottoscheda riguarda gli SSD fisici. Qui gli utenti possono vedere le unità in base al nome, alla disponibilità o meno, ai numeri di serie, alla capacità, all'utilizzo del gruppo e alla percentuale di vita rimasta.
La sottoscheda successiva nei gruppi di archiviazione virtualizzati. Questa sottoscheda è simile alla precedente con nome, disponibilità, capacità, nonché spazio disponibile, l'SSD fisico da cui è virtualizzato e la sua destinazione.
La sottoscheda successiva, Destinazioni, espande le destinazioni di cui sopra e mostra lo spazio di archiviazione virtualizzato esposto all'host, inclusi i volumi di gruppo.
L'ultima sottoscheda in archiviazione è la scheda degli iniziatori. Questa scheda fornisce il nome dell'iniziatore, l'alias (in questo caso Dell) e il conteggio degli accessi. L'utente può concedere il controllo dell'accesso (ACL) per la coppia target-iniziatore.
La scheda principale successiva è Prestazioni di archiviazione. Qui gli utenti possono visualizzare la lettura del throughput, degli IOPS e della latenza per un determinato intervallo di tempo.
Infine, arriviamo alle prestazioni della rete, che forniscono agli utenti anche una ripartizione dei parametri prestazionali, della larghezza di banda e dei pacchetti per un dato momento.
Cookie di prestazione
Analisi del carico di lavoro VDBench
Quando si tratta di effettuare benchmark sugli array di storage, il test delle applicazioni è la soluzione migliore, mentre il test sintetico viene al secondo posto. Pur non essendo una rappresentazione perfetta dei carichi di lavoro effettivi, i test sintetici aiutano a definire i dispositivi di storage con un fattore di ripetibilità che semplifica il confronto tra soluzioni concorrenti. Questi carichi di lavoro offrono una gamma di profili di test diversi che vanno dai test "quattro angoli", test comuni sulle dimensioni di trasferimento del database, nonché acquisizioni di tracce da diversi ambienti VDI. Tutti questi test sfruttano il comune generatore di carichi di lavoro vdBench, con un motore di scripting per automatizzare e acquisire risultati su un ampio cluster di test di calcolo. Ciò ci consente di ripetere gli stessi carichi di lavoro su un'ampia gamma di dispositivi di storage, inclusi array flash e singoli dispositivi di storage. Dal lato dell'array, utilizziamo il nostro cluster di server Dell PowerEdge R740xd:
Profili:
- Lettura casuale 4K: 100% di lettura, 128 thread, 0-120% irate
- Scrittura casuale 4K: scrittura al 100%, 64 thread, 0-120% irate
- Lettura sequenziale 64K: lettura al 100%, 16 thread, 0-120% irate
- Scrittura sequenziale 64K: scrittura al 100%, 8 thread, 0-120% irate
- Database sintetici: SQL e Oracle
- Clonazione completa VDI e tracce di clonazione collegata
Nelle prestazioni di lettura di picco 4K, il Newisys con KumoScale (denominato "nodo di archiviazione" per il resto di questa recensione in quanto è l'unico dispositivo esaminato) ha avuto prestazioni inferiori al millisecondo durante tutto il test, con un picco di 2,981,084 IOPS con un latenza di 260μs.
Nelle prestazioni di picco in scrittura 4K, il nodo di archiviazione ha raggiunto il picco di 1,926,637 IOPS con una latenza di 226μs.
Passando alla lettura di picco di 64K, il nodo di archiviazione ha registrato prestazioni di picco di 213,765 IOPS o 13.36 GB/s con una latenza di 441 μs.
Per la scrittura di picco sequenziale da 64K, il nodo di archiviazione ha raggiunto 141,454 IOPS o 8.83 GB/s con una latenza di 432μs.
Nel nostro carico di lavoro SQL, il nodo di archiviazione ha raggiunto il picco di 1,361,815 IOPS con una latenza di 179μs.
Nel benchmark SQL 90-10, abbiamo riscontrato prestazioni di picco di 1,171,467 IOPS con una latenza di soli 210μs.
Il benchmark SQL 80-20 ha mostrato che il nodo di archiviazione ha raggiunto una prestazione massima di 987,015 IOPS con una latenza di 248μs.
Con Oracle Workload, il nodo di archiviazione ha registrato prestazioni massime di 883,894 IOPS con una latenza di 280 μs.
L'Oracle 90-10 ha mostrato prestazioni di picco di 967,507 IOPS con una latenza di 176μs.
In Oracle 80-20, il nodo di storage è stato in grado di raggiungere 829,765 IOPS con una latenza di 204μs.
Successivamente siamo passati al nostro test clone VDI, Completo e Collegato. Per VDI Full Clone Boot, il nodo di storage ha raggiunto il picco di 889,591 IOPS con una latenza di 261μs.
L'accesso iniziale a VDI Full Clone ha visto il nodo di storage raggiungere un picco di 402,840 IOPS con una latenza di 562μs.
L'accesso VDI Full Clone Monday ha mostrato una prestazione massima di 331,351 IOPS e una latenza di 369μs.
Passando a VDI Linked Clone, il test di avvio ha mostrato una prestazione di picco di 488,484 IOPS e una latenza di 234μs.
Nel profilo VDI Linked Clone che misura le prestazioni dell'accesso iniziale, il nodo di archiviazione ha raggiunto il picco di 194,781 IOPS con una latenza di 318μs.
Nel nostro ultimo profilo, esaminiamo le prestazioni dell'accesso del lunedì del clone collegato a VDI. Qui il nodo di archiviazione ha raggiunto il picco di 247,806 IOPS con una latenza di 498μs.
Conclusione
Progettato per massimizzare le prestazioni dello storage a blocchi, il software KumoScale raggruppa insieme gli SSD NVMe per fornire la giusta quantità di capacità e IOPS che possono essere condivisi da migliaia di istanze di lavoro su NVMe-oF. Ciò offre agli utenti del cloud maggiore flessibilità, scalabilità ed efficienza. Sebbene KumoScale possa essere utilizzato in diverse opzioni hardware per creare il nodo di archiviazione (Toshiba consiglia CPU Intel Xeon E5-2690 v4 a 2.30 GHz o equivalente e 64 GB di DRAM), abbiamo utilizzato il server a doppio nodo Newisys NSS-1160G-2N. NVMe-oF non solo porterà lo storage a prestazioni quasi di picco, ma KumoScale funziona anche con più framework di orchestrazione tra cui Kubernetes, OpenStack, Lenovo XClarity e Intel RSD.
Il sistema Newisys basato su Toshiba KumoScale può sicuramente portare il tuono in termini di prestazioni. Da nessuna parte il nodo di archiviazione si è avvicinato alla rottura di 1 ms, la latenza più alta è stata di 562 μs nell'accesso iniziale VDI FC. Alcuni punti salienti includono quasi 3 milioni di IOPS in lettura 4K, quasi 2 milioni in scrittura 4K, 1.3 milioni di IOPS nel carico di lavoro SQL, 1.1 milioni di IOPS in SQL 90-10 e quasi 1 milione in SQL 80-20. Per prestazioni sequenziali a 64K, il nodo di archiviazione ha raggiunto 13.36 GB in lettura e 8.83 GB/s in scrittura.
Anche se non c'è dubbio che le prestazioni siano astronomiche, mettere KumoScale nel contesto lo fa davvero brillare. La latenza e le prestazioni sono notevolmente migliori attraverso questa piattaforma rispetto ad altre piattaforme non NVMe-oF. La latenza è più vicina a quella delle prestazioni di archiviazione locale, che è esattamente ciò a cui mira il protocollo NVMe-oF e ciò che richiedono le applicazioni su cui sono posizionati questi sistemi. Tuttavia, le prestazioni su larga scala di questo sistema sono ciò che dovrebbe davvero contare. Abbiamo esaminato le prestazioni di 8 SSD in un nodo di storage, dove i sistemi di produzione avrebbero più nodi di storage, ciascuno con i propri pool di storage. Le prestazioni in quello scenario previsto superano facilmente i parametri degli array di archiviazione tradizionali, rendendo KumoScale un punto di svolta quando si tratta di array NVMe-oF. Toshiba ha fatto molto bene nel fornire efficienza prestazionale con KumoScale e dispone anche di una GUI per la valutazione e lo sviluppo. Abbinata allo chassis Newisys, questa soluzione troverà sicuramente successo nei data center di grandi dimensioni che possono sfruttare i vantaggi in termini di throughput e latenza offerti dal software Toshiba KumoScale.
Iscriviti alla newsletter di StorageReview