Dell PowerEdge XE9680 è un esempio di innovazione nell'informatica aziendale, offrendo ai clienti la massima flessibilità della GPU.
PowerEdge XE9680 rappresenta la piattaforma infrastrutturale AI più versatile di Dell fino ad oggi. Combina un nodo di elaborazione 760U in stile PowerEdge R2 con un enorme cassetto GPU 4U. Questo innovativo design 6U combina il meglio dell'ingegneria dei server aziendali di Dell con una densità e una flessibilità GPU senza precedenti.
Nel suo nucleo, XE9680 supporta processori Intel Xeon Scalable doppi, offrendo una scelta tra la quinta generazione con fino a 5 core per CPU o la quarta generazione con fino a 64 core. La capacità di memoria è sostanziale, supportando fino a 4 TB di memoria DDR56 su 4 slot DIMM, funzionando fino a 5 MT/s con i processori più recenti.
Ciò che distingue davvero l'XE9680 sono le sue capacità GPU. La piattaforma supporta otto GPU ad alta potenza. Le configurazioni disponibili includono HGX H200 (141 GB) e H100 (80 GB) di NVIDIA, Instinct MI300X (192 GB) di AMD e Gaudi3 (128 GB) di Intel. La nuova Modello XE9680L La variante supporta le GPU B200 di nuova generazione di NVIDIA e il raffreddamento a liquido diretto, portando densità e prestazioni ai massimi livelli.
Le configurazioni di storage sono ugualmente flessibili, offrendo 8 unità NVMe/SAS/SATA da 2.5" o 16 unità E3.S NVMe. Il sistema può essere dotato della scheda RAID PERC NVMe H965i di Dell, semplificando notevolmente la ridondanza di storage per grandi cache KV durante i carichi di lavoro di inferenza.
L'erogazione di potenza è progettata per la massima affidabilità. Sei alimentatori per un totale di 19200 W sono configurati in una disposizione ridondante a tolleranza di errore (FTR) 3+3. Quando due o più PSU si guastano, il sistema entra in modalità ridondante a tolleranza di errore anziché spegnersi. In questa modalità, il freno di potenza della GPU si attiva, limitando i clock della GPU a un quarto, con un conseguente risultato di circa un quinto delle prestazioni tipiche della GPU.
Questa scelta di progettazione ponderata è inestimabile negli ambienti di formazione su larga scala in cui centinaia o migliaia di GPU lavorano in concerto. Invece di avere un nodo completamente offline, il che richiederebbe la riprogrammazione e la ripetizione di iterazioni di formazione su un altro nodo, il sistema può continuare a funzionare a prestazioni ridotte fino alla successiva finestra di manutenzione. Tale attenzione ai dettagli nella gestione dell'alimentazione aiuta a mantenere un elevato throughput di formazione del modello (MFU) riducendo al minimo le interruzioni.
Le capacità di espansione sono estese, con fino a 10 slot PCIe Gen5 x16 a tutta altezza e mezza lunghezza, due dei quali supportano schede ad alta potenza oltre i 75 W. Questa abbondanza di connettività PCIe consente varie configurazioni di rete, tra cui DPU e SmartNIC, essenziali per la creazione di infrastrutture AI moderne.
Specifiche complete:
Specificazione | Dettagli |
---|---|
Processore | Fino a due processori Intel® Xeon® Scalable di quinta generazione (5 core per CPU) Fino a due processori Intel® Xeon® Scalable di quinta generazione (4 core per CPU) |
Opzioni GPU | XE9680: – Scheda grafica NVIDIA HGX H200 (141 GB) SXM5 700 W – Scheda grafica NVIDIA HGX H100 (80 GB) SXM5 700 W – AMD Instinct MI300X (192 GB) OAM 750 W – Intel Gaudi3 (128 GB) OAM 900 W |
Memorie | 32 slot DIMM 5600 MT/s (5a generazione) 4800 MT/s (4a generazione) |
Archiviazione | Vani di guida anteriori: 8 NVMe/SAS/SATA da 2.5" (massimo 122.88 TB) 16x E3.S NVMe (massimo 122.88 TB) |
Controller di archiviazione | Controller interni: PERC H965i (non supportato con Intel Gaudi3)Avvio interno: Sottosistema di archiviazione ottimizzato per l'avvio (NVMe BOSS-N1): HWRAID 1, 2 x SSD M.2 |
Slot PCIE | Slot PCIeFino a 10 slot PCIe Gen5 x16 (8 slot con Intel Gaudi3) |
Network NetPoulSafe | 1x OCP 3.0 (opzionale) 2 LOM da 1 GbE |
Alimentatori | Titanio 3200W (277 VAC) Titanio 2800W (200-240 VAC) |
Dimensioni | Altezza: 10.36 "(263.20mm) Larghezza: 18.97 "(482.00mm) Profondità: 39.71″ (1008.77 mm) con lunetta |
Peso | Fino a 251.44 libbre (114.05 kg) |
Fattore di forma | Server rack 6U |
Management | Incorporato/sul server: iDRAC9 iDRAC diretto API RESTful iDRAC con RedfishiDRAC Service ModuleConsole: Plug-in CloudIQ per PowerEdge ApriGestisci impresa Plugin OpenManage Power Manager Plug-in del servizio OpenManage Strumenti del plugin OpenManage Update Manager: Aggiornamento del sistema Dell Gestore dell'archivio Dell Cataloghi aziendali API RESTful iDRAC con Redfish IPMI RACADM CLIOpenManageIntegrations: BMC Truesight OpenManage Integrazione con ServiceNow |
Sicurezza | Firmware crittografato Data at Rest Encryption (SED con gestione della chiave locale o esterna) Secure Boot Verifica dei componenti protetti (controllo dell'integrità dell'hardware) Secure Erase Radice di fiducia in silicio Blocco del sistema (richiede iDRAC9 Enterprise o Datacenter) |
Raffreddamento | Raffreddato ad aria |
Costruzione e progettazione di Dell PowerEdge XE9680
Il PowerEdge XE9680 è un imponente pezzo di hardware, che misura 10.36 pollici (263.20 mm) di altezza, 18.97 pollici (482.00 mm) di larghezza e 39.71 pollici (1008.77 mm) di profondità con la sua cornice attaccata. Quando è completamente carico, pesa 251.44 libbre (114.05 kg). La selezione della GPU avrà l'ultima parola sul peso, con il modello NVIDIA H100/H200 che arriva a 238 libbre, mentre l'unità AMD MI300X fa pendere la bilancia a 251 libbre.
Questo è stato il primo server che ha richiesto un'attenta riflessione per essere caricato correttamente nel nostro ambiente di test. Se si considera il peso del server e il numero di persone necessarie per montare l'hardware, c'è un certo margine di manovra per andare oltre i limiti, ma a un certo punto, una o due persone non lo sollevano da sole. Dell è così gentile da fornirti un "tavolo elevatore" per aiutarti a capire come si inserisce questa piattaforma. Per tutti coloro che se lo chiedono, Kevin ha caricato personalmente l'XE9680 nel rack.
Peso del telaio | Descrizione |
---|---|
40 libbre – 70 libbre | Si consiglia di sollevarlo in due. |
70 libbre – 120 libbre | Si consiglia di sollevarlo in tre. |
≥ 121 libbre | È necessario un ascensore per server. |
Nonostante la sua complessità e la raccomandazione di Dell per i tecnici specializzati, l'XE9680 presenta elementi di servizio notevolmente intuitivi. I pannelli del server includono istruzioni di servizio dettagliate e grafica chiara, rendendo le procedure di manutenzione sorprendentemente accessibili per il personale IT esperto. Queste guide visive si sono dimostrate inestimabili durante il nostro tempo pratico con il sistema, consentendoci di riparare vari componenti con sicurezza.
Dopo aver aperto il coperchio del PowerEdge XE9680, una volta superati i numerosi cavi di alimentazione della piccola sottostazione elettrica in alto, sembra molto simile a un PowerEdge R760. La nostra unità era alimentata da due processori Intel Xeon Platinum 8468, ciascuno con 48 core a 2.1 Ghz. Ogni processore offre 80 corsie PCIe, che scorrono attraverso un bel po' di switch PCIe in questa unità per supportare le GPU, le NIC e altro hardware caricato nell'XE9680.
Una delle caratteristiche ingegneristiche più impressionanti è il design PCIe Switch Board (PSB). Queste schede forniscono connettività per un massimo di 10 schede PCIe aggiuntive a tutta altezza e mezza lunghezza (due delle quali possono superare i 75 W di potenza assorbita) e si integrano direttamente con la scheda base GPU. Questa integrazione diretta abilita la tecnologia GPU-direct, consentendo a SSD e schede di rete di comunicare direttamente con le GPU, bypassando la CPU e riducendo la latenza per carichi di lavoro AI intensivi di I/O.
Ogni slot di espansione supporta un'interfaccia PCIe Gen5 x16 completa, inclusi i due slot inferiori all'estrema sinistra e destra del layout. Mentre gli otto slot superiori sono collegati tramite il proprio PSB, i due slot inferiori si collegano direttamente alla PCIe Base Board (PBB). Questi due slot supportano anche schede ad alta potenza. Inoltre, va notato che il layout PCIe varia leggermente a seconda del tipo di GPU scelto per PowerEdge XE9680. I modelli dotati di AMD non supportano SmartNIC/DPU e i modelli Intel Gaudi3 hanno due slot bloccati a causa di problemi di flusso d'aria.
Il raffreddamento è un altro settore in cui l'esperienza ingegneristica di Dell brilla. Il sistema impiega fino a 16 ventole gold-grade ad alte prestazioni, sei nel vassoio centrale e dieci nella parte posteriore. Il PowerEdge XE9680 supporta un'ampia gamma di scenari di installazione, con temperature ambiente che vanno da 10 a 35 °C (30 °C con le GPU Intel Gaudi3). A piena inclinazione, il server sposta ben 1,200 CFM nel corridoio caldo.
Questa robusta soluzione di raffreddamento gestisce anche i carichi termici più esigenti, tra cui le GPU AMD MI300X, Intel Gaudi3 o NVIDIA H100, mantenendo al contempo temperature operative ottimali. Il PowerEdge XE9680 canta parecchio sotto carico in termini di rumore in uscita. Dell offre una scheda tecnica acustica completa per l'XE9680 in diverse situazioni, ma è abbastanza facile dire che sarà una piattaforma rumorosa sotto carico.
Management
Le capacità di gestione dell'XE9680 sono basate su iDRAC9, collaudato in ambito aziendale, di Dell, che fornisce una gestione e un monitoraggio completi del ciclo di vita del server. Questa iterazione di iDRAC offre diverse funzionalità ottimizzate per l'intelligenza artificiale, tra cui telemetria GPU dettagliata, analisi del consumo energetico e un monitoraggio termico esteso progettato per carichi di lavoro AI ad alta densità.
Lo stack di gestione della piattaforma è particolarmente degno di nota per le distribuzioni di infrastrutture AI. Tramite l'API RESTful di iDRAC9 con supporto Redfish, le organizzazioni possono monitorare e gestire a livello di programmazione l'utilizzo della GPU, la larghezza di banda della memoria e le condizioni termiche, parametri critici per mantenere prestazioni ottimali di training e inferenza AI. L'integrazione del sistema con OpenManage Enterprise consente la gestione di più XE9680 a livello di flotta tramite una console unificata, essenziale per cluster AI su larga scala.
Sicurezza e conformità sono elementi fondamentali dell'architettura di gestione. La piattaforma implementa Silicon Root of Trust e Secure Component Verification, assicurando l'integrità dell'hardware dall'avvio fino al funzionamento. Queste funzionalità sono particolarmente preziose quando si eseguono carichi di lavoro AI sensibili o si gestiscono pesi di modelli proprietari.
La capacità di analisi predittiva dei guasti, alimentata dall'integrazione CloudIQ, utilizza l'apprendimento automatico per prevedere potenziali problemi hardware prima che influiscano sui carichi di lavoro. Questo approccio proattivo è particolarmente cruciale per i lavori di formazione AI di lunga durata, in cui tempi di inattività imprevisti possono causare giorni di calcolo persi. Se combinata con il servizio ProSupport Plus di Dell, questa capacità predittiva attiva la creazione automatica di casi e la spedizione di parti, spesso con conseguente manutenzione preventiva prima che si verifichi il degrado del sistema.
Per le organizzazioni che necessitano di integrazione con strumenti di gestione esistenti, XE9680 supporta vari framework di gestione tramite integrazioni OpenManage, tra cui ServiceNow e BMC TrueSight, consentendo un'integrazione fluida nei flussi di lavoro di gestione dei servizi IT consolidati.
L'interfaccia iDRAC9 fornisce un monitoraggio dettagliato in tempo reale dei componenti critici tramite una dashboard intuitiva. Il monitoraggio GPU visualizza metriche complete, tra cui temperatura, consumo energetico e tassi di utilizzo su tutti gli otto acceleratori, essenziali per ottimizzare la distribuzione del carico di lavoro AI.
L'interfaccia di monitoraggio dell'archiviazione offre visibilità immediata sullo stato di salute dell'unità, sulla temperatura e sulle metriche delle prestazioni nell'array NVMe, il che è particolarmente utile quando si gestiscono cache di inferenza ad alta produttività e set di dati di addestramento.
Memoria, archiviazione e scalabilità
Le otto GPU AMD MI300X all'interno del Dell PowerEdge XE9680 rappresentano un balzo significativo nella capacità di memoria della GPU, offrendo 192 GB di memoria HBM3 per scheda rispetto ai 200 GB di NVIDIA H141. Questo aumento del 36% nella capacità di memoria non è solo un numero su una scheda tecnica, è fondamentale per l'implementazione di modelli di linguaggio di grandi dimensioni.
Questo enorme pool di memoria, abbinato alla larghezza di banda di memoria da 300 TB/s del MI5.3X, consente alle organizzazioni di eseguire più istanze di modelli più piccoli o di partizionare modelli più grandi su più GPU, mantenendo al contempo un throughput elevato e una bassa latenza.
Per mettere tutto questo in prospettiva, il modello Llama 3.1 405B di Meta, che richiede più di 1 TB di VRAM in BF16, può essere comodamente distribuito su un singolo XE9680 con GPU MI300X senza quantizzazione e lunghezza di contesto completa di 128k. Ciò elimina la potenziale perdita di qualità associata alle tecniche di quantizzazione e consente più token/secondo rispetto alla distribuzione del modello su due server.
Per massimizzare il nostro spazio di archiviazione, abbiamo utilizzato Solido 61.44 TB unità per fungere da sofisticata estensione della memoria, colmando il divario tra la memoria GPU ad alta velocità e lo storage tradizionale. Gli SSD eccellono nell'archiviazione di coppie di cache chiave-valore durante l'inferenza, estendendo efficacemente la capacità di memoria della GPU per generazioni di contesti lunghi. La loro enorme capacità e le prestazioni NVMe li rendono ideali per un rapido accesso al peso del modello, consentendo un efficiente cambio di modello e avvii a caldo.
In applicazioni come l'implementazione di Metrum AI descritta in dettaglio di seguito, gli SSD svolgono una doppia funzione: quella di back-end di archiviazione per database vettoriali, garantendo le prestazioni necessarie per ricerche di similarità in tempo reale e mantenendo al contempo la capacità di un'ampia capacità di archiviazione incorporata.
Il valore di queste unità ad alta capacità si estende oltre l'inferenza ai flussi di lavoro di formazione. Forniscono un archivio locale ideale per la messa in coda di batch di formazione, riducendo il sovraccarico di rete mantenendo i dati più vicini alle risorse di elaborazione. Durante la formazione, queste unità eccellono nell'archiviazione locale dei checkpoint del modello, il che è fondamentale per mantenere i progressi della formazione e consentire un rapido ripristino. Questa strategia di archiviazione locale aiuta anche a ottimizzare l'utilizzo della rete riducendo il traffico di rete immediato dopo ogni livello e batch elaborati.
Mentre la capacità di 61.44 TB su otto bay nell'XE9680 sembra promettente, c'è molta più capacità in arrivo. Con La nuova unità da 122.88 TB annunciata da Solidigm, la densità di archiviazione nell'XE può essere raddoppiata fino a quasi un petabyte per ulteriori ottimizzazioni dell'addestramento e cache di inferenza di maggiore durata.
Metrum AI Healthcare Assistant: rivoluziona la cura dei pazienti
Il settore sanitario affronta costantemente una sfida nella gestione della documentazione dei pazienti e della gestione dei record che richiede molto tempo, il che spesso distrae dall'assistenza diretta al paziente. L'assistente sanitario di Metrum AI, distribuito su server Dell PowerEdge XE9680 con acceleratori AMD, esemplifica come un'infrastruttura AI avanzata possa trasformare i flussi di lavoro sanitari, migliorando l'efficienza e i risultati per i pazienti.
Il sistema utilizza Llama 3.1 70B Instruct come modello di linguaggio primario, rinomato per la sua comprensione dei contesti medici. Ciò gli consente di elaborare facilmente dati complessi dei pazienti. Questo modello di linguaggio è abbinato al modello di incorporamento gte-v1.5 e al Milvus Vector DB, fornendo una solida base per l'elaborazione del linguaggio naturale e la comprensione contestuale essenziale per la gestione dei dati medici.
L'assistente sanitario di Metrum AI include anche un approccio multimodale che incorpora HistoGPT per l'analisi delle immagini istopatologiche e Whisper di OpenAI per la trascrizione in tempo reale delle note del medico. Insieme, questi modelli semplificano i flussi di lavoro clinici, consentendo ai medici di parlare in modo naturale mentre il sistema trascrive, categorizza e integra le informazioni nelle cartelle cliniche dei pazienti in tempo reale.
Metrum AI riconosce che, anche se i dati dei singoli pazienti possono essere relativamente piccoli, le richieste di storage combinate degli ospedali ad alto traffico possono aumentare fino a centinaia di terabyte. Il Dell PowerEdge XE9680 può risolvere questo problema con il suo storage NVMe locale integrato. La nostra configurazione offre otto alloggiamenti di storage U.2.5 NVMe da 2" che operano a velocità PCIe Gen4. Mentre abbiamo testato l'XE9680 con SSD Soldigim D61.44-P5 QLC da 5336 TB, questa capacità può essere ulteriormente scalata. Soldigim ha recentemente lanciato il suo nuovo Modelli QLC D5-P5336 da 122.88 TB, che raddoppia la capacità dei loro SSD, già enormi, mantenendo le stesse prestazioni.
Metrum ha fornito stime di come i dati dei pazienti si traducono nel tempo in diversi scenari. Quando si calcola la capacità di archiviazione totale, è possibile vedere quanti pazienti aggiuntivi un'unità potrebbe supportare utilizzando gli SSD con la capacità più elevata. Prendendo l'impronta di dati stimata per paziente e confrontandola con la capacità utilizzabile per ogni SSD (57 TB per l'SSD da 61 TB e 114 TB per l'SSD da 122 TB), possiamo vedere che avere SSD densi aumenta notevolmente ciò che è possibile archiviare sul server in modo significativo all'anno.
Stima annuale totale per paziente | Note | Archiviazione stimata | Pazienti per SSD da 61 TB | Pazienti per SSD da 122 TB |
---|---|---|---|---|
Esigenze di archiviazione avanzate (immagini/varianti DICOM, incrementi, copie elaborate, trascrizioni audio, registrazioni dettagliate) | Include più copie di immagini, trascrizioni audio e registrazioni | ~ 8.4 GB | 6,786 | 13,571 |
Scenario di archiviazione elevato (elaborazione pesante, visite frequenti) | Visite frequenti, elevati requisiti di elaborazione delle immagini | ~ 10.5 GB | 5,428 | 10,857 |
Sebbene le stime iniziali di 1 anno sembrino piuttosto elevate, è importante notare che i dati dei pazienti non sono statici. Avrai nuovi dati acquisiti e nuove visite programmate, aumentando la domanda di storage. È qui che lo storage gioca un ruolo significativo nello spazio dell'imaging medico. Una capacità di storage aggiuntiva influisce direttamente sul numero di pazienti che una soluzione può supportare in modo efficace.
Stima totale di conservazione a 10 anni per paziente | Note | Archiviazione stimata | Pazienti per SSD da 61 TB | Pazienti per SSD da 122 TB |
---|---|---|---|---|
Scenario avanzato (copie multiple, registrazioni dettagliate, audio, aumenti) | Registrazioni espanse, imaging frequente ed elaborazione | ~ 84 GB | 679 | 1,357 |
Scenario elevato (elaborazione pesante, cronologia completa) | Massima necessità di elaborazione e stoccaggio per oltre 10 anni | ~ 105 GB | 543 | 1,086 |
Dell PowerEdge XE9680, dotato di acceleratori AMD MI300X e integrato con Healthcare Assistant di Metrum AI, fornisce una soluzione scalabile ed efficiente per gli operatori sanitari. Automatizzando le attività che richiedono molto tempo e consentendo un rapido accesso a informazioni critiche, questa configurazione consente ai medici di concentrarsi maggiormente sull'assistenza ai pazienti, gestendo al contempo le crescenti richieste. Grazie all'integrazione senza soluzione di continuità dei componenti AI nelle modalità di linguaggio, immagine e voce, Healthcare Assistant rappresenta un significativo progresso nelle soluzioni sanitarie basate sull'AI, riducendo gli oneri amministrativi e migliorando i risultati complessivi per i pazienti.
Conclusione
Nel panorama in evoluzione dell'AI aziendale, Dell PowerEdge XE9680 stabilisce un nuovo standard, dimostrando come l'hardware appositamente progettato possa rivoluzionare vari settori. L'implementazione di Metrum AI Healthcare Assistant mostra una delle innumerevoli possibilità: immagina istituzioni finanziarie che eseguono modelli complessi di analisi del rischio in tempo reale o laboratori di ricerca che elaborano vasti set di dati per la scoperta di farmaci, il tutto alimentato da questo straordinario sistema.
L'XE9680 offre una versatilità eccezionale nelle opzioni GPU, dalle H100 di NVIDIA alle MI300X di AMD e alle Gaudi3 di Intel. Questa flessibilità, combinata con la sua robusta capacità di memoria, le opzioni di storage e le innovative soluzioni di raffreddamento, lo rende più di un semplice server AI: è una piattaforma di elaborazione aziendale completa in grado di gestire i carichi di lavoro più esigenti in varie applicazioni, sia nel data center che nello studio medico.
Dal punto di vista dell'archiviazione, il server ha solo otto bay NVMe, ma grazie a Solidigm, possiamo usare i loro SSD da 61.44 TB per ottenere quasi mezzo petabyte nel sistema come spazio di lavoro per l'assistente sanitario di cui abbiamo parlato sopra. Se ciò non bastasse, Solidigm ha appena annunciato di aver raddoppiato la capacità del D5-P5336 a 122.88 TB, il che significa che sistemi come questo potrebbero contenere circa un petabyte di archiviazione flash adiacente al loro acceleratore, consentendo carichi di lavoro AI efficienti.
L'ingegneria di Dell traspare in ogni aspetto dell'XE9680, dalle sue funzionalità di gestione dell'alimentazione ponderate alla sua facilità di manutenzione. La capacità della piattaforma di mantenere il funzionamento anche durante guasti parziali dell'alimentazione dimostra la profonda comprensione di Dell dei requisiti AI, in cui l'affidabilità del sistema e il funzionamento continuo sono fondamentali.
Supportato dall'infrastruttura di supporto completa di Dell e dall'impegno nel promuovere le capacità di intelligenza artificiale attraverso varie iniziative, PowerEdge XE9680 rappresenta una testimonianza dell'innovazione nell'informatica aziendale. Grazie alla sua combinazione di potenza di calcolo grezza, flessibilità architettonica e affidabilità di livello aziendale, ha ricevuto un rinnovato premio Best of 2024.
Pagina del prodotto Dell XE9680
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed
Questa recensione è stata scritta congiuntamente da Kevin O'Brien e Divyansh Jain