Recensione di Dell PowerEdge R770: CPU Intel Xeon 6, modularità OCP DC-MHS, prestazioni impressionanti, flessibilità e compatibilità con l'intelligenza artificiale in uno chassis 2U denso.
I server della serie PowerEdge R7x0 di Dell sono da tempo una pietra angolare dei data center, rinomati per la loro eccezionale qualità costruttiva, il design ponderato, le prestazioni, la densità e l'affidabilità nel versatile fattore di forma 2U. Questi server si sono costantemente evoluti per soddisfare le mutevoli esigenze. Ora, con l'introduzione di Dell PowerEdge R770, la serie compie un significativo balzo in avanti.
TL'R770 inaugura la nuova famiglia di processori Xeon 6 di Intel, caratterizzata dai processori core Xeon 6500 e 6700 P ed E. Segna la prima adozione completa da parte di Dell dello standard OCP Data Center Modular Hardware System (DC MHS) nella sua linea di server mainstream. Insieme, questi due cambiamenti promettono un'evoluzione significativa nella capacità e nella filosofia di progettazione.
Soddisfare le esigenze dei moderni data center
Il lancio dell'R770 avviene in un momento in cui i data center affrontano una pressione crescente. I carichi di lavoro sono sempre più diversificati e impegnativi. La crescita inarrestabile dei dati alimenta la necessità di analisi e database robusti. Dall'addestramento di modelli complessi all'implementazione di inferenze in tempo reale, l'intelligenza artificiale non è più un'applicazione di nicchia, ma un driver aziendale fondamentale che richiede una potenza di elaborazione sostanziale e un'accelerazione specializzata.
Allo stesso tempo, c'è un'intensa attenzione all'efficienza energetica e all'ottimizzazione del costo totale di proprietà. Inoltre, il settore sta sempre più guardando verso standard aperti per promuovere l'innovazione, migliorare l'interoperabilità e potenzialmente ridurre il vendor lock-in. L'R770, con le sue nuove opzioni di processore e l'adozione di OCP DC MHS, è progettato per affrontare queste sfide di petto.
Processori Intel Xeon 6 P-Core
Il processore R770 utilizza i processori Intel Xeon serie 6, tra cui le serie 6700 e 6500, che incorporano i core Performance ed Efficiency costruiti sulla piattaforma Socket E2 (LGA4710-2). Per questa recensione, ci concentriamo specificamente sulle SKU della serie P.
Intel costruisce questi processori utilizzando un design basato su tile, combinando tile I/O con uno o due tile di calcolo. Ciò consente la scalabilità all'interno della serie, con configurazioni che raggiungono fino a 86 P-core (XCC) utilizzando due tile di calcolo, fino a 48 P-core (HCC) o 16 P-core (LCC) con tile di calcolo singoli.
Rispetto ai processori Sapphire ed Emerald Rapids di precedente generazione, un elemento di differenziazione chiave per questi processori è la disponibilità universale di acceleratori integrati in tutti i processori Xeon 6. Ciò include la tecnologia Intel QuickAssist per crittografia e compressione, Intel Data Streaming Accelerator per lo spostamento dei dati, Intel In-Memory Analytics Accelerator per l'accelerazione di database e analisi e Intel Dynamic Load Balancer per l'efficienza di elaborazione della rete.
Anche la memoria e la larghezza di banda I/O vedono miglioramenti sostanziali. La serie Xeon 6700/6500 P-core supporta la memoria DDR8 a 5 canali. Inoltre, aprono la strada a Multiplexed Rank DIMM (MRDIMM), che offre velocità fino a 8,800 MT/s. Sul fronte I/O, questi processori supportano PCIe 5.0 e CXL 2.0. Nelle configurazioni dual-socket, la piattaforma può offrire fino a 88 corsie PCIe per socket (per un totale di 176 corsie).
E nonostante la differenziazione tra P-core ed E-core, la famiglia Xeon 6 mantiene la coerenza nei set di istruzioni, BIOS, driver, supporto OS/applicazione e funzionalità RAS, semplificando l'integrazione e la gestione tra diversi tipi di distribuzione. Le varianti P-core sono mirate a carichi di lavoro in cui le prestazioni per core, l'accelerazione AI, l'elevata larghezza di banda della memoria e un I/O sostanziale sono fondamentali; pensa a database esigenti, simulazioni HPC, analisi avanzate e un'ampia gamma di applicazioni AI.
Specifiche dell'unità Dell PowerEdge R770
Specificazione | Dell PowerEdge R770 |
Processore | Due processori Intel Xeon 6 con fino a 144 E-core o 86 P-core per processore |
Memorie | 32 slot DIMM DDR5, supporta RDIMM 8 TB max, velocità fino a 6400 MT/s, supporta solo DIMM DDR5 ECC registrati |
Controller di archiviazione | Avvio interno: sottosistema di archiviazione ottimizzato per l'avvio (BOSS-N1 DC-MHS): HWRAID 1, 2 x SSD M.2 NVMe o scheda interposer M.2 (DC-MHS): 2 x SSD M.2 NVMe o USB, controller interni: PERC anteriore H965i, PERC anteriore H975i, PERC anteriore H365i |
Vani anteriori e posteriori |
|
Alimentatori Hot Swap |
|
Opzioni di raffreddamento | Raffreddamento ad aria e raffreddamento diretto a liquido (DLC è una soluzione rack e richiede collettori rack e un'unità di distribuzione del raffreddamento (CDU)) |
Fan | Ventole Silver ad alte prestazioni (HPR SLVR)/Ventole Gold ad alte prestazioni (HPR GOLD), fino a 6 ventole sostituibili a caldo |
Dimensioni e peso | Altezza: 86.8 mm (3.42 pollici), Larghezza: 482 mm (18.97 pollici), Peso: 28.53 kg (62.89 libbre), Profondità (per configurazione I/O posteriore) - 802.40 mm (31.59 pollici) con cornice, 801.51 mm (31.56 pollici) senza cornice, Profondità (per configurazione I/O anteriore) - 814.52 mm (32.07 pollici) senza cornice |
Fattore di forma | Server rack 2U |
Gestione integrata | iDRAC, iDRAC Direct, API RESTful iDRAC con Redfish, RACADM CLI, iDRAC Service Module (iSM), NativeEdge Endpoint, NativeEdge Orchestrator |
Lunetta | Cornice di sicurezza opzionale |
Sicurezza | Firmware firmato crittograficamente, crittografia dei dati a riposo (SED con gestione delle chiavi locali o esterne), avvio sicuro, verifica dei componenti protetti (controllo dell'integrità hardware), Silicon Root of Trust, blocco del sistema, blocco del sistema (richiede iDRAC10 Enterprise o Datacenter), rilevamento delle intrusioni nello chassis, TPM 2.0 FIPS, certificazione CC-TCG |
Opzioni di rete |
|
Opzioni GPU | Fino a 6 x 75 W FHHL o fino a 2 x 350 W DWFL |
porte | Porte anteriori: 1 porta USB 2.0 Type C, 1 porta USB 2.0 Type A (opzionale), 1 Mini-DisplayPort (opzionale), 1 porta seriale DB9 (con configurazione I/O frontale), 1 porta Ethernet dedicata per la gestione iDRAC; Porte posteriori: 1 porta Ethernet dedicata per la gestione iDRAC, 1 VGA, 2 porte USB 3.1 Type A; Porte interne: 1 porta USB 3.1 Type A |
PCIe |
|
Sistemi operativi e hypervisor | Server Canonical Ubuntu LTS, Microsoft Windows Server con Hyper-V, Red Hat Enterprise Linux, SUSE Linux Enterprise Server, VMware con vSphere |
Dell PowerEdge R770 adotta la modularità con OCP DC MHS
Fonte da Server/DC-MHS – OpenComputer
Dell PowerEdge R770 introduce notevoli progressi e flessibilità nella progettazione fisica e nell'architettura dei componenti, adottando lo standard OCP DC MHS (Data Center Modular Hardware System) dell'Open Compute Project.
Proseguendo l'eredità della serie R7x0, R770 offre ampie opzioni di configurazione per soddisfare diverse esigenze di distribuzione. Una novità significativa per questa linea è la scelta tra una configurazione Rear I/O tradizionale e una configurazione Front I/O Cold Aisle Accessible, che offre maggiore flessibilità per diversi layout di data center e requisiti di manutenzione. Le opzioni di storage sono ugualmente versatili, spaziando da nodi incentrati sul calcolo con storage locale minimo o nullo a configurazioni ad alta densità che supportano ben 40 unità E3.S per carichi di lavoro incentrati sullo storage.
Per rispondere alla crescente necessità di elaborazione accelerata, in particolare per AI e HPC, l'R770 vanta solide capacità di espansione. A seconda della configurazione dello chassis e del riser, il server può ospitare fino a sei schede PCIe Gen 5 x16 Full-Height, Full-Length (FHFL). Inoltre, supporta l'installazione di due GPU a doppia larghezza, rendendolo una piattaforma capace di svolgere un'ampia gamma di attività. La flessibilità di rete è fornita tramite slot mezzanine OCP 3.0, che supportano schede x8 o x16 in base alla configurazione.
Dell ha inoltre implementato diversi perfezionamenti di progettazione volti a migliorare la manutenibilità e l'affidabilità. Un esempio lampante è l'evoluzione della scheda Boot Optimized Storage Solution (BOSS). In precedenza collegata tramite cavi e integrata nel riser PCIe, il controller BOSS nell'R770 è ora implementato come una scheda standardizzata OCP che si interfaccia direttamente con la scheda madre, eliminando la complessità del cablaggio. Questo nuovo controller BOSS presenta anche unità NVMe M.2 più veloci e incorpora dissipatori di calore per garantire temperature operative e prestazioni ottimali per i dispositivi di avvio. Un altro miglioramento sottile ma pratico per i tecnici è il passaggio dai tradizionali jumper a DIP switch più intuitivi per funzioni come la cancellazione della NVRAM.
Il cambiamento architettonico più profondo è l'adozione completa dello standard OCP DC MHS. Dell ha iniziato a incorporare elementi OCP nelle generazioni precedenti, in particolare adottando gli slot per adattatori di rete OCP 3.0. L'R770 porta questo concetto molto più avanti. I componenti chiave ora aderiscono alle specifiche OCP, inclusi gli Host Processor Modules (HPM), comunemente noti come scheda madre, che include parti come gli slot riser, ora connettori M-XIO. Il connettore M-XIO fornisce un'interfaccia standardizzata per le schede riser, migliorando la flessibilità e l'aggiornabilità. L'iDRAC è anche implementato come un OCP DC-SCM (Server Control Module).
Inoltre, l'R770 introduce il nuovo connettore di alimentazione PICPWR per connessioni periferiche come GPU e backplane. Questo connettore è un'aggiunta significativa, che semplifica l'erogazione di potenza e incorpora il monitoraggio della potenza in linea.
Questa profonda integrazione standardizza interfacce e fattori di forma su vari sottosistemi. Mentre Dell sottolinea che gli utenti dovrebbero attenersi a componenti convalidati per una compatibilità e un supporto garantiti, la standardizzazione sottostante rende molte parti intrinsecamente più riparabili dall'utente e potenzialmente intercambiabili su sistemi conformi in futuro.
Gestione e iDRAC
Dell PowerEdge R770 si basa sul già ricco di funzionalità e amato iDRAC 9 con la nuova generazione di iDRAC 10, che migliora l'amministrazione del sistema tramite un'integrazione senza soluzione di continuità con il Data Center Secure Control Module (DC-SCM). Questa integrazione consente aggiornamenti firmware semplificati e gestione della configurazione, garantendo operazioni coerenti e scalabili nei data center. iDRAC 10 supporta anche funzionalità avanzate di automazione e monitoraggio, consentendo agli amministratori IT di gestire in modo efficiente le distribuzioni su larga scala senza compromettere le prestazioni o l'affidabilità.
La sicurezza è un pilastro delle funzionalità di gestione dell'R770, con Dell che implementa solidi meccanismi di verifica pre-avvio e avvio. Sfruttando la tecnologia Root of Trust basata su silicio, iDRAC 10 garantisce che tutto il firmware, inclusi BIOS e iDRAC, venga verificato crittograficamente prima dell'esecuzione. Questa misura di sicurezza immutabile basata su hardware protegge da manomissioni di malware e attacchi alla supply chain, fornendo una base sicura per le operazioni di sistema. Inoltre, l'R770 incorpora protocolli di avvio sicuri quantici per mitigare le minacce crittografiche emergenti, consolidando ulteriormente il suo ruolo nella salvaguardia delle infrastrutture critiche.
L'impegno di Dell per la sicurezza della supply chain è evidente nel design dell'R770, che impiega un processo di autenticazione della catena di fiducia completo. Ogni componente hardware viene sottoposto a una rigorosa verifica mediante firme crittografiche incorporate durante la produzione. Questo processo garantisce che vengano utilizzati solo firmware e componenti autorizzati, mitigando i rischi associati a modifiche non autorizzate o parti contraffatte.
Elementi costitutivi delle fabbriche di intelligenza artificiale
L'R770 può essere ordinato con molte configurazioni di GPU e Chassis, rendendolo una piattaforma versatile per un'ampia gamma di carichi di lavoro AI. Questa flessibilità e le sue solide capacità di archiviazione e networking lo rendono una scelta interessante per le organizzazioni che distribuiscono soluzioni AI nelle fabbriche AI. Le fabbriche AI si riferiscono all'infrastruttura e agli strumenti necessari per creare, addestrare e distribuire modelli AI su larga scala. Queste fabbriche sono essenziali per lo sviluppo di sistemi avanzati come veicoli autonomi e robotica, poiché forniscono la potenza di calcolo e le pipeline di dati necessarie per elaborare in modo efficiente enormi set di dati.
Lo sviluppo di veicoli autonomi e sistemi robotici richiede dati di training estesi che riflettano scenari del mondo reale. Cosmos NIM di NVIDIA rappresenta un significativo progresso in questo campo, offrendo agli sviluppatori un potente toolkit per accelerare la creazione e l'implementazione di sistemi di intelligenza artificiale fisici come i World Foundational Models.
Comprendere i modelli di fondazione mondiale
I modelli di fondazione mondiale (WFM) sono sofisticate reti neurali che simulano ambienti del mondo reale e prevedono risultati accurati in base a vari input. A differenza dei tradizionali modelli di intelligenza artificiale focalizzati su attività specifiche, i WFM comprendono le dinamiche del mondo fisico, tra cui la fisica e le proprietà spaziali. Possono generare video da prompt di testo, immagini o altri dati di input, rappresentando con precisione movimento, forza e relazioni spaziali.
NVIDIA Cosmos NIM: un trampolino di lancio verso modelli fondazionali mondiali
I Cosmos NIM di NVIDIA rappresentano un passaggio cruciale per raggiungere i World Foundational Model. Consentono alle organizzazioni e ai laboratori di intelligenza artificiale di generare dati di training sintetici, ridimensionando in modo efficiente i dati necessari per addestrare questi modelli di intelligenza artificiale. Abbiamo distribuito Il cosmo prevede modello, un modello generalista che genera stati del mondo da prompt di testo o video e sintetizza il movimento continuo prevedendo i fotogrammi.
Questi sono alcuni risultati interessanti che siamo riusciti a ottenere con Cosmos con una sola immagine del nostro laboratorio. Sebbene non impeccabile, ciò che è riuscito a ottenere da una sola immagine è davvero impressionante.
La capacità dell'R770 di supportare GPU ad alte prestazioni, come la NVIDIA H100, e le sue solide capacità di archiviazione e di rete lo rendono una scelta interessante per le organizzazioni che desiderano implementare soluzioni di intelligenza artificiale.
Sfruttando le capacità dell'R770, le organizzazioni possono addestrare e distribuire in modo efficiente modelli di IA come Cosmos NIM, accelerando lo sviluppo di veicoli autonomi e sistemi robotici. Le prestazioni e la scalabilità dell'R770 lo rendono una piattaforma ideale per gestire le grandi quantità di dati richieste per l'addestramento di modelli di IA e la sua versatilità gli consente di supportare un'ampia gamma di carichi di lavoro di IA.
Archiviazione diretta GPU
GPU Direct Storage è una tecnologia che consente il trasferimento diretto dei dati tra dispositivi di archiviazione e GPU, bypassando la CPU e la memoria di sistema. Nel trasferimento dati tradizionale, i dati vengono letti dall'archiviazione nella memoria della CPU e quindi copiati nella memoria della GPU. Questo processo comporta più copie di dati, con conseguente aumento della latenza e riduzione delle prestazioni. La CPU agisce come un collo di bottiglia, dovendo gestire il trasferimento dei dati tra l'archiviazione e la GPU. GDS elimina questo collo di bottiglia consentendo direttamente ai dispositivi di archiviazione di trasferire i dati da e verso la memoria della GPU.
Abbiamo condotto un'analisi del carico di lavoro GDSIO su un sistema di archiviazione composto da 16 unità, aumentando gradualmente il numero di unità utilizzate per comprendere le prestazioni di archiviazione e la sua capacità di saturare una GPU PCIe Gen 5.
Il grafico GDSIO Read illustra come l'aumento del numero di SSD KIOXIA CD8P influisce sulla velocità di lettura media e aggregata nell'r770. Inizialmente, man mano che il numero di unità aumenta da una a quattro, la velocità di lettura aggregata aumenta rapidamente, raggiungendo circa 50.2 GiB/sec. Ciò suggerisce che il sistema può saturare PCIe Gen 5 x16 con solo tre o quattro unità per il caricamento dei dati. Oltre le cinque unità, la velocità di lettura aggregata si stabilizza, indicando che le unità aggiuntive non migliorano in modo significativo. Nel frattempo, la velocità di lettura media per unità rimane stabile fino a 4 unità, ma poi diminuisce con l'aggiunta di più unità. Questo calo delle prestazioni per unità è dovuto al fatto che più unità condividono la larghezza di banda del bus PCIe disponibile e le letture delle singole unità vengono ridotte.
Al contrario, le prestazioni di scrittura di queste unità sono molto inferiori alle loro prestazioni di lettura. Ci sono volute tutte e 16 le unità per raggiungere una larghezza di banda di scrittura di 46.7 GiB/s, con la scrittura media per le unità che è rimasta pressoché costante. Considerando che queste sono le capacità di prestazioni di scrittura inferiori nel portafoglio KIOXIA CD8, le versioni ad alta capacità o altri SSD PCIe Gen5 se la caveranno meglio.
Valutazione comparativa di Dell PowerEdge R770
Passando ai benchmark, l'R770 è il sistema principale di punta di Dell e, in quanto tale, verrà distribuito in molti ambienti diversi. Quindi abbiamo eseguito un set completo di benchmark per questa piattaforma per dare un'idea di come la piattaforma si comporta in diversi ambienti. Il Lenovo ThinkSystem SR630 V4 è stato confrontato in alcuni test per mostrare la differenza tra le CPU E-core e P-core di fascia alta.
Configurazione del sistema
- CPU: 2x Intel Xeon 6787P (86 core ciascuno)
- RAM: 32x Micron 64 GB Dual-Rank DDR5 6400 MT/s Memoria totale: 2 TB
- Riserve energetiche: 2x Delta 1500W
- GPU: 1x NVIDIA H100 per il benchmark TGI, 1x NVIDIA L4 per i test rimanenti
- scheda di rete: Scheda di rete OCP Dell BRCM 4P 25G SFP 57504S
- Carta BOSS: Dischi BOSS-N1 DC-MHS 0 e 1 SK hynix 480 GB Dell NVMe ISE PE9010 RI M.2 480 GB
- dischi: 0-5 in Backplane 1: Samsung 6.4 TB, Dell NVMe PM1745 MU E3.S 6.4 TB
Prestazioni del carico di lavoro AI
Benchmark di inferenza della generazione di testo
Text Generation Inference (TGI) è un server di inferenza LLM ad alte prestazioni sviluppato da Hugging Face. È progettato per ottimizzare l'implementazione e il consumo di LLM, rendendolo una scelta ideale per gli ambienti di produzione. TGI supporta vari LLM open source e offre funzionalità come parallelismo tensoriale, streaming di token e batching continuo, che ne migliorano le prestazioni e l'efficienza.
Inferenza sulla generazione di testo – QwQ 32B
La funzionalità di benchmarking di TGI viene utilizzata per valutare le sue prestazioni in diverse configurazioni e carichi di lavoro. La funzionalità di benchmarking di TGI fornisce una rappresentazione più accurata delle prestazioni nel mondo reale, poiché considera le complessità del servizio di LLM in un ambiente di produzione.
La generazione di testo tramite LLM comporta due fasi principali: la fase di precompilazione e la fase di decodifica. La fase di precompilazione è il passaggio iniziale, in cui l'LLM elabora il prompt di input per generare le rappresentazioni intermedie necessarie. Questa fase è computazionalmente intensiva, poiché comporta l'elaborazione dell'intero prompt di input in un singolo passaggio in avanti attraverso il modello.
Durante la fase di prefill, il prompt di input viene tokenizzato e convertito in un formato che l'LLM può elaborare. L'LLM quindi calcola la cache KV, che memorizza le informazioni sui token di input. La cache KV è una struttura dati critica che facilita la generazione di token di output.
Al contrario, la fase di decodifica è un processo autoregressivo in cui l'LLM genera token di output uno alla volta, basandosi sulle rappresentazioni intermedie generate durante la fase di prefill. La fase di decodifica si basa in gran parte sulla cache KV generata durante la fase di prefill, che fornisce il contesto necessario per generare token di output coerenti e contestualmente rilevanti.
Fase di preriempimento
All'aumentare della dimensione del batch da 1 a 32, aumenta anche la latenza per tutti e tre i modelli; la latenza di DeepSeek-R1-Distill-Qwen-32 B aumenta da 29.97 ms con una dimensione del batch di 1 a 76.95 ms con una dimensione del batch di 32. Analogamente, la latenza per GEMMA-3-27B-IT e Qwen/QwQ-32B aumenta rispettivamente da 51.84 ms e 29.90 ms a 79.58 ms e 76.30 ms.
Al contrario, il tasso di token migliora significativamente all'aumentare della dimensione del batch. A una dimensione del batch di 1, i tassi di token per i tre modelli vanno da 192.95 a 334.46 token al secondo. A una dimensione del batch di 32, salendo a 4158.67, 4021.40 e 4194.13 token al secondo per DeepSeek-R1-Distill-Qwen-32B, GEMMA-3-27B-IT e Qwen/QwQ-32B, rispettivamente.
Dimensione del lotto | DeepSeek-R1-Distilla-Qwen-32B | GEMMA-3-27B-IT | Qwen/QwQ-32B | |||
---|---|---|---|---|---|---|
Latenza (ms) | Tasso di token | Latenza (ms) | Tasso di token | Latenza (ms) | Tasso di token | |
1 | 29.97 | 333.64 | 51.84 | 192.95 | 29.90 | 334.46 |
2 | 30.21 | 662.09 | 52.55 | 380.61 | 29.95 | 667.80 |
4 | 32.40 | 1234.72 | 52.62 | 760.12 | 32.12 | 1245.47 |
8 | 36.98 | 2163.46 | 52.66 | 1519.19 | 36.69 | 2180.66 |
16 | 51.63 | 3125.50 | 60.96 | 2624.64 | 51.29 | 3147.61 |
32 | 76.95 | 4158.67 | 79.58 | 4021.40 | 76.30 | 4194.13 |
Fase di decodifica
A differenza della fase di prefill, la latenza durante la fase di decodifica rimane relativamente stabile tra diverse dimensioni di batch. Ad esempio, la latenza di DeepSeek-R1-Distill-Qwen-32 B varia da 27.14 ms a 29.52 ms man mano che la dimensione del batch aumenta da 2 a 32.
Il tasso di token durante la fase di decodifica migliora con l'aumento delle dimensioni del batch, anche se non in modo così drastico come durante la fase di preriempimento. Con una dimensione del batch di 1, il tasso di token è di circa 36-37 token al secondo per DeepSeek-R1-Distill-Qwen-32B e Qwen/QwQ-32B e 33.96 token al secondo per GEMMA-3-27B-IT. Con una dimensione del batch di 32, i tassi di token aumentano rispettivamente a 1083.83, 873.39 e 1084.89 token al secondo.
Dimensione del lotto | DeepSeek-R1-Distilla-Qwen-32B | GEMMA-3-27B-IT | Qwen/QwQ-32B | |||
---|---|---|---|---|---|---|
Latenza (ms) | Tasso di token | Latenza (ms) | Tasso di token | Latenza (ms) | Tasso di token | |
1 | 27.24 | 36.71 | 29.45 | 33.96 | 27.24 | 36.71 |
2 | 27.14 | 73.70 | 30.80 | 64.93 | 27.14 | 73.69 |
4 | 27.50 | 145.46 | 31.33 | 127.65 | 27.47 | 145.62 |
8 | 27.91 | 286.61 | 32.54 | 245.83 | 27.90 | 286.78 |
16 | 28.31 | 565.07 | 34.71 | 460.92 | 28.44 | 562.56 |
32 | 29.52 | 1083.83 | 36.64 | 873.39 | 29.50 | 1084.89 |
Ciò è previsto poiché la fase di prefill calcola gli stati nascosti iniziali e le cache chiave-valore per l'intero prompt di input, il che può saturare bene la GPU perché grandi operazioni in batch possono essere eseguite simultaneamente. Dopo l'elaborazione del prompt, il modello genera nuovi token, in genere uno alla volta. A ogni passaggio, il modello prende il token precedente e gli stati nascosti in cache e produce il token successivo. Poiché questa fase procede effettivamente token per token, la dimensione del batch è spesso piccola, quindi la GPU è spesso sottoutilizzata.
Benchmark di visione artificiale di Procyon AI
Utilizzando attività di visione artificiale del mondo reale, il Procyon AI Computer Vision Benchmark valuta le prestazioni di inferenza AI su CPU, GPU e acceleratori AI. Supporta più motori di inferenza come TensorRT, OpenVINO, SNPE, Windows ML e Core ML, fornendo approfondimenti su efficienza, compatibilità e ottimizzazione.
I risultati del Procyon AI Computer Vision Benchmark mostrano anche ottime prestazioni di inferenza AI. Il sistema ha raggiunto tempi di inferenza bassi, con MobileNet V3 a 20.64 ms e ResNet 50 a 22.42 ms. Inception V4 e DeepLab hanno funzionato rispettivamente a 65.23 ms e 41.37 ms, gestendo efficacemente carichi di lavoro di visione più complessi. YOLO V3, un modello di rilevamento di oggetti chiave, ha elaborato in 37.80 ms, rendendolo adatto per applicazioni AI in tempo reale. REAL-ESRGAN, un modello di super risoluzione computazionalmente intensivo, ha registrato 1,159.22 ms, che ci ha dato un punteggio complessivo AI Computer Vision di 81.
Visione artificiale computerizzata (durata più bassa, migliore) (punteggio più alto, migliore) | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB di RAM) |
---|---|
Tempo medio di inferenza MobileNet V3 | ms 20.64 |
ResNet 50 Tempo medio di inferenza | ms 22.42 |
Tempo di inferenza medio di Inception V4 | ms 65.23 |
Tempo medio di inferenza DeepLab | ms 41.37 |
YOLO V3 Tempo medio di inferenza | ms 37.80 |
REAL-ESRGAN Tempo medio di inferenza | ms 1,159.22 |
Punteggio complessivo della visione artificiale dell'intelligenza artificiale | 81 |
Martello DB TPROC-C
Abbiamo inoltre valutato le prestazioni di quattro noti database open source (MariaDB 11.4.4, MySQL 8.4.4, MySQL 5.7.44 e PostgreSQL 17.2) utilizzando il benchmark HammerDB TPROC-C per simulare carichi di lavoro OLTP su 500 warehouse.
MariaDB è emersa come la migliore, in particolare nelle configurazioni a doppio socket, dove è stata scalata in modo efficace e ha raggiunto il throughput di transazioni più elevato. MySQL 8.4.4 ha mostrato notevoli miglioramenti rispetto alla versione legacy 5.7.44, evidenziando i miglioramenti nelle release recenti. PostgreSQL 17.2 ha fornito prestazioni costanti ma è rimasto leggermente indietro rispetto a MariaDB e MySQL 8.4.4. MariaDB ha fornito 3.15 milioni di TPM su un singolo socket e 5.8 milioni di TPM su doppi socket, superando il resto in entrambi gli scenari.
Tabella di confronto delle prestazioni (Transazioni al minuto, TPM)
Motore di database | TPM a presa singola | TPM a doppia presa |
---|---|---|
Maria DB 11.4.4 | 3,150,000 | 5,800,000 |
MySQL 8.4.4 | 2,850,000 | 5,150,000 |
PostgreSQL 17.2 | 2,700,000 | 4,900,000 |
MySQL 5.7.44 | 2,300,000 | 4,250,000 |
Nonostante il potente hardware dell'R770, inclusi 86 core per CPU (un mix di core ad alta e bassa priorità), nessuno dei database ha dimostrato significativi guadagni di prestazioni quando distribuito su entrambi i socket. Ciò riflette la comune preferenza dei database open source per l'esecuzione a singolo socket grazie alla migliore localizzazione dei core e alla ridotta latenza della memoria.
Dati questi risultati, R770 è più adatto per l'esecuzione di più istanze di database in un ambiente virtualizzato piuttosto che per l'aumento di scala di una singola istanza. L'architettura del sistema è ideale per supportare un carico di lavoro di database misto ad alta densità, utilizzando sia core di prestazioni che di efficienza per fornire un throughput coerente su più istanze.
7-Zip
Il benchmark della memoria integrato nella popolare utility 7-Zip misura le prestazioni della CPU e della memoria di un sistema durante le attività di compressione e decompressione, indicando quanto bene il sistema riesce a gestire operazioni ad alta intensità di dati.
Nel benchmark 7-Zip, per quanto riguarda le attività di compressione, il sistema Dell ha ottenuto una valutazione più alta (266.425 GIPS) rispetto a Lenovo (224.313 GIPS), con Dell che ha mostrato un utilizzo della CPU leggermente inferiore. Tuttavia, Lenovo ha superato Dell nella decompressione con una valutazione risultante più alta (288.457 GIPS contro 256.154 GIPS) e un utilizzo della CPU leggermente superiore. Dell ha ottenuto una valutazione totale complessiva marginalmente più alta di (261.290 GIPS), dimostrando una migliore efficienza complessiva sia nelle attività di compressione che di decompressione.
Compressione 7-Zip e decompressione | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB di RAM) | Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB di RAM) |
---|---|---|
Compressione – Utilizzo CPU corrente | 5267% | 5064% |
Compressione – Valutazione/utilizzo attuale | 5.061 GIPS | 4.341 GIPS |
Compressione – Valutazione attuale | 266.591 GIPS | 219.840 GIPS |
Compressione – Utilizzo CPU risultante | 5270% | 5156% |
Compressione – Valutazione/utilizzo risultante | 5.056 GIPS | 4.350 GIPS |
Compressione – Valutazione risultante | 266.425 GIPS | 224.313 GIPS |
Decompressione – Utilizzo CPU corrente | 5623% | 6184% |
Decompressione – Valutazione/utilizzo attuale | 4.586 GIPS | 4.688 GIPS |
Decompressione – Valutazione attuale | 257.909 GIPS | 289.879 GIPS |
Decompressione – Utilizzo CPU risultante | 5627% | 6205% |
Decompressione – Valutazione/Utilizzo Risultante | 4.553 GIPS | 4.649 GIPS |
Decompressione – Valutazione risultante | 256.154 GIPS | 288.457 GIPS |
Totale – Utilizzo totale della CPU | 5448% | 5681% |
Totale – Valutazione/Utilizzo Totale | 4.804 GIPS | 4.500 GIPS |
Totale – Valutazione totale | 261.290 GIPS | 256.385 GIPS |
y-cruncher
y-cruncher è una popolare applicazione di benchmarking e stress-testing lanciata nel 2009. Questo test è multi-thread e scalabile, calcola Pi e altre costanti fino a trilioni di cifre. Più veloce è meglio in questo test. Questo software è stato fantastico nel testare piattaforme con un numero elevato di core e nel mostrare vantaggi di calcolo tra piattaforme a singolo e doppio socket.
I risultati del benchmark Y-cruncher mostrano un divario prestazionale significativo tra il Dell PowerEdge R770, che sfrutta le CPU P-core, e il Lenovo ThinkSystem SR630 V4 con CPU E-core, in particolare con l'aumentare delle dimensioni del set di dati. Si tratta meno di quale sistema sia migliore e più di mostrare come i tipi di CPU si confrontano in questo carico di lavoro.
Per calcoli più piccoli, il sistema Dell era già in vantaggio, calcolando 1 miliardo di cifre di Pi in 2.753 secondi, mentre Lenovo ha impiegato più del doppio del tempo, ovvero 5.997 secondi. Con l'aumento del carico di lavoro, il divario si è ampliato. A 10 miliardi di cifre, Dell ha terminato in 34.873 secondi, meno della metà del tempo di 81.046 secondi di Lenovo. Al traguardo dei 50 miliardi di cifre, Dell ha mantenuto il suo vantaggio, completando l'attività in 221.255 secondi, mentre Lenovo ne ha impiegati 476.826, rendendo Dell il 53% più veloce.
A 100 miliardi di cifre, Lenovo non è riuscita a completare il test, a causa della sua attuale configurazione di 512 GB di RAM. Con 2 TB di RAM, Dell ha gestito il carico di lavoro in modo efficiente, terminando in 491.737 secondi.
Y-cruncher (la durata più bassa è migliore) | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB di RAM) | Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB di RAM) |
---|---|---|
1 Billion | 2.753 secondi | 5.997 secondi |
2.5 Billion | 7.365 secondi | 17.573 secondi |
5 Billion | 16.223 secondi | 37.793 secondi |
10 Billion | 34.873 secondi | 81.046 secondi |
25 Billion | 99.324 secondi | 220.025 secondi |
50 Billion | 221.255 secondi | 476.826 secondi |
100 Billion | 491.737 secondi |
Frullatore OptiX
Un'applicazione di modellazione 3D open source. Questo benchmark è stato eseguito utilizzando l'utilità Blender Benchmark. Il punteggio è in campioni al minuto, dove più alto è migliore.
I risultati del benchmark Blender mostrano un chiaro vantaggio prestazionale per Dell PowerEdge R770 rispetto a Lenovo ThinkSystem SR630 V4, in particolare nel rendering della CPU. Nella scena CPU Monster, Dell ha raggiunto 1,706.002 campioni al minuto, un vantaggio del 19% rispetto ai 1,432.09 campioni al minuto di Lenovo. Il test CPU Junkshop ha ulteriormente enfatizzato questo divario, con Dell che ha raggiunto 1,169.370 campioni al minuto, superando del 914.75% i 28 campioni al minuto di Lenovo. Allo stesso modo, Dell ha pubblicato 791.475 campioni al minuto nel test CPU Classroom, mentre Lenovo è rimasta indietro a 656.68 campioni al minuto, una differenza del 20%.
L'assenza di una GPU nel sistema Lenovo ha comportato anche l'impossibilità di partecipare al rendering basato su GPU, in cui la NVIDIA L4 di Dell ha mostrato un punteggio di 1,895.71 campioni/min per Monster, 950.42 campioni/min e un punteggio in Classroom di 968.43 campioni/min.
Benchmark della CPU di Blender | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB di RAM) | Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB di RAM) |
---|---|---|
Mostro CPU (Blender 4.3) | 1,706.002 campioni/min | 1432.09 campioni/min |
Negozio di rottami CPU (Blender 4.3) | 1,169.370 campioni/min | 914.75 campioni/min |
Aula CPU (Blender 4.3) | 791.475 campioni/min | 656.68 campioni/min |
Mostro GPU (Blender 4.3) | 1,895.712 campioni/min | (nessuna GPU) |
Negozio di rottami GPU (Blender 4.3) | 950.424 campioni/min | (nessuna GPU) |
Aula GPU (Blender 4.3) | 968.432 campioni/min | (nessuna GPU) |
Cinebench R23
Lo strumento di benchmark Cinebench R23 valuta le prestazioni della CPU di un sistema eseguendo il rendering di una scena 3D complessa utilizzando il motore Cinema 4D. Misura le prestazioni single-core e multi-core, fornendo una visione completa delle capacità della CPU nella gestione delle attività di rendering 3D.
In Cinebench R23, i risultati del benchmark evidenziano notevoli differenze nelle prestazioni della CPU tra il Dell PowerEdge R770 e il Lenovo ThinkSystem SR630 V4, soprattutto considerando il numero di core per processore. Il Lenovo ThinkSystem SR630 V4, dotato di 2 processori Intel Xeon 6780E (144 core per processore), ha superato il Dell nel test CPU Multi-Core con un punteggio di 99,266 punti, rispetto ai 74,710 punti del Dell. Questa differenza riflette il vantaggio di Lenovo nei carichi di lavoro multi-thread, grazie al suo numero di core più elevato (288 core totali) rispetto ai 2 processori Intel Xeon 6787P di Dell (86 core per processore), che limita le sue prestazioni multi-core.
Nel test CPU Single-Core, Dell ha ottenuto risultati migliori, con un punteggio di 1,272 punti, superando gli 894 punti di Lenovo, evidenziando la superiore efficienza single-thread di Dell nonostante il numero inferiore di core.
Cinebench R23 | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB di RAM) | Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB di RAM) |
---|---|---|
CPU multicore | 74,710 Punti | 99,266 Punti |
CPU single-core | 1,272 Punti | 894 Punti |
Rapporto MP | 58.74 x | 111.00 x |
Cinebench 2024
Cinebench 2024 estende le capacità di benchmark di R23 aggiungendo la valutazione delle prestazioni della GPU. Continua a testare le prestazioni della CPU ma include anche test che misurano la capacità della GPU di gestire le attività di rendering.
In questo benchmark aggiornato, il Dell PowerEdge R770 ha ottenuto 12,996 punti per le prestazioni GPU, evidenziando la sua capacità di gestire attività di rendering accelerate dalla GPU. Il Lenovo ThinkSystem SR630 V4 non ha una GPU dedicata, quindi non ha registrato un punteggio GPU.
Nel test CPU Multi-Core, il Lenovo ha ottenuto 2,884 punti, leggermente in più dei 2,831 punti del Dell, indicando un leggero vantaggio nelle prestazioni multi-core per il Lenovo. Per CPU Single-Core, il Dell ha superato il Lenovo, ottenendo 71 punti, rispetto ai 53 punti del Lenovo, dimostrando le prestazioni single-core più elevate del Dell nonostante abbia meno core.
Cinebench R24 | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB di RAM) | Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB di RAM) |
---|---|---|
Punteggio GPU | 12,996 Punti | |
CPU multicore | 2,831 Punti | 2,884 Punti |
CPU single-core | 71 Punti | 53 Punti |
Rapporto MP | 39.77 x | 54.43 x |
Geekbench 6
Geekbench 6 è un benchmark multipiattaforma che misura le prestazioni complessive del sistema. Il browser Geekbench consente di confrontare qualsiasi sistema con esso.
I risultati del benchmark Geekbench 6 dimostrano evidenti differenze di prestazioni tra il Dell PowerEdge R770 e il Lenovo ThinkSystem SR630 V4. Nel test CPU Single-Core, il Dell ha superato il Lenovo con un punteggio di 1,797, mentre il Lenovo ha ottenuto 1,173, indicando un miglioramento del 53% nelle prestazioni single-core per il Dell.
Nel test CPU Multi-Core, Dell ha nuovamente guidato con 15,880, mentre Lenovo ha totalizzato 13,868, dando a Dell un vantaggio del 14% nelle prestazioni multi-core. Ciò suggerisce che i processori Intel Xeon 6787P di Dell forniscono una potenza di calcolo complessiva superiore, specialmente in attività che beneficiano di più core.
Il test GPU OpenCL ha evidenziato ulteriormente il vantaggio di Dell, con un punteggio di 148,730 grazie alla GPU NVIDIA L4.
Geekbench 6 (più alto è meglio) | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB di RAM) | Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB di RAM) |
---|---|---|
CPU single-core | 1,797 | 1,173 |
CPU multicore | 15,880 | 13,868 |
Punteggio GPU OpenCL | 148,730 | (nessuna GPU) |
Test di velocità RAW di Blackmagic
Il Blackmagic RAW Speed Test è uno strumento di benchmarking delle prestazioni progettato per misurare le capacità di un sistema nella gestione della riproduzione e dell'editing video utilizzando il codec Blackmagic RAW. Valuta la capacità di un sistema di decodificare e riprodurre file video ad alta risoluzione, fornendo frame rate per l'elaborazione basata su CPU e GPU.
Nel test basato sulla CPU, il Dell PowerEdge R770 ha raggiunto 141 FPS, superando il Lenovo ThinkSystem SR630 V4, che ha ottenuto 120 FPS. Ciò indica che il sistema Dell gestisce l'elaborazione video basata sulla CPU in modo più efficiente rispetto al Lenovo. Per il test basato sulla GPU, il Dell PowerEdge R770 ha ottenuto 157 FPS, beneficiando della presenza di una GPU NVIDIA.
Test di velocità Blackmagic RAW (più alto è, meglio è) | Dell PowerEdge R770 (2x Intel Xeon 6787P | 2 TB di RAM) | Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB di RAM) |
---|---|---|
FPS processore | 141 FPS | 120 FPS |
FPS-CUDA | 157 FPS | 0 FPS (nessuna GPU) |
Test della velocità del disco Blackmagic
Il Blackmagic Disk Speed Test confronta le velocità di lettura e scrittura di un'unità, stimandone le prestazioni, in particolare per le attività di editing video. Aiuta gli utenti a garantire che il loro storage sia sufficientemente veloce per contenuti ad alta risoluzione, come video 4K o 8K.
Nel test di velocità Blackmagic, la scheda Dell PowerEdge R770 Boss con SK hynix 480GB Dell NVMe mirroring ha raggiunto una velocità di lettura di 3,010.3 MB/s e una velocità di scrittura di 976.3 MB/s.
Conclusione
Il Dell PowerEdge R770 ci entusiasma davvero, spinto dall'adozione dello standard Data Center Modular Hardware System dell'Open Compute Project e dell'hardware all'avanguardia. L'integrazione di OCP DC MHS porta numerosi vantaggi, tra cui una modularità migliorata, una migliore manutenibilità e costi potenzialmente ridotti tramite una maggiore standardizzazione. Questa filosofia di progettazione è evidente in tutti gli aspetti del sistema, dall'implementazione di iDRAC come OCP DC-SCM fino alle porte.
L'R770 vanta anche capacità di storage impressionanti, supportando fino a 40 unità E3.S in un singolo chassis 2U, il che lo rende una soluzione ideale per carichi di lavoro ad alta intensità di storage. Inoltre, la flessibilità del server è ulteriormente migliorata dal suo supporto per varie configurazioni, tra cui una configurazione Front I/O Cold Aisle Accessible, che fornisce una maggiore flessibilità per diversi layout di data center e requisiti di manutenzione.
Con il supporto per un ampio elenco di GPU e CPU core Xeon 6 Performance di Intel, R770 è davvero una piattaforma server potente e versatile, adatta a soddisfare le esigenze dei moderni data center. Il suo hardware all'avanguardia, il design modulare e le robuste funzionalità di sicurezza rendono R770 un'opzione interessante per le organizzazioni che desiderano distribuire carichi di lavoro aziendali tradizionali, HPC e AI.
Interagisci con StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed