Home Enterprise Dell PowerEdge R770 review: modulair, krachtig en AI-ready

Dell PowerEdge R770 review: modulair, krachtig en AI-ready

by Divyansh Jain

Dell PowerEdge R770 review: Intel Xeon 6 CPU's, OCP DC-MHS modulariteit, indrukwekkende prestaties, flexibiliteit en AI-ready in een dichte 2U-behuizing.

Dell's PowerEdge R7x0-serie servers zijn al lang een hoeksteen van datacenters, bekend om hun uitzonderlijke bouwkwaliteit, doordachte ontwerp, prestaties, dichtheid en betrouwbaarheid in de veelzijdige 2U-vormfactor. Deze servers zijn voortdurend geëvolueerd om aan veranderende eisen te voldoen. Nu, met de introductie van de Dell PowerEdge R770, maakt de serie een aanzienlijke sprong voorwaarts.

TDe R770 debuteert met Intels nieuwe Xeon 6-processorfamilie, met de Xeon 6500 en 6700 P en E core-processors. Het markeert Dells eerste volledige adoptie van de OCP Data Center Modular Hardware System (DC MHS)-standaard in zijn mainstream serverlijn. Samen beloven deze twee veranderingen een significante evolutie in capaciteit en ontwerpfilosofie.

Dell PowerEdge R770 hero-bezel

Voldoen aan de eisen van moderne datacenters

De lancering van de R770 vindt plaats op een moment dat datacenters steeds meer onder druk komen te staan. Werklasten worden steeds diverser en veeleisender. De meedogenloze groei van data voedt de behoefte aan robuuste analyses en databases. Van het trainen van complexe modellen tot het implementeren van realtime-inferentie, kunstmatige intelligentie is niet langer een nichetoepassing, maar een kernbedrijfsdriver die aanzienlijke rekenkracht en gespecialiseerde versnelling vereist.

Tegelijkertijd ligt er een intense focus op energie-efficiëntie en het optimaliseren van de totale eigendomskosten. Bovendien kijkt de industrie steeds meer naar open standaarden om innovatie te bevorderen, interoperabiliteit te verbeteren en mogelijk vendor lock-in te verminderen. De R770, met zijn nieuwe processoropties en de adoptie van OCP DC MHS, is ontworpen om deze uitdagingen rechtstreeks aan te pakken.

Intel Xeon 6 P-Core-processoren

De R770-processor maakt gebruik van de Intel Xeon 6-serie processoren, waaronder de 6700- en 6500-serie, met de Performance- en Efficiency-cores die zijn gebouwd op het Socket E2 (LGA4710-2)-platform. Voor deze review richten we ons specifiek op de P-serie SKU's.

Dell PowerEdge R770 CPU-blokken

Intel construeert deze processors met behulp van een tile-based design, waarbij I/O tiles worden gecombineerd met één of twee compute tiles. Dit zorgt voor schaalbaarheid binnen de serie, met configuraties die oplopen tot 86 P-cores (XCC) met twee compute tiles, tot 48 P-cores (HCC) of 16 P-cores (LCC) met enkele compute tiles.

Vergeleken met de vorige generatie Sapphire en Emerald Rapids processoren is een belangrijk onderscheidend kenmerk voor deze processoren de universele beschikbaarheid van ingebouwde accelerators op alle Xeon 6 processoren. Dit omvat Intel QuickAssist Technology voor crypto en compressie, Intel Data Streaming Accelerator voor dataverplaatsing, Intel In-Memory Analytics Accelerator voor database- en analyseversnelling en Intel Dynamic Load Balancer voor netwerkverwerkingsefficiëntie. 

Geheugen en I/O-bandbreedte zien ook aanzienlijke upgrades. De Xeon 6700/6500 P-core-serie ondersteunt 8-kanaals DDR5-geheugen. Ze maken ook de weg vrij voor Multiplexed Rank DIMM (MRDIMM), dat snelheden tot 8,800 MT/s levert. Op het I/O-front ondersteunen deze processors PCIe 5.0 en CXL 2.0. In dual-socket-configuraties kan het platform tot 88 PCIe-lanes per socket bieden (totaal 176 lanes). 

En ondanks de P-core en E-core differentiatie, behoudt de Xeon 6-familie consistentie in instructiesets, BIOS, drivers, OS/applicatieondersteuning en RAS-functies, wat integratie en beheer over verschillende implementatietypen vereenvoudigt. De P-core-varianten zijn gericht op workloads waarbij per-core-prestaties, AI-acceleratie, hoge geheugenbandbreedte en substantiële I/O van het grootste belang zijn; denk aan veeleisende databases, HPC-simulaties, geavanceerde analyses en een breed scala aan AI-toepassingen.

Dell PowerEdge R770-specificaties

Dell PowerEdge R770 achterkant io

Specificaties Dell PowerEdge R770
Gegevensverwerker Twee Intel Xeon 6-processors met maximaal 144 E-cores of 86 P-cores per processor
Geheugen 32 DDR5 DIMM-slots, ondersteunt RDIMM 8 TB max, snelheden tot 6400 MT/s, ondersteunt alleen geregistreerde ECC DDR5 DIMM's
Opslag controllers Interne Boot: Boot Optimized Storage Subsystem (BOSS-N1 DC-MHS): HWRAID 1, 2 x M.2 NVMe SSD's of M.2 Interposer-kaart (DC-MHS): 2 x M.2 NVMe SSD's of USB, Interne controllers: Front PERC H965i, Front PERC H975i, Front PERC H365i
Voor- en achterbaaien
  • Geen backplane-configuratie
  • Tot 8 x EDSFF E3.S Gen5 NVMe (SSD) max 122.88 TB wordt ook geleverd met FIO-configuratie,
  • Tot 16 x EDSFF E3.S Gen5 NVMe (SSD) max 245.76 TB wordt ook geleverd met FIO-configuratie,
  • Tot 32 x EDSFF E3.S Gen5 NVMe (SSD) max. 489.6 TB
  • Tot 8 x 2.5 inch SAS/SATA/NVMe (SSD) max 122.88 TB
  • Tot 8 x 2.5 inch universeel max. 245.6 TB, tot 16 x 2.5 inch SAS/SATA (SSD) max. 61.44 TB
  • Tot 24 x 2.5 inch SAS/SATA (SSD) max 92.16 TB,
  • Tot 16 x 2.5 inch SAS/SATA (SSD) + 8 x 2.5 inch NVME) max 92.16 TB
  • Tot 40 x EDSFF E3.S Gen5 NVMe (SSD) max. 614.4 TB
  • Tot 4 x EDSFF E3.S Gen5 NVMe (SSD) max 61.2 TB aan de achterzijde
Hot Swap-voedingen
  • 800 W Platina 100—240 VAC of 240 VDC
  • 1100 W Platina 100—240 VAC of 240 VDC
  • 1500 W Titanium 100—240 VAC of 240 VDC
  • 1100 W Titanium 100—240 VAC of 240 VDC
  • 3200 W Titanium 200—240 VAC of 240 VDC
  • 800 W Titanium 100—240 VAC of 240 VDC
  • 3200 W 277 VAC en 336 HVDC Titanium
  • 1400 W -48 VDC 60 mm
  • 1500 W 277 VAC en 336 HVDC Titanium
  • 2400 W Titanium 100—240 VAC of 240 VDC 1800 W HLAC Titanium 200—240 VAC of 240 VDC
Koelopties Luchtkoeling en directe vloeistofkoeling (DLC is een rackoplossing en vereist rackverdelers en een koeldistributie-eenheid (CDU) om te kunnen werken)
Fans High-performance Silver (HPR SLVR)-ventilatoren/High-performance Gold (HPR GOLD)-ventilatoren, tot 6 hot-swappable ventilatoren
Afmetingen en gewicht Hoogte – 86.8 mm (3.42 inch), Breedte – 482 mm (18.97 inch), Gewicht – 28.53 kg (62.89 pond), Diepte (voor I/O-configuratie aan de achterkant) – 802.40 mm (31.59 inch) met rand, 801.51 mm (31.56 inch) zonder rand, Diepte (voor I/O-configuratie aan de voorkant) – 814.52 mm (32.07 inch) zonder rand
Form Factor 2U rackserver
Embedded Management iDRAC, iDRAC Direct, iDRAC RESTful API met Redfish, RACADM CLI, iDRAC Service Module (iSM), NativeEdge Endpoint, NativeEdge Orchestrator
Bezel Optionele beveiligingsrand
Beveiliging Cryptografisch ondertekende firmware, Data at Rest Encryption (SED's met lokaal of extern sleutelbeheer), Secure Boot, Secured Component Verification (hardware-integriteitscontrole), Silicon Root of Trust, Systeemvergrendeling, Systeemvergrendeling (vereist iDRAC10 Enterprise of Datacenter), Chassis Intrusion Detection, TPM 2.0 FIPS, CC-TCG-gecertificeerd
Netwerkopties
  • 4 x OCP NIC 3.0-kaarten (optioneel) en 1GbE, 10GbE, 25GbE, 100GbE en 400GbE
  • Sleuf 4 1 x 8 of 1 x 16 Gen5 OCP 3.0
  • Sleuf 10 1 x 8 of 1 x 16 OCP 3.0, Sleuf 34 1 x 16 Gen5 OCP 3.0 op voorste riser
  • Sleuf 38 1 x 16 Gen 5 OCP 3.0 op voorste riser
  • BOSS-sleuf 34 1 x 4 BOSS, sleuf 6 1 x 4 BOSS
GPU-opties Tot 6 x 75 W FHHL of tot 2 x 350 W DWFL
poorten Poorten aan de voorzijde: 1 x USB 2.0 Type C-poort, 1 x USB 2.0 Type A-poort (optioneel), 1 x Mini-DisplayPort (optioneel), 1 x DB9 Serieel (met I/O-configuratie aan de voorzijde), 1 x Speciale Ethernet-poort voor iDRAC-beheer; Poorten aan de achterzijde: 1 x Speciale Ethernet-poort voor iDRAC-beheer, 1 x VGA, 2 x USB 3.1 Type A-poorten; Interne poorten: 1 x USB 3.1 Type A-poort
PCIe
  • Maximaal twee PCIe-slots (x16-connectoren)
  • Sleuf 31 1 x 16 Gen5 Volledige hoogte – Halve lengte of volledige lengte op de voorkant Riser
  • Slot 36 1 x 16 Gen5 Volledige hoogte – Halve lengte op de voorkant Riser
  • Tot acht PCIe-slots (x8- en x16-connectoren)
  • Slot 1 1 x 8 Gen5 Volledige hoogte – Halve lengte
  • Sleuf 2 1 x 16 Gen5 dubbele breedte volledige lengte of 1 x 8 Gen5 volledige hoogte - halve lengte
  • Sleuf 3 1 x 16 Gen5 Volledige hoogte – Halve lengte of 1 x 16 Gen5 Laag profiel
  • Slot 4 1 x 16 Gen5 Volledige Hoogte – Halve Lengte of 1 x 8 Gen5 Volledige Hoogte – Halve Lengte of 1 x 8 of 1 x 16 OCP 3.0
  • Slot 5 2 x 16 Gen5 Volledige Hoogte – Halve Lengte of 1 x 8 Gen5 Volledige Hoogte – Halve Lengte
  • Slot 7 1 x 16 Gen5 Volledige hoogte - Halve lengte of 1 x 16 Gen5 Dubbele breedte Volledige lengte of 1 x 8 Gen5 Volledige hoogte - Halve lengte, Slot 8 1 x 16 Gen5 Volledige hoogte - Halve lengte of 1 x 8 Gen5 Volledige hoogte - Halve lengte
  • Sleuf 9 1 x 16 Gen5 Volledige hoogte - Halve lengte of 1 x 8 Gen5 Volledige hoogte - Halve lengte of 1 x 16 Laag profiel - Halve lengte
Besturingssystemen en hypervisors Canonieke Ubuntu Server LTS, Microsoft Windows Server met Hyper-V, Red Hat Enterprise Linux, SUSE Linux Enterprise Server, VMware met vSphere

Dell PowerEdge R770 omarmt modulariteit met OCP DC MHS

Bron van Server/DC-MHS – OpenComputer

De Dell PowerEdge R770 introduceert opmerkelijke verbeteringen en flexibiliteit in het fysieke ontwerp en de componentarchitectuur, waarbij de OCP DC MHS-standaard (Data Center Modular Hardware System) van het Open Compute Project is overgenomen.

Dell PowerEdge R770 SSD achteraanzicht

De R7 zet de erfenis van de R0x770-serie voort en biedt uitgebreide configuratieopties om te voldoen aan uiteenlopende implementatiebehoeften. Een belangrijke primeur voor deze lijn is de keuze tussen een traditionele Rear I/O-configuratie en een Front I/O Cold Aisle Accessible-configuratie, wat zorgt voor meer flexibiliteit voor verschillende datacenterindelingen en servicevereisten. Opslagopties zijn even veelzijdig, variërend van op rekenkracht gerichte knooppunten met minimale of geen lokale opslag tot configuraties met hoge dichtheid die een opmerkelijke 40 E3.S-schijven ondersteunen voor opslaggerichte workloads.

Om te voldoen aan de groeiende behoefte aan versnelde computing, met name voor AI en HPC, beschikt de R770 over robuuste uitbreidingsmogelijkheden. Afhankelijk van de chassis- en riserconfiguratie kan de server maximaal zes Gen 5 x16 Full-Height, Full-Length (FHFL) PCIe-kaarten herbergen. Bovendien ondersteunt het de installatie van twee dual-width GPU's, waardoor het een capabel platform is voor een breed scala aan taken. Netwerkflexibiliteit wordt geboden via OCP 3.0 mezzanine-slots, die x8- of x16-kaarten ondersteunen, afhankelijk van de configuratie.

Dell heeft ook verschillende ontwerpverbeteringen doorgevoerd die gericht zijn op het verbeteren van de bruikbaarheid en betrouwbaarheid. Een goed voorbeeld is de evolutie van de Boot Optimized Storage Solution (BOSS)-kaart. De BOSS-controller in de R770 was voorheen via kabels bevestigd en ingebouwd in de PCIe-riser, maar is nu geïmplementeerd als een OCP-gestandaardiseerde kaart die rechtstreeks met het moederbord communiceert, waardoor de complexiteit van de bekabeling wordt geëlimineerd. Deze nieuwe BOSS-controller beschikt ook over snellere NVMe M.2-schijven en bevat koellichamen om optimale bedrijfstemperaturen en prestaties voor de opstartapparaten te garanderen. Een andere subtiele maar praktische verbetering voor technici is de overstap van traditionele jumpers naar gebruiksvriendelijkere DIP-switches voor functies zoals het wissen van het NVRAM.

De meest ingrijpende architecturale verschuiving is de volledige adoptie van de OCP DC MHS-standaard. Dell begon met het opnemen van OCP-elementen in eerdere generaties, met name door het adopteren van OCP 3.0-netwerkadapterslots. De R770 gaat hier nog een stap verder in. Belangrijke componenten voldoen nu aan OCP-specificaties, waaronder Host Processor Modules (HPM), algemeen bekend als het moederbord, dat onderdelen bevat zoals de riser-slots, nu M-XIO-connectoren. De M-XIO connector biedt een gestandaardiseerde interface voor riserkaarten, wat de flexibiliteit en upgradebaarheid vergroot. De iDRAC is ook geïmplementeerd als een OCP DC-SCM (Server Control Module).

Bovendien introduceert de R770 de nieuwe PICPWR-voedingsconnector voor randapparatuurverbindingen zoals GPU's en backplanes. Deze connector is een belangrijke toevoeging, die de stroomtoevoer vereenvoudigt en inline-stroombewaking integreert.

Deze diepe integratie standaardiseert interfaces en form factors over verschillende subsystemen. Hoewel Dell benadrukt dat gebruikers zich moeten houden aan gevalideerde componenten voor gegarandeerde compatibiliteit en ondersteuning, maakt de onderliggende standaardisatie veel onderdelen inherent beter door de gebruiker te onderhouden en mogelijk in de toekomst uitwisselbaar over compatibele systemen.

Beheer en iDRAC

De Dell PowerEdge R770 bouwt voort op de reeds feature-rijke en geliefde iDRAC 9 met de next-generation iDRAC 10, die het systeembeheer verbetert door naadloze integratie met de Data Center Secure Control Module (DC-SCM). Deze integratie maakt gestroomlijnde firmware-updates en configuratiebeheer mogelijk, wat zorgt voor consistente en schaalbare bewerkingen in datacenters. iDRAC 10 ondersteunt ook geavanceerde automatiserings- en bewakingsmogelijkheden, waardoor IT-beheerders grootschalige implementaties efficiënt kunnen beheren zonder dat dit ten koste gaat van de prestaties of betrouwbaarheid..

Beveiliging is een hoeksteen van de beheerfuncties van de R770, waarbij Dell robuuste pre-boot- en bootverificatiemechanismen implementeert. Door gebruik te maken van op silicium gebaseerde Root of Trust-technologie, zorgt iDRAC 10 ervoor dat alle firmware, inclusief BIOS en iDRAC, cryptografisch wordt geverifieerd vóór uitvoering. Deze onveranderlijke hardwarematige beveiligingsmaatregel beschermt tegen malwaremanipulatie en aanvallen op de toeleveringsketen, en biedt een veilige basis voor systeembewerkingen. Bovendien integreert de R770 kwantumveilige opstartprotocollen om opkomende cryptografische bedreigingen te beperken, wat zijn rol bij het beschermen van kritieke infrastructuur verder versterkt.

Dell's toewijding aan supply chain security is duidelijk zichtbaar in het ontwerp van de R770, dat gebruikmaakt van een uitgebreid chain-of-trust authenticatieproces. Elk hardwarecomponent ondergaat een strenge verificatie met behulp van cryptografische handtekeningen die tijdens de productie zijn ingebouwd. Dit proces zorgt ervoor dat alleen geautoriseerde firmware en componenten worden gebruikt, waardoor risico's die samenhangen met ongeautoriseerde aanpassingen of namaakonderdelen worden beperkt.

Bouwstenen van AI-fabrieken

De R770 kan worden besteld met veel GPU- en chassisconfiguraties, waardoor het een veelzijdig platform is voor een breed scala aan AI-workloads. Deze flexibiliteit en de robuuste opslag- en netwerkmogelijkheden maken het een aantrekkelijke keuze voor organisaties die AI-oplossingen implementeren in AI-fabrieken. AI-fabrieken verwijzen naar de infrastructuur en tools die nodig zijn om AI-modellen op schaal te maken, trainen en implementeren. Deze fabrieken zijn essentieel voor het ontwikkelen van geavanceerde systemen zoals autonome voertuigen en robotica, omdat ze de rekenkracht en datapijplijnen bieden die nodig zijn om enorme datasets efficiënt te verwerken.

Voor de ontwikkeling van autonome voertuigen en robotsystemen zijn uitgebreide trainingsgegevens nodig die realistische scenario's weerspiegelen. NVIDIA's Cosmos NIM is een belangrijke vooruitgang op dit gebied en biedt ontwikkelaars een krachtige toolkit om de creatie en implementatie van fysieke AI-systemen zoals World Foundational Models te versnellen.

Begrijpen van World Foundation-modellen

World foundation models (WFM's) zijn geavanceerde neurale netwerken die real-world omgevingen simuleren en nauwkeurige uitkomsten voorspellen op basis van verschillende inputs. In tegenstelling tot traditionele AI-modellen die gericht zijn op specifieke taken, begrijpen WFM's de dynamiek van de fysieke wereld, inclusief fysica en ruimtelijke eigenschappen. Ze kunnen video's genereren op basis van tekstberichten, afbeeldingen of andere invoergegevens, waarbij beweging, kracht en ruimtelijke relaties nauwkeurig worden weergegeven.

NVIDIA Cosmos NIM's: een opstap naar wereldwijde fundamentele modellen

De Cosmos NIM's van NVIDIA zijn een cruciale stap in de richting van het bereiken van World Foundational Models. Ze stellen organisaties en AI-labs in staat om synthetische trainingsdata te genereren, en schalen de benodigde data om deze AI-modellen te trainen efficiënt. We hebben de Kosmos Voorspelt model, een generalistisch model dat wereldtoestanden genereert op basis van tekst- of video-aanwijzingen en continue beweging synthetiseert door frames te voorspellen.

Dit zijn een aantal interessante resultaten die we met Cosmos konden maken met slechts één enkele afbeelding van ons lab. Hoewel niet perfect, is wat het kon maken met slechts één enkele afbeelding erg indrukwekkend.

De R770 ondersteunt krachtige GPU's, zoals de NVIDIA H100, en de robuuste opslag- en netwerkmogelijkheden maken het een aantrekkelijke keuze voor organisaties die AI-oplossingen willen implementeren.

Door de mogelijkheden van de R770 te benutten, kunnen organisaties efficiënt AI-modellen zoals Cosmos NIM trainen en implementeren, waardoor de ontwikkeling van autonome voertuigen en robotsystemen wordt versneld. De prestaties en schaalbaarheid van de R770 maken het een ideaal platform voor het verwerken van de grote hoeveelheden data die nodig zijn voor AI-modeltraining, en de veelzijdigheid ervan stelt het in staat om een ​​breed scala aan AI-workloads te ondersteunen.

GPU directe opslag

GPU Direct Storage is een technologie die directe gegevensoverdracht tussen opslagapparaten en GPU's mogelijk maakt, waarbij de CPU en het systeemgeheugen worden omzeild. Bij traditionele gegevensoverdracht worden gegevens uit de opslag in het geheugen van de CPU gelezen en vervolgens naar het geheugen van de GPU gekopieerd. Dit proces omvat meerdere gegevenskopieën, wat leidt tot een verhoogde latentie en verminderde prestaties. De CPU fungeert als een knelpunt en moet de gegevensoverdracht tussen de opslag en de GPU afhandelen. GDS elimineert dit knelpunt door opslagapparaten rechtstreeks toe te staan ​​gegevens van en naar het geheugen van de GPU over te brengen.

We hebben een GDSIO-werklastanalyse uitgevoerd op een opslagsysteem bestaande uit 16 schijven. We hebben het aantal gebruikte schijven stapsgewijs verhoogd om inzicht te krijgen in de opslagprestaties en het vermogen ervan om een ​​PCIe Gen 5 GPU te verzadigen.

De GDSIO Read-grafiek illustreert hoe het verhogen van het aantal KIOXIA CD8P SSD's de totale en gemiddelde leesdoorvoer in de r770 beïnvloedt. Aanvankelijk, naarmate het aantal schijven toeneemt van één naar vier, schaalt de totale leesdoorvoer snel op, tot ongeveer 50.2 GiB/sec. Dit suggereert dat het systeem de PCIe Gen 5 x16 kan verzadigen met slechts drie tot vier schijven voor het laden van gegevens. Na vijf schijven stabiliseert de totale doorvoer, wat aangeeft dat extra schijven niet significant verbeteren. Ondertussen blijft de gemiddelde leesdoorvoer per schijf stabiel tot 4 schijven, maar neemt vervolgens af naarmate er meer schijven worden toegevoegd. Deze afname in prestaties per schijf komt doordat meer schijven de beschikbare PCIe-busbandbreedte delen en individuele schijflezingen worden verminderd.

Daarentegen is de schrijfprestatie van deze drives veel lager dan hun leesprestatie. Het kostte alle 16 drives om een ​​schrijfbandbreedte van 46.7 GiB/s te bereiken, waarbij de gemiddelde schrijfsnelheid voor de drives vrijwel constant bleef. Aangezien dit de lagere schrijfprestatiecapaciteiten zijn in de KIOXIA CD8-portfolio, zullen versies met hoge capaciteit of andere PCIe Gen5 SSD's het beter doen.

Benchmarking Dell PowerEdge R770

Door naar de benchmarks, de R770 is Dell's vlaggenschip mainline systeem en zal als zodanig in veel verschillende omgevingen worden ingezet. Daarom hebben we een uitgebreide set benchmarks voor dit platform uitgevoerd om een ​​idee te geven van hoe het platform presteert in verschillende omgevingen. De Lenovo ThinkSystem SR630 V4 werd in enkele tests vergeleken om het verschil te laten zien tussen de top-end E-core en P-core CPU's.

Systeemconfiguratie
  • CPU: 2x Intel Xeon 6787P (elk 86 cores)
  • RAM: 32x Micron 64 GB Dual-Rank DDR5 6400 MT/s Totaal geheugen: 2TB
  • Voedingen: 2x Delta 1500W
  • GPU: 1x NVIDIA H100 voor de TGI-benchmark, 1x NVIDIA L4 voor de overige tests
  • netwerkkaart: DELL BRCM 4P 25G SFP 57504S OCP-netwerkkaart
  • BOSS-kaart: BOSS-N1 DC-MHS-schijven 0 en 1 SK hynix 480 GB Dell NVMe ISE PE9010 RI M.2 480 GB
  • schijven: 0-5 in Backplane 1: Samsung 6.4 TB, Dell NVMe PM1745 MU E3.S 6.4 TB

AI-werklastprestaties

Benchmark voor het genereren van tekstuele inferentie

Text Generation Inference (TGI) is een high-performance LLM inference server ontwikkeld door Hugging Face. Het is ontworpen om de implementatie en consumptie van LLM's te optimaliseren, wat het een ideale keuze maakt voor productieomgevingen. TGI ondersteunt verschillende open-source LLM's en biedt functies zoals tensor parallelisme, token streaming en continue batching, die de prestaties en efficiëntie verbeteren.

Tekstgeneratie-inferentie – QwQ 32B

De benchmarkingfunctie van TGI wordt gebruikt om de prestaties te evalueren onder verschillende configuraties en workloads. De benchmarkingfunctie van TGI biedt een nauwkeurigere weergave van prestaties in de echte wereld, omdat het rekening houdt met de complexiteit van het bedienen van LLM's in een productieomgeving.

Het genereren van tekst met behulp van LLM's omvat twee primaire fasen: de prefill-fase en de decodeerfase. De prefill-fase is de eerste stap, waarbij de LLM de invoerprompt verwerkt om de benodigde tussenliggende representaties te genereren. Deze fase is rekenintensief, omdat het de verwerking van de gehele invoerprompt in één enkele voorwaartse doorgang door het model omvat.

Tijdens de prefill-fase wordt de invoerprompt getokeniseerd en omgezet in een formaat dat de LLM kan verwerken. De LLM berekent vervolgens de KV-cache, die informatie over de invoertokens opslaat. De KV-cache is een kritieke datastructuur die de generatie van uitvoertokens faciliteert.

Daarentegen is de decodeerfase een autoregressief proces waarbij de LLM outputtokens één voor één genereert, voortbouwend op de tussenliggende representaties die gegenereerd zijn tijdens de prefill-fase. De decodeerfase is sterk afhankelijk van de KV-cache die gegenereerd is tijdens de prefill-fase, die de benodigde context biedt voor het genereren van coherente en contextueel relevante outputtokens.

Prefill-fase

Naarmate de batchgrootte toeneemt van 1 tot 32, neemt de latentie voor alle drie de modellen toe; de ​​latentie van DeepSeek-R1-Distill-Qwen-32 B neemt toe van 29.97 ms bij een batchgrootte van 1 tot 76.95 ms bij een batchgrootte van 32. Op vergelijkbare wijze neemt de latentie voor GEMMA-3-27B-IT en Qwen/QwQ-32B toe van 51.84 ms en 29.90 ms tot respectievelijk 79.58 ms en 76.30 ms.

Daarentegen verbetert de token rate aanzienlijk naarmate de batchgrootte toeneemt. Bij een batchgrootte van 1 variëren de token rates voor de drie modellen van 192.95 tot 334.46 tokens per seconde. Bij een batchgrootte van 32 stijgend tot 4158.67, 4021.40 en 4194.13 tokens per seconde voor respectievelijk DeepSeek-R1-Distill-Qwen-32B, GEMMA-3-27B-IT en Qwen/QwQ-32B.

LLM Prefill Stage Prestaties: Latentie (ms) & Tokensnelheid (tokens/sec)
Seriegrootte DeepSeek-R1-Distill-Qwen-32B GEMMA-3-27B-IT Qwen/QwQ-32B
Latency (ms) Tokenkoers Latency (ms) Tokenkoers Latency (ms) Tokenkoers
1 29.97 333.64 51.84 192.95 29.90 334.46
2 30.21 662.09 52.55 380.61 29.95 667.80
4 32.40 1234.72 52.62 760.12 32.12 1245.47
8 36.98 2163.46 52.66 1519.19 36.69 2180.66
16 51.63 3125.50 60.96 2624.64 51.29 3147.61
32 76.95 4158.67 79.58 4021.40 76.30 4194.13
Decodeer fase

In tegenstelling tot de prefill-fase blijft de latentie tijdens de decodeerfase relatief stabiel over verschillende batchgroottes. Bijvoorbeeld, de latentie van DeepSeek-R1-Distill-Qwen-32 B varieert van 27.14 ms tot 29.52 ms naarmate de batchgrootte toeneemt van 2 tot 32.

De tokensnelheid tijdens de decodeerfase verbetert met toenemende batchgrootte, hoewel niet zo dramatisch als tijdens de prefill-fase. Bij een batchgrootte van 1 is de tokensnelheid ongeveer 36-37 tokens per seconde voor DeepSeek-R1-Distill-Qwen-32B en Qwen/QwQ-32B, en 33.96 tokens per seconde voor GEMMA-3-27B-IT. Bij een batchgrootte van 32 stijgen de tokensnelheden naar respectievelijk 1083.83, 873.39 en 1084.89 tokens per seconde.

LLM-decodering (token) Prestaties: Latentie (ms) en tokensnelheid (tokens/sec)
Seriegrootte DeepSeek-R1-Distill-Qwen-32B GEMMA-3-27B-IT Qwen/QwQ-32B
Latency (ms) Tokenkoers Latency (ms) Tokenkoers Latency (ms) Tokenkoers
1 27.24 36.71 29.45 33.96 27.24 36.71
2 27.14 73.70 30.80 64.93 27.14 73.69
4 27.50 145.46 31.33 127.65 27.47 145.62
8 27.91 286.61 32.54 245.83 27.90 286.78
16 28.31 565.07 34.71 460.92 28.44 562.56
32 29.52 1083.83 36.64 873.39 29.50 1084.89

Dit is zoals verwacht, aangezien de prefill-fase initiële verborgen toestanden en sleutel-waardecaches voor de gehele invoerprompt berekent, wat de GPU goed kan verzadigen omdat grote, batchbewerkingen tegelijkertijd kunnen worden uitgevoerd. Na het verwerken van de prompt genereert het model nieuwe tokens, over het algemeen één voor één. Bij elke stap neemt het model het vorige token en de gecachede verborgen toestanden en produceert het het volgende token. Omdat deze fase effectief token voor token verloopt, is de batchgrootte vaak klein, waardoor de GPU vaak onderbenut wordt.

Procyon AI Computer Vision-benchmark

Met behulp van real-world machine-vision-taken evalueert de Procyon AI Computer Vision Benchmark de AI-inferentieprestaties op CPU's, GPU's en AI-accelerators. Het ondersteunt meerdere inferentie-engines zoals TensorRT, OpenVINO, SNPE, Windows ML en Core ML, en biedt inzicht in efficiëntie, compatibiliteit en optimalisatie.

De resultaten van de Procyon AI Computer Vision Benchmark laten ook sterke AI-inferentieprestaties zien. Het systeem behaalde lage inferentietijden, met MobileNet V3 op 20.64 ms en ResNet 50 op 22.42 ms. Inception V4 en DeepLab draaiden respectievelijk op 65.23 ms en 41.37 ms, en verwerkten complexere vision-workloads effectief. YOLO V3, een belangrijk objectdetectiemodel, verwerkte in 37.80 ms, waardoor het zeer geschikt is voor realtime AI-toepassingen. REAL-ESRGAN, een rekenintensief superresolutiemodel, registreerde 1,159.22 ms, wat ons een algehele AI Computer Vision-score van 81 opleverde.

AI Computer Vision (lagere duur is beter) (hogere score is beter) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM)
MobileNet V3 Gemiddelde inferentietijd 20.64 ms
ResNet 50 gemiddelde inferentietijd 22.42 ms
Inception V4 Gemiddelde inferentietijd 65.23 ms
DeepLab gemiddelde inferentietijd 41.37 ms
YOLO V3 Gemiddelde inferentietijd 37.80 ms
REAL-ESRGAN gemiddelde inferentietijd 1,159.22 ms
Algehele score van AI Computer Vision 81

Hamer DB TPROC-C

We hebben ook de prestaties van vier populaire open-sourcedatabases geëvalueerd: MariaDB 11.4.4, MySQL 8.4.4, MySQL 5.7.44 en PostgreSQL 17.2. Daarbij hebben we de HammerDB TPROC-C-benchmark gebruikt om OLTP-workloads in 500 warehouses te simuleren.

MariaDB kwam naar voren als de beste performer, met name in dual-socket configuraties, waar het effectief schaalde en de hoogste transactiedoorvoer bereikte. MySQL 8.4.4 liet duidelijke verbeteringen zien ten opzichte van de oude 5.7.44 versie, wat verbeteringen in recente releases benadrukte. PostgreSQL 17.2 leverde consistente prestaties, maar bleef iets achter bij MariaDB en MySQL 8.4.4. MariaDB leverde 3.15 miljoen TPM op een enkele socket en 5.8 miljoen TPM op dual sockets, wat in beide scenario's beter presteerde dan de rest.

Prestatievergelijkingstabel (Transacties per minuut, TPM)

Database-engine TPM met één aansluiting TPM met dubbele aansluiting
MariaDB 11.4.4 3,150,000 5,800,000
MySQL 8.4.4 2,850,000 5,150,000
PostgreSQL 17.2 2,700,000 4,900,000
MySQL 5.7.44 2,300,000 4,250,000

Ondanks de krachtige hardware van de R770, met 86 cores per CPU (een mix van cores met hoge en lage prioriteit), vertoonde geen van de databases significante prestatiewinsten wanneer ze over beide sockets werden verdeeld. Dit weerspiegelt de algemene voorkeur van open-source databases voor single-socket-uitvoering vanwege betere core-localiteit en verminderde geheugenlatentie.

Gezien deze resultaten is de R770 beter geschikt voor het uitvoeren van meerdere database-instanties in een gevirtualiseerde omgeving dan voor het opschalen van één instantie. De architectuur van het systeem is ideaal voor het ondersteunen van een high-density, mixed-database workload, waarbij zowel prestatie- als efficiency-cores worden gebruikt om consistente doorvoer te leveren over meerdere instanties.

7-Zip

De ingebouwde geheugenbenchmark van het populaire hulpprogramma 7-Zip meet de prestaties van de CPU en het geheugen van een systeem tijdens compressie- en decompressietaken, en geeft aan hoe goed het systeem gegevensintensieve bewerkingen aankan.

In de 7-Zip benchmark had het Dell-systeem een ​​hogere beoordeling (266.425 GIPS) dan de Lenovo (224.313 GIPS) als het gaat om compressietaken, waarbij de Dell een iets lager CPU-gebruik liet zien. Lenovo presteerde echter beter dan Dell in decompressie met een hogere resulterende beoordeling (288.457 GIPS versus 256.154 GIPS) en een iets hoger CPU-gebruik. Dell had een marginaal hogere algehele totale beoordeling van (261.290 GIPS), wat een betere algehele efficiëntie aantoont voor zowel compressie- als decompressietaken.

7-Zip compressie en decompressie Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM) Lenovo ThinkSystem SR630 V4 (2x Intel Xeon 6780E | 512 GB RAM)
Comprimeren – Huidig ​​CPU-gebruik 5267% 5064%
Comprimeren – Huidige beoordeling/gebruik 5.061 GIP'S 4.341 GIP'S
Comprimeren – Stroomsterkte 266.591 GIP'S 219.840 GIP'S
Comprimeren – Resulterend CPU-gebruik 5270% 5156%
Comprimeren – Resulterende beoordeling/gebruik 5.056 GIP'S 4.350 GIP'S
Comprimeren – Resulterende beoordeling 266.425 GIP'S 224.313 GIP'S
Decomprimeren – Huidig ​​CPU-gebruik 5623% 6184%
Decompressie – Huidige beoordeling/gebruik 4.586 GIP'S 4.688 GIP'S
Decompressie – Huidige beoordeling 257.909 GIP'S 289.879 GIP'S
Decomprimeren – Resulterend CPU-gebruik 5627% 6205%
Decompressie – Resulterende beoordeling/gebruik 4.553 GIP'S 4.649 GIP'S
Decompressie – Resulterende beoordeling 256.154 GIP'S 288.457 GIP'S
Totaal – Totaal CPU-gebruik 5448% 5681%
Totaal – Totale beoordeling/gebruik 4.804 GIP'S 4.500 GIP'S
Totaal – Totale beoordeling 261.290 GIP'S 256.385 GIP'S

y-cruncher

y-cruncher is een populaire benchmarking- en stresstestapplicatie die in 2009 werd gelanceerd. Deze test is multi-threaded en schaalbaar, en berekent Pi en andere constanten tot in de biljoenen cijfers. Sneller is beter in deze test. Deze software is fantastisch gebleken bij het testen van platforms met een hoog aantal cores en toont computevoordelen tussen single- en dual-socket platforms.

De Y-cruncher benchmarkresultaten laten een significante prestatiekloof zien tussen de Dell PowerEdge R770, die gebruikmaakt van de P-core CPU's, en de Lenovo ThinkSystem SR630 V4 met E-core CPU's, met name naarmate de datasetgrootte toeneemt. Dit gaat minder over welk systeem beter is en meer over het tonen hoe de CPU-typen zich verhouden onder deze werklast.

Voor kleinere berekeningen was het Dell-systeem al voor, met 1 miljard cijfers van Pi in 2.753 seconden, terwijl de Lenovo er meer dan twee keer zo lang over deed met 5.997 seconden. Naarmate de werklast toenam, werd de kloof groter. Bij 10 miljard cijfers voltooide de Dell het in 34.873 seconden, minder dan de helft van de tijd van de 81.046 seconden van de Lenovo. Bij de 50 miljard cijfers behield Dell zijn voorsprong en voltooide de taak in 221.255 seconden, terwijl Lenovo er 476.826 seconden over deed, waardoor Dell 53% sneller was.

Bij 100 miljard cijfers kon Lenovo de test niet voltooien, vanwege de huidige configuratie van 512 GB RAM. Met 2 TB RAM verwerkte Dell de werklast efficiënt en was klaar in 491.737 seconden.

Y-cruncher (lagere duur is beter) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM) Lenovo ThinkSystem SR630 V4 (2x Intel Xeon 6780E | 512 GB RAM)
1 Miljard 2.753 seconden 5.997 seconden
2.5 Miljard 7.365 seconden 17.573 seconden
5 Miljard 16.223 seconden 37.793 seconden
10 Miljard 34.873 seconden 81.046 seconden
25 Miljard 99.324 seconden 220.025 seconden
50 Miljard 221.255 seconden 476.826 seconden
100 Miljard 491.737 seconden

Blender OptiX

Een open-source 3D-modelleringsapplicatie. Deze benchmark werd uitgevoerd met behulp van het hulpprogramma Blender Benchmark. De score is samples per minuut, waarbij hoger beter is.

De Blender benchmarkresultaten laten een duidelijk prestatievoordeel zien voor Dell PowerEdge R770 ten opzichte van de Lenovo ThinkSystem SR630 V4, met name in CPU rendering. In de CPU Monster scene behaalde Dell 1,706.002 samples per minuut, een voorsprong van 19% op Lenovo's 1,432.09 samples per minuut. De CPU Junkshop test benadrukte deze kloof nog eens extra, waarbij Dell 1,169.370 samples per minuut behaalde, waarmee het de Lenovo's 914.75 samples per minuut met 28% overtrof. Op dezelfde manier plaatste Dell 791.475 samples per minuut in de CPU Classroom test, terwijl Lenovo achterbleef met 656.68 samples per minuut, een verschil van 20%.

Het ontbreken van een GPU in het Lenovo-systeem betekende ook dat het niet kon deelnemen aan GPU-gebaseerde rendering, terwijl de NVIDIA L4 van Dell een score liet zien van 1,895.71 samples/min voor Monster, 950.42 samples/min en een Classroom-score van 968.43 samples/min.

Blender CPU-benchmark Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM) Lenovo ThinkSystem SR630 V4 (2x Intel Xeon 6780E | 512 GB RAM)
CPU-monster (Blender 4.3) 1,706.002 monsters/min 1432.09 monsters/min
CPU-rommelwinkel (Blender 4.3) 1,169.370 monsters/min 914.75 monsters/min
CPU-klaslokaal (Blender 4.3) 791.475 monsters/min 656.68 monsters/min
GPU-monster (Blender 4.3) 1,895.712 monsters/min (geen gpu)
GPU-rommelwinkel (Blender 4.3) 950.424 monsters/min (geen gpu)
GPU-klaslokaal (Blender 4.3) 968.432 monsters/min (geen gpu)

Cinebench R23

De Cinebench R23 benchmarktool evalueert de CPU-prestaties van een systeem door een complexe 3D-scène weer te geven met behulp van de Cinema 4D-engine. Het meet single-core en multi-core prestaties en biedt een uitgebreid beeld van de mogelijkheden van de CPU bij het verwerken van 3D-renderingtaken.

In Cinebench R23 benadrukken de benchmarkresultaten opmerkelijke verschillen in CPU-prestaties tussen de Dell PowerEdge R770 en de Lenovo ThinkSystem SR630 V4, vooral gezien het aantal cores per processor. De Lenovo ThinkSystem SR630 V4, uitgerust met 2x Intel Xeon 6780E-processors (144 cores per processor), presteerde beter dan de Dell in de CPU Multi-Core-test met een score van 99,266 punten, vergeleken met de 74,710 punten van Dell. Dit verschil weerspiegelt Lenovo's voordeel in multi-threaded workloads, dankzij het hogere aantal cores (288 totale cores) vergeleken met de 2x Intel Xeon 6787P-processors van Dell (86 cores per processor), wat de multi-core-prestaties beperkt.

In de CPU Single-Core-test presteerde Dell beter met een score van 1,272 punten. Daarmee overtrof het bedrijf de 894 punten van Lenovo, wat de superieure single-threaded efficiëntie van Dell onderstreept, ondanks het lagere aantal cores.

Cinebench R23 Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM) Lenovo ThinkSystem SR630 V4 (2x Intel Xeon 6780E | 512 GB RAM)
CPU multi-core 74,710 pt 99,266 pt
CPU Single-Core 1,272 pt 894 pt
MP-verhouding 58.74 x 111.00 x

Cinebench 2024

Cinebench 2024 breidt de benchmarkmogelijkheden van R23 uit door GPU-prestatie-evaluatie toe te voegen. Het gaat door met het testen van de CPU-prestaties, maar bevat ook tests die het vermogen van de GPU meten om weergavetaken uit te voeren.

In deze bijgewerkte benchmark scoorde de Dell PowerEdge R770 12,996 punten voor GPU-prestaties, wat de mogelijkheid om GPU-versnelde renderingtaken uit te voeren benadrukt. De Lenovo ThinkSystem SR630 V4 heeft geen speciale GPU, dus registreerde hij geen GPU-score.

In de CPU Multi-Core test scoorde de Lenovo 2,884 punten, iets meer dan de 2,831 punten van Dell, wat duidt op een lichte voorsprong in multi-core prestaties voor de Lenovo. Voor CPU Single-Core presteerde de Dell beter dan de Lenovo, met een score van 71 punten, vergeleken met de 53 punten van de Lenovo, wat de hogere single-core prestaties van de Dell laat zien ondanks het feit dat hij minder cores heeft.

Cinebench R24 Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM) Lenovo ThinkSystem SR630 V4 (2x Intel Xeon 6780E | 512 GB RAM)
GPU-score 12,996 pt
CPU multi-core 2,831 pt 2,884 pt
CPU Single-Core 71 pt 53 pt
MP-verhouding 39.77 x 54.43 x

Geekbench 6

Geekbench 6 is een cross-platform benchmark die de algehele systeemprestaties meet. Met de Geekbench Browser kunt u elk systeem ermee vergelijken.

De Geekbench 6 benchmarkresultaten laten duidelijke prestatieverschillen zien tussen de Dell PowerEdge R770 en de Lenovo ThinkSystem SR630 V4. In de CPU Single-Core test presteerde de Dell beter dan de Lenovo met een score van 1,797, terwijl de Lenovo 1,173 scoorde, wat duidt op een verbetering van 53% in single-core prestaties voor de Dell.

In de CPU Multi-Core test leidde Dell opnieuw met 15,880, terwijl Lenovo 13,868 scoorde, wat Dell een voorsprong van 14% gaf in multi-core prestaties. Dit suggereert dat de Intel Xeon 6787P processors van Dell superieure algehele rekenkracht bieden, met name in taken die profiteren van meerdere cores.

De GPU OpenCL-test onderstreepte het voordeel van Dell nog verder: dankzij de NVIDIA L148,730 GPU behaalde het een score van 4.

Geekbench 6 (hoger is beter) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM) Lenovo ThinkSystem SR630 V4 (2x Intel Xeon 6780E | 512 GB RAM)
CPU Single-Core 1,797 1,173
CPU multi-core 15,880 13,868
GPU OpenCL-score 148,730 (geen gpu)

Blackmagic RAW-snelheidstest

De Blackmagic RAW Speed ​​Test is een prestatiebenchmarktool die is ontworpen om de mogelijkheden van een systeem te meten bij het afspelen en bewerken van video met behulp van de Blackmagic RAW-codec. Het evalueert hoe goed een systeem videobestanden met hoge resolutie kan decoderen en afspelen, en biedt framesnelheden voor zowel CPU- als GPU-gebaseerde verwerking.

In de CPU-gebaseerde test behaalde de Dell PowerEdge R770 141 FPS, waarmee hij de Lenovo ThinkSystem SR630 V4 overtrof, die 120 FPS scoorde. Dit geeft aan dat het Dell-systeem CPU-gebaseerde videoverwerking efficiënter verwerkt dan de Lenovo. Voor de GPU-gebaseerde test behaalde de Dell PowerEdge R770 157 FPS, waarbij hij profiteerde van de aanwezigheid van een NVIDIA GPU.

Blackmagic RAW-snelheidstest (hoe hoger, hoe beter) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB RAM) Lenovo ThinkSystem SR630 V4 (2x Intel Xeon 6780E | 512 GB RAM)
FPS-CPU 141 FPS 120 FPS
FPS-CUDA 157 FPS 0 FPS (geen GPU)

Blackmagic Disk Speed ​​Test

De Blackmagic Disk Speed ​​Test benchmarkt de lees- en schrijfsnelheden van een schijf en schat de prestaties ervan, met name voor videobewerkingstaken. Het helpt gebruikers ervoor te zorgen dat hun opslag snel genoeg is voor content met een hoge resolutie, zoals 4K- of 8K-video.

In de Blackmagic-snelheidstest behaalde de Dell PowerEdge R770-bosskaart met gespiegelde SK hynix 480GB Dell NVMe een leessnelheid van 3,010.3 MB/s en een schrijfsnelheid van 976.3 MB/s.

Conclusie

De Dell PowerEdge R770 maakt ons echt enthousiast, gedreven door de adoptie van de Data Center Modular Hardware System-standaard van het Open Compute Project en geavanceerde hardware. De integratie van OCP DC MHS brengt talloze voordelen met zich mee, waaronder verbeterde modulariteit, verbeterde servicebaarheid en mogelijk lagere kosten door toegenomen standaardisatie. Deze ontwerpfilosofie is duidelijk zichtbaar in alle aspecten van het systeem, van de implementatie van iDRAC als een OCP DC-SCM tot aan de poorten.

De R770 beschikt ook over indrukwekkende opslagmogelijkheden, met ondersteuning voor maximaal 40 E3.S-schijven in één 2U-chassis, wat het een ideale oplossing maakt voor opslagintensieve workloads. Bovendien wordt de flexibiliteit van de server verder verbeterd door de ondersteuning voor verschillende configuraties, waaronder een Front I/O Cold Aisle Accessible-configuratie, die meer flexibiliteit biedt voor verschillende datacenterindelingen en servicevereisten.

Met ondersteuning voor een brede lijst van GPU's en Intel's Xeon 6 Performance core CPU's is de R770 echt een powerhouse en veelzijdig serverplatform dat goed geschikt is om te voldoen aan de eisen van moderne datacenters. De geavanceerde hardware, het modulaire ontwerp en de robuuste beveiligingsfuncties maken de R770 een aantrekkelijke optie voor organisaties die AI, HPC en traditionele enterprise workloads willen implementeren.

Dell PowerEdge

Neem contact op met StorageReview

Nieuwsbrief | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed