Home FöretagDell PowerEdge R770 recension: Modulär, kraftfull och AI-klar

Dell PowerEdge R770 recension: Modulär, kraftfull och AI-klar

by Divyansh Jain

Dell PowerEdge R770-recension: Intel Xeon 6-processorer, OCP DC-MHS-modularitet, imponerande prestanda, flexibilitet och AI-klar i ett tätt 2U-chassi.

Dells PowerEdge R7x0-servrar har länge varit en hörnsten i datacenter, kända för sin exceptionella byggkvalitet, genomtänkta design, prestanda, täthet och tillförlitlighet i den mångsidiga 2U-formfaktorn. Dessa servrar har konsekvent utvecklats för att möta förändrade krav. Nu, med introduktionen av Dell PowerEdge R770, tar serien ett betydande steg framåt.

TR770 debuterar Intels nya Xeon 6-processorfamilj, med Xeon 6500 och 6700 P och E core-processorer. Det markerar Dells första fullständiga användning av OCP Data Center Modular Hardware System-standarden (DC MHS) i sin vanliga serverlinje. Tillsammans lovar dessa två förändringar en betydande utveckling av förmåga och designfilosofi.

Dell PowerEdge R770 hjälteram

Uppfyller moderna datacenterkrav

Lanseringen av R770 kommer när datacenter möter ett ökande tryck. Arbetsbelastningen blir allt mer varierad och krävande. Den obevekliga tillväxten av data underblåser behovet av robusta analyser och databaser. Artificiell intelligens är inte längre en nischapplikation utan en kärnverksamhet som kräver betydande datorkraft och specialiserad acceleration, från att träna komplexa modeller till att implementera realtidsinferens.

Samtidigt finns ett intensivt fokus på energieffektivitet och optimering av den totala ägandekostnaden. Dessutom söker branschen alltmer mot öppna standarder för att främja innovation, förbättra interoperabilitet och potentiellt minska leverantörslåsning. R770, med sina nya processoralternativ och adoption av OCP DC MHS, är designad för att möta dessa utmaningar direkt.

Intel Xeon 6 P-Core-processorer

R770-processorn använder Intel Xeon 6-seriens processorer, inklusive 6700- och 6500-serien, som innehåller prestanda- och effektivitetskärnorna byggda på Socket E2 (LGA4710-2)-plattformen. För den här recensionen fokuserar vi specifikt på SKU:erna i P-serien.

Dell PowerEdge R770 CPU-block

Intel konstruerar dessa processorer med en kakelbaserad design, som kombinerar I/O-plattor med en eller två beräkningsplattor. Detta möjliggör skalbarhet inom serien, med konfigurationer som når upp till 86 P-kärnor (XCC) med två beräkningsplattor, ner till 48 P-kärnor (HCC) eller 16 P-kärnor (LCC) med enkla beräkningsplattor.

Jämfört med tidigare generationer av Sapphire och Emerald Rapids-processorer är en viktig skillnad för dessa processorer den universella tillgängligheten av inbyggda acceleratorer för alla Xeon 6-processorer. Detta inkluderar Intel QuickAssist-teknologi för krypto och komprimering, Intel Data Streaming Accelerator för datarörelse, Intel In-Memory Analytics Accelerator för databas- och analysacceleration och Intel Dynamic Load Balancer för effektivitet i nätverksbearbetningen. 

Minne och I/O-bandbredd ser också betydande uppgraderingar. Xeon 6700/6500 P-core-serien stöder 8-kanals DDR5-minne. De banar också väg för Multiplexed Rank DIMM (MRDIMM), som ger hastigheter upp till 8,800 5.0 MT/s. På I/O-fronten stöder dessa processorer PCIe 2.0 och CXL 88. I konfigurationer med dubbla uttag kan plattformen erbjuda upp till 176 PCIe-banor per socket (totalt XNUMX banor). 

Och trots differentieringen av P-kärnan och E-kärnan, bibehåller Xeon 6-familjen konsistens i instruktionsuppsättningar, BIOS, drivrutiner, OS/applikationsstöd och RAS-funktioner, vilket förenklar integration och hantering över olika distributionstyper. P-kärnvarianterna är inriktade på arbetsbelastningar där prestanda per kärna, AI-acceleration, hög minnesbandbredd och betydande I/O är av största vikt; tänk krävande databaser, HPC-simuleringar, avancerad analys och ett brett utbud av AI-applikationer.

Specifikationer för Dell PowerEdge R770

Dell PowerEdge R770 bakre io

Specifikation Dell PowerEdge R770
Processorn Två Intel Xeon 6-processorer med upp till 144 E-kärnor eller 86 P-kärnor per processor
Minne 32 DDR5 DIMM-platser, stöder RDIMM 8 TB max, hastigheter upp till 6400 MT/s, stöder endast registrerade ECC DDR5 DIMMs
Lagringskontrollrar Intern start: Boot Optimized Storage Subsystem (BOSS-N1 DC-MHS): HWRAID 1, 2 x M.2 NVMe SSD eller M.2 Interposer-kort (DC-MHS): 2 x M.2 NVMe SSD:er eller USB, Interna kontroller: Front PERC H965i, Front PERC H975i, Front PERC H365i
Främre och bakre fack
  • Ingen bakplanskonfiguration
  • Upp till 8 x EDSFF E3.S Gen5 NVMe (SSD) max 122.88 TB kommer också med FIO-konfiguration,
  • Upp till 16 x EDSFF E3.S Gen5 NVMe (SSD) max 245.76 TB kommer också med FIO-konfiguration,
  • Upp till 32 x EDSFF E3.S Gen5 NVMe (SSD) max 489.6 TB
  • Upp till 8 x 2.5 tum SAS/SATA/NVMe (SSD) max 122.88 TB
  • Upp till 8 x 2.5 tum Universal max 245.6 TB, Upp till 16 x 2.5 tum SAS/SATA (SSD) max 61.44 TB
  • Upp till 24 x 2.5 tum SAS/SATA (SSD) max 92.16 TB,
  • Upp till 16 x 2.5 tum SAS/SATA (SSD) + 8 x 2.5 tum NVME) max 92.16 TB
  • Upp till 40 x EDSFF E3.S Gen5 NVMe (SSD) max 614.4 TB
  • Upp till 4 x EDSFF E3.S Gen5 NVMe (SSD) max 61.2 TB på baksidan
Hot Swap nätaggregat
  • 800 W Platinum 100—240 VAC eller 240 VDC
  • 1100 W Platinum 100—240 VAC eller 240 VDC
  • 1500 W Titanium 100—240 VAC eller 240 VDC
  • 1100 W Titanium 100—240 VAC eller 240 VDC
  • 3200 W Titanium 200—240 VAC eller 240 VDC
  • 800 W Titanium 100—240 VAC eller 240 VDC
  • 3200 W 277 VAC och 336 HVDC Titanium
  • 1400 W -48VDC 60mm
  • 1500 W 277 VAC och 336 HVDC Titanium
  • 2400 W Titanium 100—240 VAC eller 240 VDC 1800 W HLAC Titanium 200—240 VAC eller 240 VDC
Kylningsalternativ Luftkylning och direkt vätskekylning (DLC är en racklösning och kräver rackgrenrör och en kyldistributionsenhet (CDU) för att fungera)
Fläktar Högpresterande Silver (HPR SLVR) fläktar/Högpresterande guld (HPR GOLD) fläktar, upp till 6 hot-swap-fläktar
Mått och vikt Höjd – 86.8 mm (3.42 tum), Bredd – 482 mm (18.97 tum), Vikt – 28.53 kg (62.89 pund), Djup (för bakre I/O-konfiguration) – 802.40 mm (31.59 tum) med infattning, 801.51 tum (31.56 tum) infattning (814.52 tum, 32.07 mm) utan ram. främre I/O-konfiguration) – XNUMX mm (XNUMX tum) utan ram
Formfaktor 2U rackserver
Embedded Management iDRAC, iDRAC Direct, iDRAC RESTful API med Redfish, RACADM CLI, iDRAC Service Module (iSM), NativeEdge Endpoint, NativeEdge Orchestrator
Bezel Säkerhetsram som tillval
Säkerhet Kryptografiskt signerad firmware, Data at Rest Encryption (SEDs med lokal eller extern nyckelhantering), Secure Boot, Secured Component Verification (Hårdvaruintegritetskontroll), Silicon Root of Trust, System Lockdown, System Lockdown (kräver iDRAC10 Enterprise eller Datacenter), Chassis Intrusion Detection, TPM 2.0 FIPS-certifierad CC-TCG
Nätverksalternativ
  • 4 x OCP NIC 3.0-kort (tillval) och 1GbE, 10GbE, 25GbE,100GbE och 400GbE
  • Fack 4 1 x 8 eller 1 x 16 Gen5 OCP 3.0
  • Plats 10 1 x 8 eller 1 x 16 OCP 3.0, Slot 34 1 x 16 Gen5 OCP 3.0 på fronten
  • Fack 38 1 x 16 Gen 5 OCP 3.0 på främre stigaren
  • BOSS Slot 34 1 x 4 BOSS, Slot 6 1 x 4 BOSS
GPU-alternativ Upp till 6 x 75 W FHHL eller upp till 2 x 350 W DWFL
Hamnar Främre portar: 1 x USB 2.0 Typ C-port, 1 x USB 2.0 Typ A-port (tillval), 1 x Mini-DisplayPort (tillval), 1 x DB9 Serial (med front I/O-konfiguration), 1 x Dedikerad Ethernet-port för iDRAC-hantering; Bakre portar: 1 x Dedikerad Ethernet-port för iDRAC-hantering, 1 x VGA, 2 x USB 3.1 Typ A-portar; Interna portar: 1 x USB 3.1 typ A-port
PCIe
  • Upp till två PCIe-platser (x16-kontakter)
  • Spår 31 1 x 16 Gen5 full höjd – halv längd eller full längd på främre stigaren
  • Fack 36 1 x 16 Gen5 Full Höjd – Halv längd på främre Riser
  • Upp till åtta PCIe-platser (x8- och x16-kontakter)
  • Fack 1 1 x 8 Gen5 full höjd – halv längd
  • Fack 2 1 x 16 Gen5 dubbel bredd full längd eller 1 x 8 Gen5 full höjd – halv längd
  • Fack 3 1 x 16 Gen5 full höjd – halvlängd eller 1 x 16 Gen5 lågprofil
  • Fack 4 1 x 16 Gen5 full höjd – halv längd eller 1 x 8 Gen5 full höjd – halv längd eller 1 x 8 eller 1 x 16 OCP 3.0
  • Fack 5 2 x 16 Gen5 full höjd – halv längd eller 1 x 8 Gen5 full höjd – halv längd
  • Spår 7 1 x 16 Gen5 full höjd – halv längd eller 1 x 16 Gen5 dubbel bredd full längd eller 1 x 8 Gen5 full höjd – halv längd, spår 8 1 x 16 Gen5 full höjd – halv längd eller 1 x 8 Gen5 full höjd – halv längd
  • Spår 9 1 x 16 Gen5 full höjd – halv längd eller 1 x 8 Gen5 full höjd – halv längd eller 1 x 16 låg profil – halv längd
Operativsystem och hypervisorer Canonical Ubuntu Server LTS, Microsoft Windows Server med Hyper-V, Red Hat Enterprise Linux, SUSE Linux Enterprise Server, VMware med vSphere

Dell PowerEdge R770 omfamnar modularitet med OCP DC MHS

Källa från Server/DC-MHS – OpenComputer

Dell PowerEdge R770 introducerar anmärkningsvärda framsteg och flexibilitet i sin fysiska design och komponentarkitektur, och anammar Open Compute Projects OCP DC MHS-standard (Data Center Modular Hardware System).

Dell PowerEdge R770 SSD bakifrån

R7 fortsätter arvet från R0x770-serien och erbjuder omfattande konfigurationsalternativ för att tillgodose olika installationsbehov. En viktig förstagång för denna linje är valet mellan en traditionell bakre I/O-konfiguration och en främre I/O Cold Aisle Accessible-konfiguration, vilket ger större flexibilitet för olika datacenterlayouter och servicekrav. Lagringsalternativen är lika mångsidiga, allt från datorfokuserade noder med minimal eller ingen lokal lagring till högdensitetskonfigurationer som stöder anmärkningsvärda 40 E3.S-enheter för lagringscentrerade arbetsbelastningar.

För att möta det växande behovet av accelererad datoranvändning, särskilt för AI och HPC, har R770 robusta expansionsmöjligheter. Beroende på chassit och stigarkonfigurationen kan servern rymma upp till sex Gen 5 x16 Full-Height, Full-Length (FHFL) PCIe-kort. Dessutom stöder den installationen av två GPU:er med dubbla bredd, vilket gör den till en kapabel plattform för ett brett utbud av uppgifter. Nätverksflexibilitet tillhandahålls via OCP 3.0 mezzanine-kortplatser, som stöder antingen x8- eller x16-kort baserat på konfigurationen.

Dell har också implementerat flera designförbättringar som syftar till att förbättra servicebarheten och tillförlitligheten. Ett utmärkt exempel är utvecklingen av BOSS-kortet (Boot Optimized Storage Solution). Tidigare ansluten via kablar och inbyggd i PCIe-risern, är BOSS-kontrollern i R770 nu implementerad som ett OCP-standardiserat kort som gränssnitt direkt med moderkortet, vilket eliminerar kabelkomplexitet. Denna nya BOSS-kontroller har även snabbare NVMe M.2-enheter och har kylflänsar för att säkerställa optimala driftstemperaturer och prestanda för startenheterna. En annan subtil men praktisk förbättring för tekniker är övergången från traditionella byglar till mer användarvänliga DIP-switchar för funktioner som att rensa NVRAM.

Det mest djupgående arkitektoniska skiftet är det fullständiga antagandet av OCP DC MHS-standarden. Dell började införliva OCP-element i tidigare generationer, särskilt genom att använda OCP 3.0-nätverkskortplatser. R770 tar detta mycket längre. Nyckelkomponenter följer nu OCP-specifikationerna, inklusive Host Processor Modules (HPM), allmänt känd som moderkortet, som inkluderar delar som stigarplatserna, nu M-XIO-kontakter. M-XIO-kontakten ger ett standardiserat gränssnitt för stigkort, vilket förbättrar flexibiliteten och uppgraderingsmöjligheten. iDRAC är också implementerad som en OCP DC-SCM (Server Control Module).

Dessutom introducerar R770 den nya PICPWR-strömkontakten för perifera anslutningar som GPU:er och bakplan. Denna kontakt är ett betydande tillägg som förenklar strömförsörjningen och inkluderar inline strömövervakning.

Denna djupa integration standardiserar gränssnitt och formfaktorer över olika delsystem. Medan Dell betonar att användare bör hålla sig till validerade komponenter för garanterad kompatibilitet och support, gör den underliggande standardiseringen många delar i sig mer användarvänliga och potentiellt utbytbara mellan kompatibla system i framtiden.

Management och iDRAC

Dell PowerEdge R770 bygger på den redan funktionsrika och älskade iDRAC 9 med nästa generations iDRAC 10, som förbättrar systemadministrationen genom sömlös integration med Data Center Secure Control Module (DC-SCM). Denna integration möjliggör strömlinjeformade firmwareuppdateringar och konfigurationshantering, vilket säkerställer konsekvent och skalbar verksamhet över datacenter. iDRAC 10 stöder även avancerade automations- och övervakningsfunktioner, vilket ger IT-administratörer möjlighet att effektivt hantera storskaliga distributioner utan att kompromissa med prestanda eller tillförlitlighet.

Säkerhet är en hörnsten i R770:s hanteringsfunktioner, där Dell implementerar robusta mekanismer för förstart och uppstart. Med hjälp av kiselbaserad Root of Trust-teknik säkerställer iDRAC 10 att all firmware, inklusive BIOS och iDRAC, verifieras kryptografiskt innan exekvering. Denna oföränderliga hårdvarubaserade säkerhetsåtgärd skyddar mot manipulering av skadlig programvara och attacker i leveranskedjan, vilket ger en säker grund för systemdrift. Dessutom innehåller R770 kvantsäkra uppstartsprotokoll för att mildra nya kryptografiska hot, vilket ytterligare stärker dess roll i att skydda kritisk infrastruktur.

Dells engagemang för säkerhet i försörjningskedjan är tydligt i R770:s design, som använder en omfattande kedja av förtroende-autentisering. Varje hårdvarukomponent genomgår rigorös verifiering med hjälp av kryptografiska signaturer som är inbäddade under tillverkningen. Denna process säkerställer att endast auktoriserad firmware och komponenter används, vilket minskar riskerna i samband med obehöriga ändringar eller förfalskade delar.

Byggstenar för AI-fabriker

R770 kan beställas med många GPU- och chassikonfigurationer, vilket gör den till en mångsidig plattform för ett brett utbud av AI-arbetsbelastningar. Denna flexibilitet och dess robusta lagrings- och nätverkskapacitet gör det till ett attraktivt val för organisationer som distribuerar AI-lösningar i AI-fabriker. AI-fabriker hänvisar till den infrastruktur och de verktyg som krävs för att skapa, träna och distribuera AI-modeller i stor skala. Dessa fabriker är viktiga för att utveckla avancerade system som autonoma fordon och robotik, eftersom de tillhandahåller den beräkningskraft och datapipelines som behövs för att effektivt bearbeta massiva datamängder.

Att utveckla autonoma fordon och robotsystem kräver omfattande utbildningsdata som återspeglar verkliga scenarier. NVIDIAs Cosmos NIM är ett betydande framsteg inom detta område, och erbjuder utvecklare en kraftfull verktygslåda för att påskynda skapandet och driftsättningen av fysiska AI-system som World Foundational Models.

Förstå World Foundation Models

World Foundation-modeller (WFM) är sofistikerade neurala nätverk som simulerar verkliga miljöer och förutsäger exakta resultat baserat på olika indata. Till skillnad från traditionella AI-modeller fokuserade på specifika uppgifter förstår WFM:er dynamiken i den fysiska världen, inklusive fysik och rumsliga egenskaper. De kan generera videor från textmeddelanden, bilder eller andra indata samtidigt som de korrekt representerar rörelse, kraft och rumsliga relationer.

NVIDIA Cosmos NIM: A Stepping Stone to World Foundational Models

NVIDIAs Cosmos NIM är ett avgörande steg mot att uppnå World Foundational Models. De gör det möjligt för organisationer och AI-labb att generera syntetisk träningsdata och effektivt skala nödvändig data för att träna dessa AI-modeller. Vi satte in Cosmos Predict modell, en generalistmodell som genererar världstillstånd från text- eller videomeddelanden och syntetiserar kontinuerlig rörelse genom att förutsäga bildrutor.

Det här är några intressanta resultat som vi kunde göra med Cosmos med bara en enda bild av vårt labb. Även om det inte är felfritt, är det mycket imponerande vad det kan göra från bara en enda bild.

R770:s förmåga att stödja högpresterande GPU:er, som NVIDIA H100, och dess robusta lagrings- och nätverkskapacitet gör den till ett attraktivt val för organisationer som vill implementera AI-lösningar.

Genom att utnyttja R770:s kapacitet kan organisationer effektivt träna och distribuera AI-modeller som Cosmos NIM, vilket påskyndar utvecklingen av autonoma fordon och robotsystem. R770:s prestanda och skalbarhet gör den till en idealisk plattform för att hantera de stora mängder data som krävs för AI-modellträning, och dess mångsidighet gör det möjligt för den att stödja ett brett utbud av AI-arbetsbelastningar.

GPU direkt lagring

GPU Direct Storage är en teknologi som möjliggör direkt dataöverföring mellan lagringsenheter och GPU:er, förbi processorn och systemminnet. Vid traditionell dataöverföring läses data från lagring till CPU:ns minne och kopieras sedan till GPU:ns minne. Denna process involverar flera datakopior, vilket leder till ökad latens och minskad prestanda. CPU:n fungerar som en flaskhals som behöver hantera dataöverföringen mellan lagring och GPU. GDS eliminerar denna flaskhals genom att direkt tillåta lagringsenheter att överföra data till och från GPU:ns minne.

Vi genomförde en GDSIO-arbetsbelastningsanalys på ett lagringssystem bestående av 16 enheter, vilket stegvis ökade antalet enheter som används för att förstå lagringsprestanda och dess förmåga att mätta en PCIe Gen 5 GPU.

GDSIO Read-diagrammet illustrerar hur en ökning av antalet KIOXIA CD8P SSD-enheter påverkar den sammanlagda och genomsnittliga läskapaciteten i r770. Inledningsvis, när antalet enheter ökar från en till fyra, skalar den sammanlagda läsgenomströmningen snabbt och når cirka 50.2 GiB/sek. Detta tyder på att systemet kan mätta PCIe Gen 5 x16 med bara tre till fyra enheter för dataladdning. Utöver fem enheter, samlade genomströmningsplatåer, vilket indikerar att ytterligare enheter inte förbättras avsevärt. Under tiden förblir den genomsnittliga läskapaciteten per enhet stabil upp till 4 enheter, men minskar sedan när fler enheter läggs till. Denna nedgång i prestanda per enhet beror på att fler enheter delar den tillgängliga PCIe-bussbandbredden och att individuella enhetsläsningar minskar.

Däremot är skrivprestandan för dessa enheter mycket lägre än deras läsprestanda. Det tog alla 16 enheterna för att uppnå en skrivbandbredd på 46.7 GiB/s, med den genomsnittliga skrivningen för enheterna förblev nästan konstant. Med tanke på att dessa är de lägre skrivprestandakapaciteterna i KIOXIA CD8-portföljen, kommer högkapacitetsversioner eller andra PCIe Gen5 SSD:er att klara sig bättre.

Benchmarking Dell PowerEdge R770

Till riktmärkena, R770 är Dells flaggskepps huvudsystem och kommer som sådant att användas i många olika miljöer. Så vi körde en omfattande uppsättning riktmärken för den här plattformen för att ge en uppfattning om hur plattformen presterar i olika miljöer. Lenovo ThinkSystem SR630 V4 jämfördes i några tester för att visa skillnaden mellan E-core och P-core CPU.

Systemkonfiguration
  • CPU: 2x Intel Xeon 6787P (86 kärnor vardera)
  • BAGGE: 32x Micron 64 GB Dual-Rank DDR5 6400 MT/s Totalt minne: 2TB
  • Nätaggregat: 2x Delta 1500W
  • GPU: 1x NVIDIA H100 för TGI benchmark, 1x NVIDIA L4 för de återstående testerna
  • NIC: DELL BRCM 4P 25G SFP 57504S OCP NIC
  • BOSS-kort: BOSS-N1 DC-MHS-skivor 0 & 1 SK hynix 480 GB Dell NVMe ISE PE9010 RI M.2 480 GB
  • Diskar: 0-5 i bakplan 1: Samsung 6.4 TB, Dell NVMe PM1745 MU E3.S 6.4 TB

AI arbetsbelastningsprestanda

Benchmark för slutledning av textgenerering

Text Generation Inference (TGI) är en högpresterande LLM-inferensserver utvecklad av Hugging Face. Den är utformad för att optimera distributionen och konsumtionen av LLM, vilket gör den till ett idealiskt val för produktionsmiljöer. TGI stöder olika LLM:er med öppen källkod och erbjuder funktioner som tensorparallellism, tokenstreaming och kontinuerlig batchning, vilket förbättrar dess prestanda och effektivitet.

Textgenerering slutledning – QwQ 32B

Benchmarking-funktionen hos TGI används för att utvärdera dess prestanda under olika konfigurationer och arbetsbelastningar. TGI:s benchmarking-funktion ger en mer exakt representation av verkliga prestanda, eftersom den tar hänsyn till komplexiteten i att betjäna LLMs i en produktionsmiljö.

Att generera text med hjälp av LLM involverar två primära steg: förfyllningssteget och avkodningssteget. Förfyllningssteget är det första steget, där LLM bearbetar inmatningsuppmaningen för att generera de nödvändiga mellanliggande representationerna. Detta steg är beräkningsintensivt, eftersom det involverar bearbetning av hela inmatningsuppmaningen i en enda framåtpassning genom modellen.

Under förfyllningssteget tokeniseras inmatningsuppmaningen och konverteras till ett format som LLM kan bearbeta. LLM beräknar sedan KV-cachen, som lagrar information om inmatningstoken. KV-cachen är en kritisk datastruktur som underlättar genereringen av utdatatokens.

Däremot är avkodningssteget en autoregressiv process där LLM genererar utdatatecken en i taget, som bygger på de mellanliggande representationerna som genereras under förfyllningssteget. Avkodningssteget förlitar sig starkt på KV-cachen som genereras under förfyllningssteget, vilket ger det nödvändiga sammanhanget för att generera koherenta och kontextuellt relevanta utdatatokens.

Förfyllningsstadiet

När batchstorleken ökar från 1 till 32 ökar latensen för alla tre modellerna; DeepSeek-R1-Distill-Qwen-32 B:s latens ökar från 29.97 ms vid en satsstorlek på 1 till 76.95 ms vid en satsstorlek på 32. På samma sätt ökar latensen för GEMMA-3-27B-IT och Qwen/QwQ-32B från 51.84 ms till 29.90 ms till 79.58 ms. ms respektive 76.30 ms.

Däremot förbättras tokenhastigheten avsevärt när batchstorleken ökar. Vid en batchstorlek på 1 sträcker sig tokenhastigheterna för de tre modellerna från 192.95 till 334.46 tokens per sekund. Vid en batchstorlek på 32, stigande till 4158.67, 4021.40 och 4194.13 tokens per sekund för DeepSeek-R1-Distill-Qwen-32B, GEMMA-3-27B-IT respektive Qwen/QwQ-32B.

LLM Prefill Stage Prestanda: Latency (ms) & Token Rate (tokens/sek)
Satsstorlek DeepSeek-R1-Distill-Qwen-32B GEMMA-3-27B-IT Qwen/QwQ-32B
Latency (ms) Token Rate Latency (ms) Token Rate Latency (ms) Token Rate
1 29.97 333.64 51.84 192.95 29.90 334.46
2 30.21 662.09 52.55 380.61 29.95 667.80
4 32.40 1234.72 52.62 760.12 32.12 1245.47
8 36.98 2163.46 52.66 1519.19 36.69 2180.66
16 51.63 3125.50 60.96 2624.64 51.29 3147.61
32 76.95 4158.67 79.58 4021.40 76.30 4194.13
Avkodningsstadiet

Till skillnad från förfyllningssteget förblir latensen under avkodningssteget relativt stabil över olika batchstorlekar. Till exempel varierar DeepSeek-R1-Distill-Qwen-32 B:s latens från 27.14 ms till 29.52 ms när batchstorleken ökar från 2 till 32.

Tokenhastigheten under avkodningssteget förbättras med ökande batchstorlek, men inte lika dramatiskt som under förfyllningssteget. Vid en batchstorlek på 1 är tokenhastigheten runt 36-37 tokens per sekund för DeepSeek-R1-Distill-Qwen-32B och Qwen/QwQ-32B, och 33.96 tokens per sekund för GEMMA-3-27B-IT. Vid en batchstorlek på 32 ökar tokenhastigheterna till 1083.83, 873.39 respektive 1084.89 tokens per sekund.

LLM Decode (Token) Prestanda: Latency (ms) & Token Rate (tokens/sek)
Satsstorlek DeepSeek-R1-Distill-Qwen-32B GEMMA-3-27B-IT Qwen/QwQ-32B
Latency (ms) Token Rate Latency (ms) Token Rate Latency (ms) Token Rate
1 27.24 36.71 29.45 33.96 27.24 36.71
2 27.14 73.70 30.80 64.93 27.14 73.69
4 27.50 145.46 31.33 127.65 27.47 145.62
8 27.91 286.61 32.54 245.83 27.90 286.78
16 28.31 565.07 34.71 460.92 28.44 562.56
32 29.52 1083.83 36.64 873.39 29.50 1084.89

Detta är som förväntat eftersom förfyllningssteget beräknar initiala dolda tillstånd och nyckel-värdescacher för hela inmatningsprompten, vilket kan mätta GPU:n väl eftersom stora, batchoperationer kan köras samtidigt. Efter bearbetning av prompten genererar modellen nya tokens, vanligtvis en i taget. Vid varje steg tar modellen den föregående token och de cachade dolda tillstånden och producerar nästa token. Eftersom detta steg effektivt fortsätter token för token, är batchstorleken ofta liten, så GPU:n är ofta underutnyttjad.

Procyon AI Computer Vision Benchmark

Med hjälp av verkliga maskinvisionsuppgifter utvärderar Procyon AI Computer Vision Benchmark AI-inferensprestanda över CPU: er, GPU:er och AI-acceleratorer. Den stöder flera inferensmotorer som TensorRT, OpenVINO, SNPE, Windows ML och Core ML, vilket ger insikter om effektivitet, kompatibilitet och optimering.

Resultaten från Procyon AI Computer Vision Benchmark visar också upp starka AI-inferensprestanda. Systemet uppnådde låga slutledningstider, med MobileNet V3 på 20.64 ms och ResNet 50 på 22.42 ms. Inception V4 och DeepLab körde på 65.23 ms respektive 41.37 ms, och hanterade mer komplexa synarbetsbelastningar effektivt. YOLO V3, en nyckelobjektsdetekteringsmodell, bearbetad på 37.80 ms, vilket gör den väl lämpad för AI-applikationer i realtid. REAL-ESRGAN, en beräkningsintensiv superupplösningsmodell, spelade in 1,159.22 81 ms, vilket gav oss en total AI Computer Vision-poäng på XNUMX.

AI Computer Vision (lägre varaktighet är bättre) (Högre poäng är bättre) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB ram)
MobileNet V3 Genomsnittlig slutledningstid 20.64 ms
ResNet 50 Genomsnittlig slutledningstid 22.42 ms
Inception V4 Genomsnittlig slutledningstid 65.23 ms
DeepLabs genomsnittliga slutledningstid 41.37 ms
YOLO V3 Genomsnittlig slutledningstid 37.80 ms
REAL-ESRGAN Genomsnittlig slutledningstid 1,159.22 ms
Totalt resultat för AI Computer Vision 81

Hammare DB TPROC-C

Vi utvärderade också prestandan hos fyra populära databaser med öppen källkod – MariaDB 11.4.4, MySQL 8.4.4, MySQL 5.7.44 och PostgreSQL 17.2 – med HammerDB TPROC-C-riktmärket för att simulera OLTP-arbetsbelastningar över 500 lager.

MariaDB framstod som den bästa presterande, särskilt i konfigurationer med dubbla uttag, där den skalade effektivt och uppnådde den högsta transaktionsgenomströmningen. MySQL 8.4.4 visade markanta förbättringar jämfört med den äldre versionen av 5.7.44, vilket framhävde förbättringar i de senaste utgåvorna. PostgreSQL 17.2 levererade konsekvent prestanda men släpade något efter MariaDB och MySQL 8.4.4. MariaDB levererade 3.15 miljoner TPM på en enda socket och 5.8 miljoner TPM på dubbla sockets, vilket överträffade resten i båda scenarierna.

Resultatjämförelsetabell (Transaktioner per minut, TPM)

Databasmotor Ensockel TPM TPM med dubbla uttag
MariaDB 11.4.4 3,150,000 5,800,000
MySQL 8.4.4 2,850,000 5,150,000
PostgreSQL 17.2 2,700,000 4,900,000
MySQL 5.7.44 2,300,000 4,250,000

Trots R770:s kraftfulla hårdvara, inklusive 86 kärnor per CPU (en blandning av hög- och lågprioriterade kärnor), visade ingen av databaserna betydande prestandavinster när de distribuerades över båda socken. Detta återspeglar den vanliga preferensen för databaser med öppen källkod för exekvering av en enda socket på grund av bättre kärnlokalitet och minskad minneslatens.

Med tanke på dessa resultat är R770 bättre lämpad för att köra flera databasinstanser i en virtualiserad miljö snarare än att skala upp en enda instans. Systemets arkitektur är idealisk för att stödja en arbetsbelastning med hög densitet, blandad databas, och använder både prestanda- och effektivitetskärnor för att leverera konsekvent genomströmning i många instanser.

7-Zip

Det populära 7-Zip-verktygets inbyggda minnesbenchmark mäter prestandan hos ett systems CPU och minne under komprimerings- och dekompressionsuppgifter, vilket indikerar hur väl systemet kan hantera dataintensiva operationer.

I 7-Zip-riktmärket, när det kommer till komprimeringsuppgifter, hade Dell-systemet ett högre betyg (266.425 GIPS) än Lenovo (224.313 GIPS), där Dell visade en något lägre CPU-användning. Lenovo överträffade dock Dell i dekompression med ett högre betyg (288.457 GIPS mot 256.154 GIPS) och något högre CPU-användning. Dell hade ett marginellt högre totalbetyg på (261.290 GIPS), vilket visade bättre total effektivitet för både komprimerings- och dekompressionsuppgifter.

7-zip-komprimering & Dekompression Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB RAM)
Komprimering – Aktuell CPU-användning 5267% 5064%
Komprimering – aktuellt betyg/användning 5.061 XNUMX GIPS 4.341 XNUMX GIPS
Komprimering – Aktuellt betyg 266.591 XNUMX GIPS 219.840 XNUMX GIPS
Komprimering – resulterande CPU-användning 5270% 5156%
Komprimering – resulterande betyg/användning 5.056 XNUMX GIPS 4.350 XNUMX GIPS
Komprimering – Resulterande betyg 266.425 XNUMX GIPS 224.313 XNUMX GIPS
Dekomprimering – Aktuell CPU-användning 5623% 6184%
Dekomprimering – aktuellt betyg/användning 4.586 XNUMX GIPS 4.688 XNUMX GIPS
Dekomprimering – Aktuellt betyg 257.909 XNUMX GIPS 289.879 XNUMX GIPS
Dekomprimering – resulterande CPU-användning 5627% 6205%
Dekomprimering – resulterande betyg/användning 4.553 XNUMX GIPS 4.649 XNUMX GIPS
Dekomprimering – Resulterande betyg 256.154 XNUMX GIPS 288.457 XNUMX GIPS
Totalt – Total CPU-användning 5448% 5681%
Totalt – Totalt betyg/användning 4.804 XNUMX GIPS 4.500 XNUMX GIPS
Totalt – Totalt betyg 261.290 XNUMX GIPS 256.385 XNUMX GIPS

y-cruncher

y-cruncher är en populär applikation för benchmarking och stresstestning som lanserades redan 2009. Detta test är flertrådigt och skalbart och beräknar Pi och andra konstanter upp till biljoner siffror. Snabbare är bättre i detta test. Den här programvaran har varit fantastisk på att testa plattformar med högt antal kärnor och visat datorfördelar mellan plattformar med en och två uttag.

Y-cruncher-referensresultaten visar ett betydande prestandagap mellan Dell PowerEdge R770, som utnyttjar P-core-processorerna, och Lenovo ThinkSystem SR630 V4 med E-core-processorer, särskilt när datauppsättningsstorleken ökar. Detta handlar mindre om vilket system som är bättre och mer om att visa hur CPU-typerna står sig under denna arbetsbelastning.

För mindre beräkningar var Dell-systemet redan före och beräknade 1 miljard siffror av Pi på 2.753 sekunder, medan Lenovo tog mer än dubbelt så lång tid på 5.997 sekunder. När arbetsbördan ökade, ökade klyftan. Med 10 miljarder siffror kom Dell i mål på 34.873 sekunder, mindre än halva tiden av Lenovos 81.046 sekunder. Med 50 miljarder siffror behöll Dell sin fördel och slutförde uppgiften på 221.255 sekunder, medan Lenovo tog 476.826 sekunder, vilket gjorde Dell 53 % snabbare.

Med 100 miljarder siffror kunde Lenovo inte slutföra testet, på grund av dess nuvarande konfiguration av 512 GB RAM. Med 2 TB RAM-minne hanterade Dell arbetsbelastningen effektivt och slutade på 491.737 sekunder.

Y-cruncher (lägre varaktighet är bättre) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB RAM)
1 miljard 2.753 sekunder 5.997 sekunder
2.5 miljard 7.365 sekunder 17.573 sekunder
5 miljard 16.223 sekunder 37.793 sekunder
10 miljard 34.873 sekunder 81.046 sekunder
25 miljard 99.324 sekunder 220.025 sekunder
50 miljard 221.255 sekunder 476.826 sekunder
100 miljard 491.737 sekunder

Blender OptiX

En applikation för 3D-modellering med öppen källkod. Detta benchmark kördes med hjälp av verktyget Blender Benchmark. Poängen är prover per minut, med högre är bättre.

Blender-referensresultaten visar en klar prestandafördel för Dell PowerEdge R770 jämfört med Lenovo ThinkSystem SR630 V4, särskilt i CPU-rendering. I CPU Monster-scenen uppnådde Dell 1,706.002 19 1,432.09 prover per minut, en ledning på 1,169.370 % över Lenovos 914.75 28 prover per minut. CPU Junkshop-testet betonade ytterligare detta gap, där Dell nådde 791.475 656.68 20 prover per minut, vilket överträffade Lenovos XNUMX prover per minut med XNUMX %. På samma sätt publicerade Dell XNUMX prover per minut i CPU Classroom-testet, medan Lenovo släpade efter med XNUMX prover per minut, en skillnad på XNUMX %.

Avsaknaden av en GPU i Lenovo-systemet innebar också att den inte kunde delta i GPU-baserad rendering, där Dells NVIDIA L4 visade en poäng på 1,895.71 950.42 Samples/Min för Monster, 968.43 Samples/Min, och en Classroom-poäng på XNUMX Samples/Min.

Blender CPU Benchmark Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB RAM)
CPU Monster (Blender 4.3) 1,706.002 XNUMX XNUMX prover/min 1432.09 XNUMX XNUMX prover/min
CPU Junkshop (Blender 4.3) 1,169.370 XNUMX XNUMX prover/min 914.75 XNUMX XNUMX prover/min
CPU Classroom (Blender 4.3) 791.475 XNUMX XNUMX prover/min 656.68 XNUMX XNUMX prover/min
GPU Monster (Blender 4.3) 1,895.712 XNUMX XNUMX prover/min (ingen gpu)
GPU Junkshop (Blender 4.3) 950.424 XNUMX XNUMX prover/min (ingen gpu)
GPU Classroom (Blender 4.3) 968.432 XNUMX XNUMX prover/min (ingen gpu)

Cinebench R23

Benchmarkverktyget Cinebench R23 utvärderar ett systems CPU-prestanda genom att rendera en komplex 3D-scen med hjälp av Cinema 4D-motorn. Den mäter enkärnig och multikärnig prestanda, vilket ger en heltäckande bild av CPU:ns kapacitet för att hantera 3D-renderingsuppgifter.

I Cinebench R23 framhäver benchmarkresultaten anmärkningsvärda skillnader i CPU-prestanda mellan Dell PowerEdge R770 och Lenovo ThinkSystem SR630 V4, särskilt med tanke på antalet kärnor per processor. Lenovo ThinkSystem SR630 V4, utrustad med 2x Intel Xeon 6780E-processorer (144 kärnor per processor), överträffade Dell i CPU Multi-Core-testet med en poäng på 99,266 74,710 poäng, jämfört med Dells 288 2 poäng. Denna skillnad återspeglar Lenovos fördel i flertrådiga arbetsbelastningar, tack vare dess högre antal kärnor (6787 totalt kärnor) jämfört med Dells 86x Intel Xeon XNUMXP-processorer (XNUMX kärnor per processor), vilket begränsar dess multi-core prestanda.

I CPU Single-Core-testet presterade Dell bättre med en poäng på 1,272 894 poäng, överträffade Lenovos XNUMX poäng, vilket framhävde Dells överlägsna entrådiga effektivitet trots sitt lägre antal kärnor.

Cinebench R23 Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB RAM)
CPU Multi-Core 74,710-poäng 99,266-poäng
CPU enkelkärnig 1,272-poäng 894-poäng
MP-förhållande 58.74 x 111.00 x

Cinebench 2024

Cinebench 2024 utökar R23:s benchmark-kapacitet genom att lägga till GPU-prestandautvärdering. Den fortsätter att testa CPU-prestanda men inkluderar även tester som mäter GPU:ns förmåga att hantera renderingsuppgifter.

I detta uppdaterade riktmärke fick Dell PowerEdge R770 12,996 630 poäng för GPU-prestanda, vilket framhävde dess förmåga att hantera GPU-accelererade renderingsuppgifter. Lenovo ThinkSystem SR4 VXNUMX har inte en dedikerad GPU, så den registrerade inte en GPU-poäng.

I CPU Multi-Core-testet fick Lenovo 2,884 2,831 poäng, något före Dells 71 53 poäng, vilket tyder på en liten fördel i multi-core-prestanda för Lenovo. För CPU Single-Core överträffade Dell Lenovo, med XNUMX poäng, jämfört med Lenovos XNUMX poäng, vilket visar upp Dells högre prestanda med en kärna trots färre kärnor.

Cinebench R24 Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB RAM)
GPU-poäng 12,996-poäng
CPU Multi-Core 2,831-poäng 2,884-poäng
CPU enkelkärnig 71-poäng 53-poäng
MP-förhållande 39.77 x 54.43 x

Geekbench 6

Geekbench 6 är ett plattformsoberoende riktmärke som mäter systemets övergripande prestanda. Geekbench Browser låter dig jämföra vilket system som helst med det.

Geekbench 6 benchmarkresultat visar uppenbara prestandaskillnader mellan Dell PowerEdge R770 och Lenovo ThinkSystem SR630 V4. I CPU Single-Core-testet överträffade Dell Lenovo med en poäng på 1,797 1,173, medan Lenovo fick 53 XNUMX poäng, vilket tyder på en XNUMX% förbättring av enkärnig prestanda för Dell.

I CPU Multi-Core-testet ledde Dell återigen med 15,880 13,868, medan Lenovo fick 14 6787, vilket gav Dell en fördel på XNUMX % i multi-core prestanda. Detta tyder på att Dells Intel Xeon XNUMXP-processorer ger överlägsen total beräkningskraft, särskilt i uppgifter som drar nytta av flera kärnor.

GPU OpenCL-testet framhävde Dells fördel ytterligare, med en poäng på 148,730 4 tack vare NVIDIA LXNUMX GPU.

Geekbench 6 (Högre är bättre) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB RAM)
CPU enkelkärnig 1,797 1,173
CPU Multi-Core 15,880 13,868
GPU OpenCL-poäng 148,730 (ingen gpu)

Blackmagic RAW Speed ​​Test

Blackmagic RAW Speed ​​Test är ett prestandabenchmarking-verktyg utformat för att mäta ett systems förmåga att hantera videouppspelning och redigering med Blackmagic RAW-codec. Den utvärderar hur väl ett system kan avkoda och spela upp högupplösta videofiler, vilket ger bildhastigheter för både CPU- och GPU-baserad bearbetning.

I det CPU-baserade testet uppnådde Dell PowerEdge R770 141 FPS, vilket överträffade Lenovo ThinkSystem SR630 V4, som fick 120 FPS. Detta indikerar att Dell-systemet hanterar CPU-baserad videobehandling mer effektivt än Lenovo. För det GPU-baserade testet fick Dell PowerEdge R770 157 FPS, med fördel av närvaron av en NVIDIA GPU.

Blackmagic RAW Speed ​​Test (högre är bättre) Dell PowerEdge R770 (2x Intel Xeon 6787P | 2TB ram) Lenovo ThinkSystem SR630 V4 (2 x Intel Xeon 6780E | 512 GB RAM)
FPS CPU 141 FPS 120 FPS
FPS CUDA 157 FPS 0 FPS (ingen GPU)

Blackmagic Disk Speed ​​Test

Blackmagic Disk Speed ​​Test jämför en enhets läs- och skrivhastigheter och uppskattar dess prestanda, speciellt för videoredigeringsuppgifter. Det hjälper användare att säkerställa att deras lagring är tillräckligt snabb för högupplöst innehåll, som 4K- eller 8K-video.

I Blackmagic-hastighetstestet uppnådde Dell PowerEdge R770-bosskortet med speglad SK hynix 480GB Dell NVMe en läshastighet på 3,010.3 976.3 MB/s och en skrivhastighet på XNUMX MB/s.

Slutsats

Dell PowerEdge R770 upphetsar oss verkligen, drivet av dess antagande av Open Compute Projects Data Center Modular Hardware System-standard och banbrytande hårdvara. Integrationen av OCP DC MHS ger många fördelar, inklusive förbättrad modularitet, förbättrad servicebarhet och potentiellt minskade kostnader genom ökad standardisering. Denna designfilosofi är uppenbar i alla aspekter av systemet, från implementering av iDRAC som en OCP DC-SCM ner till portarna.

R770 har också imponerande lagringskapacitet och stöder upp till 40 E3.S-enheter i ett enda 2U-chassi, vilket gör den till en idealisk lösning för lagringsintensiva arbetsbelastningar. Dessutom förbättras serverns flexibilitet ytterligare genom dess stöd för olika konfigurationer, inklusive en Front I/O Cold Aisle Accessible-konfiguration, vilket ger större flexibilitet för olika datacenterlayouter och servicekrav.

Med stöd för en bred lista av GPU:er och Intels Xeon 6 Performance-kärnprocessorer är R770 verkligen ett kraftpaket och mångsidig serverplattform väl lämpad för att möta kraven från moderna datacenter. Dess banbrytande hårdvara, modulära design och robusta säkerhetsfunktioner gör R770 till ett attraktivt alternativ för organisationer som vill implementera AI, HPC och traditionella företagsarbetsbelastningar.

Dell PowerEdge

Engagera dig med StorageReview

Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde