Hem FöretagAI Dell PowerEdge XE9680 – Det ultimata AI-kraftpaketet

Dell PowerEdge XE9680 – Det ultimata AI-kraftpaketet

by Kevin OBrien och Divyansh Jain

Dell PowerEdge XE9680 står som ett bevis på innovation inom företagsdatorer, vilket ger kunderna den ultimata GPU-flexibiliteten.

PowerEdge XE9680 representerar Dells hittills mest mångsidiga AI-infrastrukturplattform. Den kombinerar en PowerEdge R760-liknande 2U-beräkningsnod med en massiv 4U GPU-låda. Denna innovativa 6U-design kombinerar det bästa från Dells företagsserverteknik med oöverträffad GPU-densitet och flexibilitet.

I kärnan stöder XE9680 dubbla Intel Xeon Scalable-processorer, och erbjuder ett val mellan 5:e generationen med upp till 64 kärnor per CPU eller 4:e generationen med upp till 56 kärnor. Minneskapaciteten är betydande och stöder upp till 4 TB DDR5-minne över 32 DIMM-platser, med upp till 5600 MT/s med de senaste processorerna.

Det som verkligen skiljer XE9680 är dess GPU-kapacitet. Plattformen stöder åtta kraftfulla GPU:er. Tillgängliga konfigurationer inkluderar NVIDIAs HGX H200 (141GB) och H100 (80GB), AMD:s Instinct MI300X (192GB) och Intels Gaudi3 (128GB). Den nyintroducerade XE9680L varianten stöder NVIDIA:s nästa generations B200 GPU:er och direkt vätskekylning, vilket pressar på kuvertet för densitet och prestanda.

Lagringskonfigurationer är lika flexibla och erbjuder 8x 2.5" NVMe/SAS/SATA-enheter eller 16x E3.S NVMe-enheter. Systemet kan utrustas med Dells H965i NVMe PERC RAID-kort, vilket förenklar lagringsredundans som är betydande för stora KV-cachar under slutledningsarbetsbelastningar.

Kraftleveransen är konstruerad för maximal tillförlitlighet. Sex nätaggregat på totalt 19200W är konfigurerade i ett 3+3 feltolerant redundant (FTR) arrangemang. När två eller flera nätaggregat misslyckas går systemet in i ett feltolerant redundant läge istället för att stängas av. I det här läget aktiveras GPU-strömbromsen, vilket stryper GPU-klockorna till en fjärdedel, vilket resulterar i ungefär en femtedel av typisk GPU-prestanda.

Detta genomtänkta designval är ovärderligt i storskaliga träningsmiljöer där hundratals eller tusentals GPU:er arbetar tillsammans. Istället för att låta en nod gå helt offline – vilket skulle kräva omschemaläggning och upprepade träningsupprepningar på en annan nod – kan systemet fortsätta att fungera med reducerad prestanda tills nästa underhållsfönster. Sådan uppmärksamhet på detaljer i energihantering hjälper till att upprätthålla hög modellträningsgenomströmning (MFU) genom att minimera störningar.

Expansionsmöjligheterna är omfattande, med upp till 10 PCIe Gen5 x16 kortplatser i full höjd och halv längd, varav två stöder kort med högre effekt än 75W. Detta överflöd av PCIe-anslutning möjliggör olika nätverkskonfigurationer, inklusive DPU:er och SmartNIC:er, viktiga för att bygga modern AI-infrastruktur.

Dell XE9680

Fullständiga specifikationer:

Specifikation Detaljer
Processorn Upp till två 5:e generationens Intel® Xeon® skalbara processorer (64 kärnor per CPU)
Upp till två 4:e generationens Intel® Xeon® skalbara processorer (56 kärnor per CPU)
GPU-alternativ XE9680:
– NVIDIA HGX H200 (141GB) SXM5 700W
– NVIDIA HGX H100 (80GB) SXM5 700W
– AMD Instinct MI300X (192GB) OAM 750W
– Intel Gaudi3 (128GB) OAM 900W
Minne 32 DIMM-platser
5600 MT/s (5:e generationen)
4800 MT/s (4:e generationen)
lagring Front Drive Bays:
8x 2.5" NVMe/SAS/SATA (max 122.88 TB)
16x E3.S NVMe (max 122.88 TB)
Lagringskontrollrar Interna kontrollanter:
PERC H965i (stöds inte med Intel Gaudi3) Intern start:
Boot Optimized Storage Subsystem (NVMe BOSS-N1): HWRAID 1, 2 x M.2 SSD:er
PCIE-slots PCIe-platserUpp till 10x PCIe Gen5 x16-platser
(8 platser med Intel Gaudi3)
nätverks 1x OCP 3.0 (valfritt)
2x 1GbE LOM
Nätaggregat 3200W titan (277 VAC)
2800W titan (200-240 VAC)
Mått Höjd: 10.36 "(263.20mm)
Bredd: 18.97 "(482.00mm)
Djup: 39.71 tum (1008.77 mm) med ram
Vikt Upp till 251.44 lbs (114.05 kg)
Formfaktor 6U rackserver
Verksamhetsledningen Inbäddad / At-the-Server:
iDRAC9
iDRAC Direct
iDRAC RESTful API med RedfishiDRAC Service Module Consoles:
CloudIQ för PowerEdge-plugin
OpenManage Enterprise
OpenManage Power Manager-plugin
OpenManage Service-plugin
OpenManage Update Manager-pluginverktyg:
Dell Systemuppdatering
Dell Repository Manager
Företagskataloger
iDRAC RESTful API med Redfish
IPMI
RACADM CLIOpenManageIntegrations:
BMC Truesight
OpenManage Integration med ServiceNow
Säkerhet Kryptografiskt signerad firmware
Data at Rest Encryption (SEDs med lokal eller extern nyckelhantering)
säkra Boot
Säker komponentverifiering (kontroll av maskinvaruintegritet)
Säker radera
Silicon Root of Trust
Systemlåsning (kräver iDRAC9 Enterprise eller Datacenter)
Kylning Luftkyld

Dell PowerEdge XE9680 Bygg och design

PowerEdge XE9680 är en imponerande hårdvara som mäter 10.36 tum (263.20 mm) på höjden, 18.97 tum (482.00 mm) i bredd och 39.71 tum (1008.77 251.44 mm) på djupet med ramen fäst. När den är fulladdad väger den 114.05 kg (100 lbs). GPU-valet kommer att ha sista ordet om vikten, med NVIDIA H200/H238-modellen som kommer in på 300 lbs, medan AMD MI251X-enheten tippar vågen till XNUMX lbs.

Detta var den första servern som krävde noggrann eftertanke för att kunna laddas in ordentligt i vår testmiljö. När du tänker på servervikten och antalet personer som behövs för att racka hårdvara, finns det ett visst rörelseutrymme att gå utanför gränserna, men vid en viss tidpunkt är det inte en eller två personer som lyfter den ensam. Dell är vänlig nog att ge dig ett "lyftbord" för att hjälpa dig förstå hur den här plattformen passar in. För alla som undrar, Kevin laddade själv XE9680 i racket.

Chassivikt Beskrivning
40 pund – 70 pund Rekommendera två personer att lyfta.
70 pund – 120 pund Rekommendera tre personer att lyfta.
≥ 121 pund En serverlyft krävs.

Trots sin komplexitet och Dells rekommendation för specialiserade servicetekniker har XE9680 anmärkningsvärt användarvänliga serviceelement. Serverns paneler innehåller detaljerade serviceinstruktioner och tydlig grafik, vilket gör underhållsprocedurerna överraskande lättillgängliga för erfaren IT-personal. Dessa visuella guider visade sig vara ovärderliga under vår praktiska tid med systemet, vilket gjorde att vi kunde serva olika komponenter på ett säkert sätt.

Efter att ha öppnat locket på PowerEdge XE9680, när du väl kommer förbi de många strömkablarna från den lilla transformatorstationen på toppen, ser den mycket ut som en PowerEdge R760. Vår enhet drevs av två Intel Xeon Platinum 8468-processorer, var och en med 48 kärnor vid 2.1Ghz. Varje processor erbjuder 80 PCIe-banor, som flödar genom en hel del PCIe-switchar i den här enheten för att stödja GPU:er, NIC:er och annan hårdvara som laddas in i XE9680.

En av de mest imponerande tekniska funktionerna är PCIe Switch Board (PSB) design. Dessa kort ger anslutning för upp till 10 ytterligare PCIe-kort i full höjd och halvlängd (varav två kan överstiga 75 W strömförbrukning) och integreras direkt med GPU-baskortet. Denna direkta integration möjliggör GPU-direkt-teknik, vilket gör att SSD:er och nätverkskort kan kommunicera direkt med GPU:erna, kringgå CPU:n och minska latensen för I/O-intensiva AI-arbetsbelastningar.

Varje expansionskortplats stöder ett fullständigt PCIe Gen5 x16-gränssnitt, inklusive de två nedre kortplatserna längst till vänster och till höger i layouten. Medan de åtta övre kortplatserna är anslutna via sina egna PSB, ansluts de två nedre kortplatserna direkt till PCIe Base Board (PBB). Dessa två kortplatser stöder även dragkort med hög effekt. Dessutom bör det noteras att PCIe-layouten varierar något beroende på vilken GPU-typ som valts för PowerEdge XE9680. De AMD-utrustade modellerna stöder inte SmartNIC/DPU:er, och Intel Gaudi3-modellerna har två kortplatser blockerade på grund av luftflödesproblem.

Kylning är ett annat område där Dells tekniska expertis lyser. Systemet använder upp till 16 högpresterande fläktar av guld - sex i mitten av facket och tio på baksidan. PowerEdge XE9680 stöder ett brett utbud av installationsscenarier, med omgivningstemperaturer från 10 till 35 C (30 C med Intel Gaudi3 GPU:er). Med full lutning flyttar servern imponerande 1,200 XNUMX CFM in i den varma gången.

Denna robusta kyllösning klarar även de mest krävande termiska belastningarna, inklusive AMD MI300X, Intel Gaudi3 eller NVIDIA H100 GPU, samtidigt som den bibehåller optimala driftstemperaturer. PowerEdge XE9680 sjunger ganska mycket under belastning när det gäller bruseffekt. Dell erbjuder ett fullständigt akustiskt specifikationsblad för XE9680 under olika situationer, men det är ganska lätt att säga att det kommer att vara en högljudd plattform under belastning.

Verksamhetsledningen

XE9680:s hanteringsmöjligheter är uppbyggda kring Dells företagsbeprövade iDRAC9, som ger omfattande serverlivscykelhantering och övervakning. Denna iteration av iDRAC ger flera AI-optimerade funktioner, inklusive detaljerad GPU-telemetri, energiförbrukningsanalys och omfattande termisk övervakning designad för AI-arbetsbelastningar med hög densitet.

Plattformens hanteringsstack är särskilt anmärkningsvärt för AI-infrastrukturinstallationer. Genom iDRAC9:s RESTful API med Redfish-stöd kan organisationer programmässigt övervaka och hantera GPU-användning, minnesbandbredd och termiska förhållanden – kritiska mått för att bibehålla optimal AI-träning och slutledningsprestanda. Systemets integration med OpenManage Enterprise möjliggör hantering av flera XE9680:or i hela flottan genom en enhetlig konsol, vilket är viktigt för storskaliga AI-kluster.

Säkerhet och efterlevnad är grundläggande delar av förvaltningsarkitekturen. Plattformen implementerar Silicon Root of Trust och Secure Component Verification, vilket säkerställer hårdvaruintegritet från uppstart till drift. Dessa funktioner är särskilt värdefulla när du kör känsliga AI-arbetsbelastningar eller hanterar proprietära modellvikter.

Funktionen för prediktiv felanalys, som drivs av CloudIQ-integration, använder maskininlärning för att förutse potentiella hårdvaruproblem innan de påverkar arbetsbelastningen. Detta proaktiva tillvägagångssätt är särskilt avgörande för långvariga AI-utbildningsjobb, där oväntade driftstopp kan resultera i dagar av förlorad beräkning. I kombination med Dells ProSupport Plus-tjänst utlöser denna förutsägande förmåga automatiskt skapande av fodral och leverans av delar, vilket ofta resulterar i förebyggande underhåll innan systemförsämring inträffar.

För organisationer som behöver integration med befintliga hanteringsverktyg, stöder XE9680 olika hanteringsramverk genom OpenManage-integrationer, inklusive ServiceNow och BMC TrueSight, vilket möjliggör sömlös inkorporering i etablerade arbetsflöden för IT-tjänstehantering.

iDRAC9-gränssnittet ger detaljerad realtidsövervakning av kritiska komponenter via en intuitiv instrumentpanel. GPU-övervakning visar omfattande mätvärden, inklusive temperatur, strömförbrukning och utnyttjandegrad för alla åtta acceleratorer, vilket är avgörande för att optimera AI-arbetsbelastningsfördelningen.

Gränssnittet för lagringsövervakning ger omedelbar insyn i diskens hälsa, temperatur och prestandamått över NVMe-arrayen, vilket är särskilt värdefullt vid hantering av högkapacitets-inferenscacher och träningsdatauppsättningar.

Minne, lagring och skala

De åtta AMD MI300X GPU:erna inuti Dell PowerEdge XE9680 representerar ett betydande steg i GPU-minneskapacitet, och erbjuder 192 GB HBM3-minne per kort jämfört med NVIDIA H200:s 141 GB. Denna 36 %-iga ökning av minneskapacitet är inte bara en siffra på ett specifikationsblad – det är avgörande för implementering av stora språkmodeller.

Denna enorma minnespool, tillsammans med MI300X:s 5.3 TB/s minnesbandbredd, gör det möjligt för organisationer att köra flera instanser av mindre modeller eller partitionera större modeller över GPU:er samtidigt som hög genomströmning och låg latens bibehålls.

För att sätta detta i perspektiv kan Metas Llama 3.1 405B-modell, som kräver norr om 1 TB VRAM i BF16, bekvämt fördelas över en enda XE9680 med MI300X GPU:er utan kvantisering och full kontextlängd på 128k. Detta eliminerar potentiell kvalitetsförlust i samband med kvantiseringstekniker och möjliggör fler Tokens/Second jämfört med att ha modellen fördelad över två servrar.

För att maximera vårt lagringsfotavtryck använde vi Solidigm 61.44TB enheter för att fungera som en sofistikerad förlängning av minnet och överbrygga gapet mellan höghastighets GPU-minne och traditionell lagring. SSD:erna utmärker sig när det gäller att lagra nyckel-värde-cachepar under slutledning, vilket effektivt utökar GPU:s minneskapacitet för långa sammanhangsgenerationer. Deras enorma kapacitet och NVMe-prestanda gör dem idealiska för snabb modellviktsåtkomst, vilket möjliggör effektivt modellbyte och varma starter.

I applikationer som Metrum AI-distributionen som vi beskriver nedan, drar SSD:erna dubbelt upp som lagringsbackend för vektordatabaser, och levererar den prestanda som krävs för likhetssökningar i realtid samtidigt som kapaciteten för omfattande inbäddningslagring bibehålls.

Dell poweredge xe9680 med Solidigm P5336

Värdet av dessa högkapacitetsenheter sträcker sig bortom slutsatser till utbildningsarbetsflöden. De tillhandahåller idealisk lokal lagring för att köa träningsbatcher, vilket minskar nätverkskostnader genom att hålla data närmare beräkningsresurserna. Under träningen utmärker sig dessa enheter när det gäller att lagra modellkontrollpunkter lokalt, vilket är avgörande för att upprätthålla träningsframsteg och möjliggöra snabb återhämtning. Denna lokala lagringsstrategi hjälper också till att optimera nätverksanvändningen genom att minska den omedelbara nätverkstrafiken efter varje bearbetat lager och batch.

Även om kapaciteten på 61.44 TB över åtta fack i XE9680 låter lovande, kommer det mycket mer kapacitet. Med Solidigms nyannonserade 122.88TB-enhet, kan lagringstätheten i XE fördubblas till nästan en petabyte för ytterligare träningsoptimeringar och längre livslängd inferenscacher.

Metrum AI Healthcare Assistant – Revolutionerande patientvård

Sjukvårdssektorn står konsekvent inför en utmaning i att hantera tidskrävande patientdokumentation och journalhantering, vilket ofta förringar den direkta patientvården. Metrum AI:s Healthcare Assistant, utplacerad på Dell PowerEdge XE9680-servrar med AMD-acceleratorer, exemplifierar hur avancerad AI-infrastruktur kan förändra sjukvårdens arbetsflöden, förbättra effektiviteten och förbättra patientresultaten.

Systemet använder Llama 3.1 70B Instruct som sin primära språkmodell, känd för sin förståelse av medicinska sammanhang. Detta gör att den enkelt kan bearbeta komplexa patientdata. Denna språkmodell är ihopkopplad med inbäddningsmodellen gte-v1.5 och Milvus Vector DB, vilket ger en robust grund för naturlig språkbehandling och kontextuell förståelse som är väsentlig för hantering av medicinska data.

Metrum AI:s Healthcare Assistant inkluderar också ett multimodalt tillvägagångssätt som innehåller HistoGPT för histopatologisk bildanalys och OpenAI:s Whisper för realtidstranskription av läkaranteckningar. Tillsammans effektiviserar dessa modeller kliniska arbetsflöden, så att läkare kan tala naturligt medan systemet transkriberar, kategoriserar och integrerar information i patientjournaler i realtid.

Metrum AI inser att även om individuella patientdata kan vara relativt små, kan de kombinerade lagringsbehoven för högtrafikerade sjukhus eskalera till hundratals terabyte. Dell PowerEdge XE9680 kan hantera detta med sin lokala inbyggda NVMe-lagring. Vår konfiguration erbjuder åtta 2.5-tums U.2 NVMe-lagringsfack som arbetar med PCIe Gen4-hastigheter. Medan vi testade XE9680 med 61.44 TB Soldigim D5-P5336 QLC SSD-enheter, kan denna kapacitet skalas ytterligare. Soldigim lanserade nyligen sin nya D5-P5336 122.88TB QLC-modeller, vilket fördubblar kapaciteten hos deras redan massiva SSD-enheter samtidigt som de behåller samma prestanda.

Metrum gav uppskattningar av hur patientdata översätts över tid över olika scenarier. När du räknar ut det till total lagringskapacitet kan du se hur många ytterligare patienter en enhet kan stödja med SSD:er med högsta kapacitet. Om man tar det uppskattade dataavtrycket per patient och går emot den användbara kapaciteten för varje SSD (57TB för 61TB SSD och 114TB för 122TB SSD), kan vi se att att ha täta SSD:er avsevärt ökar vad du kan lagra på servern på ett meningsfullt sätt varje år.

Total årlig uppskattning per patient Anmärkningar Beräknad lagring Patienter per 61TB SSD Patienter per 122TB SSD
Förbättrade lagringsbehov (DICOM-bilder/varianter, förstärkningar, bearbetade kopior, ljudtranskriptioner, detaljerade register) Inkluderar flera bildkopior, ljudtranskriptioner och skivor ~ 8.4 GB 6,786 13,571
Scenario för hög lagring (tung bearbetning, frekventa besök) Täta besök, höga krav på bildbehandling ~ 10.5 GB 5,428 10,857

Även om de initiala 1-årsuppskattningarna verkar ganska höga, är det viktigt att notera att patientdata inte är statiska. Du kommer att få in ny data och nya besök planerade, vilket ökar efterfrågan på lagring. Det är här lagring spelar en betydande roll i det medicinska bildbehandlingsutrymmet. Ytterligare lagringskapacitet påverkar direkt hur många patienter en lösning effektivt kan stödja.

Total 10-års lagringsuppskattning per patient Anmärkningar Beräknad lagring Patienter per 61TB SSD Patienter per 122TB SSD
Förbättrat scenario (flera kopior, detaljerade poster, ljud, förstärkningar) Utökade register, frekvent bildbehandling och bearbetning ~ 84 GB 679 1,357
Högt scenario (tung bearbetning, omfattande historik) Maximalt bearbetnings- och lagringsbehov över 10 år ~ 105 GB 543 1,086

Dell PowerEdge XE9680, utrustad med AMD MI300X-acceleratorer och integrerad med Metrum AI:s Healthcare Assistant, ger en skalbar och effektiv lösning för vårdgivare. Genom att automatisera tidskrävande uppgifter och möjliggöra snabb åtkomst till kritiska insikter, gör den här installationen det möjligt för läkare att fokusera mer på patientvård samtidigt som de hanterar växande krav. Genom sömlös integrering av AI-komponenter över språk-, bild- och röstmodaliteter representerar Healthcare Assistant ett betydande framsteg inom AI-drivna hälsovårdslösningar, vilket minskar administrativa bördor och förbättrar det övergripande patientresultatet.

Slutsats

I det växande landskapet för företags-AI sätter Dell PowerEdge XE9680 en ny standard och visar hur specialbyggd hårdvara kan revolutionera olika branscher. Implementeringen av Metrum AI Healthcare Assistant visar upp en av de otaliga möjligheterna – föreställ dig att finansinstitutioner kör komplexa riskanalysmodeller i realtid eller forskningslaboratorier som bearbetar enorma datauppsättningar för läkemedelsupptäckt, alla drivna av detta enastående system.

XE9680 erbjuder exceptionell mångsidighet i GPU-alternativ, från NVIDIAs H100s till AMDs MI300X och Intels Gaudi3. Denna flexibilitet, i kombination med dess robusta minneskapacitet, lagringsmöjligheter och innovativa kylningslösningar, gör den till mer än bara en AI-server – det är en komplett företagsdatorplattform som kan hantera de mest krävande arbetsbelastningarna i olika applikationer, oavsett om det är i datacentret eller läkarmottagning.

Ur ett lagringsperspektiv har servern bara åtta NVMe-fack, men tack vare Solidigm kan vi använda deras 61.44TB SSD:er för att få in nästan en halv petabyte i systemet som arbetsutrymme för sjukvårdsassistenten som vi beskrev ovan. Om det inte räcker så meddelade Solidigm precis att de har fördubblat kapaciteten hos D5-P5336 till 122.88 TB, vilket innebär att system som detta kan få plats med ungefär en petabyte flash-lagring intill sin accelerator, vilket möjliggör effektiva AI-arbetsbelastningar.

Dells teknik lyser igenom i alla aspekter av XE9680, från dess genomtänkta energihanteringsfunktioner till dess användarvänliga service. Plattformens förmåga att upprätthålla drift även under partiella strömavbrott visar Dells djupa förståelse för AI-krav, där systemtillförlitlighet och kontinuerlig drift är av största vikt.

Uppbackad av Dells omfattande supportinfrastruktur och engagemang för att förbättra AI-kapaciteten genom olika initiativ, står PowerEdge XE9680 som ett bevis på innovation inom företagsdatorer. Tack vare sin kombination av rå beräkningskraft, arkitektonisk flexibilitet och tillförlitlighet i företagsklass har den fått ett förnyat Best of 2024-pris.

Metrum AI

Dell XE9680 produktsida

Solidigm lagring

Engagera dig med StorageReview

Nyhetsbrev | Youtube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Rssflöde

Den här recensionen skrevs av Kevin O'Brien och Divyansh Jain