Der Markt für KI-Infrastruktur entwickelt sich nicht linear, sondern teilt sich in zwei unterschiedliche Bereiche. Auf der einen Seite stehen hochmoderne Trainingscluster, die für die Entwicklung von Basismodellen in großem Umfang konzipiert sind und eng mit proprietären Systemen und einer begrenzten Anzahl von Beschleunigern verknüpft sind. Auf der anderen Seite steht die rasant wachsende Realität der Unternehmensinferenz, bei der Unternehmen Modelle einsetzen, um Nutzern zu dienen, Echtzeitdaten zu verarbeiten und messbaren Geschäftswert zu generieren. Der Dell PowerEdge XE7740 wurde speziell für diesen zweiten Bereich entwickelt.
Wichtige Erkenntnisse
- Der PowerEdge XE7740 wurde für Enterprise-Inferenzsysteme entwickelt. mit Dual-Zone-Kühlung, strukturierter PCIe Gen5-Topologie und Scale-Out-Netzwerk, abgestimmt auf reale Produktionsworkloads.
- Das Systemgleichgewicht ist beabsichtigt. Die Kombination aus Xeon 6-Kerndichte, hoher Speicherbandbreite und PCIe Gen 5 E3.S NVMe unterstützt KV-Cache-Offloading und -Orchestrierung.
- Die Flexibilität von Silizium ist grundlegend. Unterstützung einer breiten Palette von PCIe Gen5-Beschleunigern, ohne dass eine Neugestaltung der Infrastruktur erforderlich ist.
- Die Plattform skaliert im Laufe der Zeit problemlos. von der teilweisen GPU-Bestückung in einem einzelnen Gehäuse bis hin zur verteilten Inferenz über mehrere Racks hinweg unter Verwendung von acht dedizierten Gen5 x16 Netzwerksteckplätzen auf der Rückseite.
Im Zentrum des XE7740 steht die Vielfalt der verwendeten Chips. Anstatt die Plattform auf eine einzige Beschleuniger-Roadmap zu beschränken, hat Dell ein System entwickelt, das sich an Verfügbarkeit, Kosten und die Bedürfnisse der jeweiligen Organisation anpasst. Der XE7740 unterstützt eine Reihe von PCIe Gen5-Beschleunigern, darunter NVIDIAs RTX PRO 6000, H100/200, L40S, L4 und A16 GPUs für Unternehmen, die Wert auf umfassende Ökosystemkompatibilität legen, sowie Intel Gaudi 3 für Teams, die eine kostengünstigere und sofort verfügbare Inferenzlösung suchen. Gaudi 3-Beschleuniger sind ab sofort verfügbar, sodass Unternehmen die Planung und Implementierung ohne die oft üblichen Verzögerungen bei der Beschaffung vorantreiben können.
Da Inferenz immer mehr zum dominierenden KI-Workload wird, sind Verfügbarkeit und Kostenstruktur entscheidend. Die meisten Unternehmen trainieren keine hochmodernen Modelle. Sie betreiben Inferenz-Pipelines, nutzen mittelgroße Sprachmodelle, unterstützen Retrieval-basierte Generierungs-Workflows und setzen Computer Vision produktiv ein. In diesem Kontext positioniert sich Gaudi 3 als einer der kostengünstigsten modernen Inferenzbeschleuniger auf dem Markt. Er bietet eine zeitgemäße Architektur mit Speicher hoher Bandbreite und Ethernet-basierter Skalierbarkeit ohne die hohen Kosten von Flaggschiff-Trainings-GPUs. Innerhalb der XE7740 geht es bei Gaudi 3 weniger um die Verdrängung herkömmlicher Systeme, sondern vielmehr um die Ermöglichung nachhaltiger Inferenz-Implementierungen.
Die Plattform um die Beschleuniger ist ebenso durchdacht. Der XE7740 basiert auf Intel Xeon 6 Prozessoren, und in inferenzorientierten Systemen bleibt die CPU eine kritische Komponente. Hohe Kernanzahl und erhöhte Speicherbandbreite bieten den nötigen Spielraum für Scheduler, Tokenisierung, Vorverarbeitung und Orchestrierungsaufgaben, die direkt auf dem kritischen Pfad der Inferenz liegen. Frontseitig montierter E3.S NVMe-Speicher unterstützt zudem lokales Daten-Staging und KV-Cache-Offloading, wodurch die Beschleunigerlast reduziert und die Gesamtsystemeffizienz verbessert wird. Dieses ausgewogene Design spiegelt das Verständnis wider, dass die Inferenzleistung vom gesamten System und nicht allein von den Beschleunigern abhängt.
Der XE7740 ist so konzipiert, dass er sich im Laufe der Zeit problemlos skalieren lässt. Unternehmen können mit einer einfachen Konfiguration, beispielsweise zwei oder vier Beschleunigern, beginnen und sofort von den Vorteilen profitieren, ohne das Gehäuse vollständig auszulasten. Mit steigenden Anforderungen lässt sich dieselbe Plattform vertikal skalieren oder auf verteilte Inferenz umstellen. Acht rückseitige PCIe Gen5 x16-Steckplätze bieten dedizierte Bandbreite für Hochgeschwindigkeitsnetzwerke und machen den XE7740 so zum idealen Baustein für skalierbare Inferenzcluster. Die optionale DPU-Unterstützung erweitert diese Flexibilität zusätzlich, indem sie Netzwerk- und Kommunikationsaufgaben mit zunehmender Größe der Implementierung auslagert.
Wichtigste Spezifikationen des Dell PowerEdge XE7740
| Normen | PowerEdge XE7740 |
|---|---|
| Funktionen des PowerEdge XE7740 | |
| Prozessor | Zwei Intel® Xeon® Prozessoren der 6er Serie mit bis zu 86 Kernen pro Prozessor |
| Spielautomaten | |
| PCIe-Beschleuniger | 8x PCIe Gen 5 x16 DW-FHFL bis zu 600 W, oder
16x PCIe Gen 5 x16 SW-FHFL bis zu 75 W |
| PCIe-Netzwerkkarten |
|
| Formfaktor | |
| Formfaktor | 4U-Rack-Server |
| Memory | |
| DIMM-Geschwindigkeit, maximale Kapazität | Bis zu 6400 MT/s, maximal 4 TB |
| Speichermodulsteckplätze | 32 DDR5-DIMM-Steckplätze Unterstützt nur registrierte ECC DDR5 RDIMM. |
| Lagerung | |
| Vordere Buchten | Bis zu 8 x EDSFF E3.S Gen5 NVMe (SSD) max. 122.88 TB |
| Speichercontroller | |
| Interner Boot | Bootoptimiertes Speichersubsystem (BOSS-N1 DC-MHS): HWRAID 1, 2 x M.2
NVMe SSDs |
| Energieversorgung | |
| Energieversorgung | 3200 W Titanium, 200–240 V AC oder 240 V DC, Hot-Swap-fähig, redundant
Mehrere Kapazitäten für 3200-W-Netzteile:
Mehrere Kapazitäten für 2400-W-Netzteile:
ACHTUNG: Das System benötigt mindestens ein Netzteil im CPU-Bereich und ein Netzteil im GPU-Bereich, um den BMC-Betrieb und den Standby-Betrieb aufrechtzuerhalten. Ist im GPU-Bereich kein Netzteil installiert, bleibt das System im Wartemodus. Um vollständige Redundanz zu gewährleisten, installieren Sie in jedem Bereich N+N Netzteile: 1+1 im CPU-Bereich und 3+3 im GPU-Bereich. Das Entfernen aller Netzteile aus dem CPU-Bereich bei eingeschaltetem System führt zu einem sofortigen Herunterfahren und kann Datenverlust zur Folge haben. |
| Kühloptionen | |
| Kühloptionen | Luftkühlung |
| Ventilatoren | Bis zu vier Sätze Hochleistungslüfter (HPR) in Platinqualität (Doppellüftermodul) sind im mittleren Fach installiert.
Bis zu zwölf Hochleistungslüfter (HPR) in Platinqualität sind an der Vorderseite des Systems installiert. Alle sind Hot-Swap-Lüfter |
| Ports | |
| Netzwerkoptionen | 1 PCIe Gen 5 OCP 3.0 kompatible E/A (unterstützt durch x8 PCIe-Lanes) |
| Frontanschlüsse | 1 x USB 2.0 Typ-A (optional) 1 x Mini-DisplayPort (optional) 1 x USB 2.0 Typ-C Dual-Mode (Host/iDRAC Direct-Anschluss) |
| Hintere Anschlüsse | 1 x Dedizierter iDRAC/BMC-Direkt-Ethernet-Port 2 x USB 3.1 Typ A-Anschluss 1 x VGA |
| Interne Ports | 1 x USB 3.1 Typ A |
XE7740 Design und Bau
Dual-Zone-Architektur: Trennung von CPU und GPU
Eine der markantesten Designentscheidungen des XE7740 ist die physische Trennung in zwei separate Bereiche für Kühlung und Stromversorgung. Der obere 1U-Bereich beherbergt die CPU-Zone mit den beiden Xeon 6-Prozessoren, allen 32 DIMM-Steckplätzen, dem Speicher und dem DC-SCM-Managementmodul. Die CPU-Zone wird von vier leistungsstarken Doppellüftermodulen (40 × 40 × 56 mm) mit einem Luftdurchsatz von 47.4 CFM gekühlt.
Der untere 3U-Bereich ist die GPU-Zone. Hier befinden sich alle Beschleunigersteckplätze mit eigener Kühlinfrastruktur, die PCIe-Basisplatine (PBB), rückseitige PCIe-Erweiterungssteckplätze und die OCP-Netzwerkschnittstelle. Die GPU-Zone ist mit zwölf größeren Hochleistungslüftern (60 × 60 × 56 mm) ausgestattet, die im Vergleich zu den CPU-Lüftern eine deutlich höhere Luftdurchsatzleistung von bis zu 122.2 CFM pro Lüfter bieten. Alle Lüfter sind im laufenden Betrieb austauschbar. Dank dieser Zweizonen-Kühlung wird sichergestellt, dass die Wärmeanforderungen von Beschleunigern mit hoher TDP (bis zu 600 W pro Karte) die Kühlung von CPU und Arbeitsspeicher nicht beeinträchtigen und umgekehrt – und das in einem 19-Zoll-Standardrack.
Dell hat beim XE7740 besonderes Augenmerk auf die Optimierung des Luftstroms gelegt. Systeme mit hoher Beschleunigerdichte benötigen naturgemäß eine umfangreiche interne Verkabelung, darunter die Hilfsstromversorgung der GPU, PCIe-Signalkabel zwischen HPM-Board und PBB sowie Lüfteranschlüsse. Beim XE7740 werden diese Kabel mithilfe spezieller Kabelhalterungen und Kabelabdeckungen an den Seitenwänden des Gehäuses verlegt. Jedes Kabel ist exakt auf die benötigte Länge zugeschnitten; es gibt keine überflüssigen Kabelbündel im System. Durch die Vermeidung von Kabeln im zentralen Luftstromkanal wird ein freier Luftstrom von vorne nach hinten gewährleistet und der Luftwiderstand in den Kühlzonen von CPU und GPU minimiert.
In einem Gehäuse mit bis zu acht 600-Watt-Beschleunigern können selbst kleine Hindernisse im Luftstrom lokale Überhitzungen verursachen und die Lüfterdrehzahl erhöhen – was sowohl den Stromverbrauch als auch die Geräuschentwicklung steigert. Dells Kabelmanagement sorgt dafür, dass der mittlere Teil des Gehäuses frei bleibt und die Komponenten, die sie am meisten benötigen, ungehindert und direkt mit Luft versorgt werden.
PCIe-Switch-Topologie und Datenfluss
Das PCIe-Subsystem des XE7740 basiert auf vier PCIe Gen 5-Switches auf dem PBB (PCIe Base Board), die als SW1 bis SW4 bezeichnet sind. Diese Switches bilden das Rückgrat der I/O-Architektur des Systems und verbinden Beschleuniger, Netzwerk und Speicher in einer sorgfältig organisierten Topologie mit den beiden Xeon 6-Prozessoren.
Die 16 internen GPU-Steckplätze sind in zwei Gruppen zu je acht Steckplätzen unterteilt. Jede Gruppe wird von zwei PCIe-Switches bedient, die jeweils mit einer CPU verbunden sind. Innerhalb jeder Gruppe wechseln sich benachbarte GPU-Steckplätze doppelter Breite über die beiden Switches ab. Auf der CPU0-Seite bedient SW1 die GPU-Steckplätze 21 und 25 sowie die hinteren PCIe-Steckplätze 8 und 9, während SW2 die GPU-Steckplätze 23 und 27 sowie die hinteren PCIe-Steckplätze 6 und 7 bedient. Auf der CPU1-Seite bedient SW3 die GPU-Steckplätze 29 und 33 sowie die hinteren PCIe-Steckplätze 3 und 4, während SW4 die GPU-Steckplätze 31 und 35 sowie die hinteren PCIe-Steckplätze 1 und 2 bedient.
Jede CPU-Domäne verfügt daher über vier Beschleuniger-Steckplätze doppelter Breite, vier rückseitige NIC/I/O-Steckplätze und vier der acht frontseitigen E3.S NVMe-Speichereinschübe. Diese Switch-Topologie hat erhebliche Auswirkungen auf den Datenfluss, insbesondere auf RDMA-basierten Datenverkehr. Da jeder Switch sowohl Beschleuniger- als auch rückseitige NIC-Steckplätze besitzt, können ein Beschleuniger und ein Netzwerkadapter auf demselben Switch RDMA-Übertragungen vollständig innerhalb der Switch-Fabric durchführen. Die Daten müssen nie den Root-Komplex der CPU durchlaufen, wodurch der CPU-Bounce-Puffer entfällt, der andernfalls erforderlich wäre, wenn ein PCIe-Gerät an einem Root-Port mit einem Gerät an einem anderen kommuniziert. Dies reduziert die Latenz, vermeidet die Belegung wertvoller CPU-Speicherbandbreite und gibt CPU-Zyklen für andere Aufgaben frei.
Die Kommunikation innerhalb der Domäne einer einzelnen CPU zwischen ihren beiden Switches verläuft über den CPU-Root-Komplex, bleibt aber lokal auf diesen Socket beschränkt. Die Kommunikation zwischen verschiedenen CPUs muss hingegen die UPI-Verbindungen zwischen den beiden Xeon-6-Prozessoren nutzen. Der 6787P bietet vier UPI-2.0-Verbindungen mit jeweils 24 GT/s und damit eine beträchtliche Bandbreite zwischen den Sockets. Der Datenverkehr zwischen einem Beschleuniger im Switch-Bank von CPU0 und einer Netzwerkkarte im Switch-Bank von CPU1 weist jedoch naturgemäß eine höhere Latenz auf als Switch-lokale oder Socket-basierte Übertragungen.
Die Switches selbst sind nicht direkt miteinander verbunden. Der gesamte Datenverkehr zwischen den Switches läuft über den CPU-Root-Komplex. Daher ist es wichtig, die Zusammenhänge zwischen GPU-Steckplätzen, Netzwerkkartensteckplätzen, Speicher und CPU-Sockeln zu verstehen. Um diese Komplexität für Unternehmen zu vereinfachen, bietet Dell validierte und optimierte Konfigurationen für gängige Beschleuniger an.
Zweizonen-Netzteil
Die Stromversorgung des XE7740 spiegelt seine thermische Architektur wider und verfügt über ein ungewöhnliches Dual-Zone-Netzteildesign. Das System unterstützt bis zu acht im laufenden Betrieb austauschbare Netzteile, aufgeteilt in zwei Zonen: Zone 1 (CPU-Zone) beherbergt die Netzteile 1 und 2, während Zone 2 (GPU-Zone) die Netzteile 3 bis 8 aufnimmt.
Das System benötigt in jeder Zone mindestens ein Netzteil, um die Stromversorgung des BMC und den Standby-Betrieb sicherzustellen. Fällt in einer Zone die Stromversorgung aus, während das System läuft, fährt es sofort herunter, um Datenverlust zu verhindern. Die Zonen sind für den Betrieb voneinander abhängig, obwohl sie physisch und elektrisch getrennt sind. Für vollständige Redundanz empfiehlt Dell eine 1+1-Konfiguration in der CPU-Zone und eine 3+3-Konfiguration in der GPU-Zone. Das bedeutet, dass alle acht Netzteileinschübe für eine vollständig redundante Bereitstellung bestückt sein sollten.
Dell AIOps, Management und Enterprise Reliability
Die PowerEdge-Plattform von Dell genießt in der Branche einen hervorragenden Ruf für Zuverlässigkeit und Wartungsfreundlichkeit. Unternehmenskunden heben immer wieder dieselben Aspekte hervor: PowerEdge-Systeme sind auf Langlebigkeit ausgelegt, der Dell-Support löst Probleme schnell und die Management-Tools sind ausgereift und optimal integriert. Der XE7740 setzt diese Tradition fort, und Dell hat mit dieser Generation sowohl im Hardware-Management als auch in der Sicherheit bedeutende Fortschritte erzielt.
iDRAC 10
Der XE7740 ist mit Dells iDRAC 10 der nächsten Generation ausgestattet – eine deutliche Verbesserung gegenüber dem bereits leistungsstarken iDRAC 9, auf den Dell-Kunden jahrelang vertraut haben. iDRAC 10 ist als Data Center Secure Control Module (DC-SCM) gemäß dem OCP DC-MHS-Standard implementiert und stellt nicht nur ein Firmware-Update dar, sondern eine komplett neue Hardware. Der Controller verfügt über vier 1-GHz-Kerne mit 64-Bit-Architektur und 2 GB DDR4-Speicher (doppelt so viel wie die Vorgängergeneration) und bietet dadurch eine deutlich verbesserte Leistung und Reaktionsfähigkeit für Managementvorgänge.
Im Bereich Sicherheit bietet iDRAC 10 mehrere bemerkenswerte Verbesserungen. Die Plattform verfügt über eine durchgängig verbesserte kryptografische Unterstützung, darunter SHA-384- und SHA-512-Authentifizierung sowie quantensichere AES-256-Verschlüsselung, um sich auf postquantenkryptografische Bedrohungen vorzubereiten. Eine dedizierte, integrierte Sicherheitsumgebung im iDRAC-10-Chip verwaltet Funktionen zur Cybersicherheit, darunter die Geräte-Attestierung und Dells benutzerdefiniertes Root-of-Trust-Verfahren. Dieses hardwarebasierte Root-of-Trust-Verfahren stellt sicher, dass die gesamte Firmware (BIOS, iDRAC und Komponenten-Firmware) vor der Ausführung kryptografisch verifiziert wird und schützt so vor Angriffen auf die Lieferkette und Manipulationen der Firmware.
Die gesicherte Komponentenverifizierung stellt sicher, dass die vom Dell-Werk ausgelieferten Systeme exakt die vom Kunden spezifizierten Komponenten und Konfigurationen aufweisen und somit die Integrität von der Fertigung bis zur Inbetriebnahme gewährleisten. Die neueste iDRAC 10-Firmware bietet zudem eine überarbeitete, modulare Benutzeroberfläche, die die tägliche Administration vereinfacht.
OpenManage Enterprise
Für das Flottenmanagement im großen Stil bietet Dell OpenManage Enterprise (OME) zentrale Überwachung, Firmware-Updates und Konfigurationsverwaltung für gesamte PowerEdge-Bereitstellungen. Eine bemerkenswerte Neuerung für KI-orientierte Umgebungen ist die direkte Anzeige von GPU- und Beschleunigerstatistiken in OME: Stromverbrauch, Temperatur, Auslastung, Fehleranzahl und mehr – ohne separate herstellerspezifische Tools. Für Unternehmen, die Dutzende oder Hunderte von XE7740-Knoten in einem Inferenzcluster verwalten, bedeutet diese einheitliche Managementebene eine erhebliche operative Vereinfachung.
Intel-Xeon 6
Das Herzstück des XE7740 bilden zwei Intel Xeon 6 6787P Prozessoren, das Flaggschiff der Xeon 6700P Serie. Basierend auf der Granite Rapids Architektur und Intel 3 nm Technologie bietet der 6787P 86 P-Kerne (172 Threads) pro Sockel bei einer TDP von 350 W, einem Basistakt von 2.0 GHz und einem Turbotakt von 3.8 GHz.
Granite Rapids eignet sich besonders für KI-Infrastrukturen aufgrund der Kombination aus hoher Kernanzahl und leistungsstarkem Speichersystem. Jeder 6787P-Prozessor bietet acht DDR5-Speicherkanäle mit bis zu 6400 MT/s. Mit einem Dual-Socket-XE7740-Mainboard, bestückt mit 32 DIMMs, lässt sich das System auf bis zu 4 TB Gesamtspeicher konfigurieren.
Speicherkapazität und Bandbreite sind für KI-Workloads entscheidend, insbesondere bei Verwendung von KV-Cache-Offloading. Mit zunehmender Kontextlänge großer Sprachmodelle skaliert der KV-Cache proportional und kann einen erheblichen Teil des Beschleunigerspeichers belegen. Durch das Auslagern von Teilen des KV-Caches in den Systemspeicher oder auf einen schnellen Speicher kann der HBM des Beschleunigers effizienter für aktive Berechnungen genutzt werden, wodurch die Zeit bis zum ersten Token (TTFT) bei mehrstufigen Chats verkürzt wird.
Erwähnenswert sind auch die AMX-Tensor-Einheiten des Xeon 6, die einen Großteil der CPU-Arbeit übernehmen. Dazu gehören Vorverarbeitung, Tokenisierung und hybride Inferenzaufgaben mit Matrixoperationen. Dies erweist sich insbesondere bei Inferenz-Frameworks wie SGLang als nützlich, die die CPU für Radix Tree for KV Cache Management und Zero-Overhead-Scheduling nutzen.
Intel Gaudi 3 Zusatzkarten: Wettbewerbsfähige Inferenz in großem Umfang
Intels Gaudi 3 ist der Flaggschiff-KI-Beschleuniger des Unternehmens und wurde im vierten Quartal 2024 eingeführt. Intel positioniert diese Beschleuniger sehr offensiv, anstatt direkt mit den leistungsstärksten Trainingsbeschleunigern für Rechenzentren zu konkurrieren. Der Gaudi 3 zielt klar auf den Bereich der Inferenz ab.
Die Inferenz von Transformer-basierten Modellen ist in allen gängigen LLMs heutzutage grundsätzlich speichergebunden. Während der Dekodierungsphase der autoregressiven Generierung erzeugt das Modell Tokens nacheinander und liest dabei die Modellgewichte und KV-Cache-Einträge für jedes erzeugte Token. Der Flaschenhals sind nicht die Rechenkapazitäten, sondern die Speicherbandbreite, also wie schnell der Beschleuniger Daten vom HBM zu den Recheneinheiten übertragen kann.
Der Gaudi 3 verfügt über 128 GB HBM2e-Speicher mit einer Speicherbandbreite von 3.7 TB/s. Architektonisch basiert er auf TSMCs 5-nm-Prozess und verwendet ein Dual-Die-Chiplet-Design: Zwei identische Silizium-Dies sind über eine Hochgeschwindigkeitsverbindung verbunden und erscheinen der Software als ein einziges, einheitliches Gerät. Die Rechenleistung ist in vier Deep-Learning-Kerne (DCOREs) organisiert, die jeweils 2 MMEs, 16 TPCs und 24 MB lokalen SRAM-Cache enthalten. Die insgesamt 96 MB On-Die-SRAM bieten eine interne Bandbreite von 12.8 TB/s. Der Beschleuniger integriert außerdem 14 dedizierte Mediendecoder (H.265, H.264, JPEG, VP9) und ermöglicht so eine schnelle Bildvorverarbeitung für multimodale Workloads.
Ein Großteil der aktuell veröffentlichten, hochmodernen Open-Source-KI-Modelle basiert entweder auf nativem FP8-Training oder auf Hybridmodellen, die FP8- (E4M3) und BF16-Gewichte kombinieren. Der Gaudi 3 bietet native FP8-Beschleunigung für diese Modelle mit seinen 8 Matrixmultiplikations-Engines und 64 Tensorprozessorkernen und erreicht so eine FP8-Rechenleistung von 1.8 PFlops.
Der Gaudi 3 integriert außerdem RDMA over Converged Ethernet (RoCEv2) mit 24 × 200-GbE-Ports in der OAM-Version, die direkt in den Chip integriert sind. Die im XE7740 verwendete PCIe-Erweiterungskarte stellt zwar nicht alle diese Ports in gleicher Weise bereit, unterstützt aber die Bridging-Funktion für bis zu vier Karten, um eine schnellere Kommunikation zwischen ihnen zu ermöglichen.
Leistung und Benchmarks
Konfigurationsdetails des XE7740:
- 2 x Intel Xeon 6787P Prozessor (86 Kerne, 2.00 GHz)
- 2 TB DDR5 (32 x 64 GB 5200 MT/s DDR5)
- 4 x Intel Gaudi 3 PCIe AI Accelerator mit 128 GB HBM
- Ubuntu 24.04.5 Server
vLLM Online-Serving-Performance
Um die Inferenzleistung des Dell XE7740 mit Intel Gaudi 3-Beschleunigern zu evaluieren, haben wir die Online-Serving-Performance von vLLM anhand einer Reihe gängiger Modelle mit unterschiedlichen Architekturen, Parameteranzahlen und Präzisionsformaten getestet. Jedes Modell wurde in drei Workload-Profilen mit skalierenden gleichzeitigen Anfragen von 1 bis 128 geprüft.
Die LLM-Inferenz besteht aus zwei Phasen. In der Vorfüllphase werden alle Eingabe-Tokens parallel verarbeitet, bevor Ausgabe-Tokens generiert werden können. Dadurch ist diese Phase rechenintensiv und skaliert linear mit der Anzahl der Eingabe-Tokens. Die Dekodierungsphase generiert anschließend die Ausgabe-Tokens nacheinander (autoregressiv). Jedes neue Token erfordert das Einlesen der vollständigen Modellgewichte aus dem Speicher, benötigt aber relativ wenig Rechenaufwand pro Token – wodurch die Phase durch die Speicherbandbreite begrenzt ist.
Diese beiden Phasen beanspruchen grundlegend unterschiedliche Teile des Beschleunigers, daher testen wir drei Arbeitslastprofile, die das Gleichgewicht zwischen ihnen verschieben:
- Gleich (1024 Eingabe-/1024 Ausgabetoken) steht für ausgeglichene Chat-Interaktionen.
- Prefill Heavy (8192 Eingabe/1024 Ausgabe) simuliert die abrufgestützte Generierung oder die Zusammenfassung langer Kontexte, bei der das System große Eingabekontexte verarbeiten muss.
- Decode Heavy (1024 Eingabe/8192 Ausgabe) steht für die Generierung von Langformatinhalten, bei der die Speicherbandbreite den Durchsatz bestimmt.
In diesem Abschnitt konzentrieren wir uns auf zwei Hauptkennzahlen. Der gesamte Token-Durchsatz, gemessen in Token pro Sekunde, erfasst die Gesamtkapazität des Systems unter Last. Die Zeit bis zum ersten Token (TTFT) misst die Verzögerung zwischen dem Absenden einer Anfrage und dem Empfang des ersten generierten Tokens. Da das Modell die gesamte Vorbefüllungsphase abschließen muss, bevor es das erste Token ausgeben kann, ist die TTFT direkt mit dem Rechendurchsatz des Beschleunigers verknüpft. Dies macht das Szenario mit hohem Vorbefüllungsaufwand (in Kombination mit der TTFT) zu einem besonders nützlichen Indikator für die reine Rechenleistung der Gaudi-3-Beschleuniger, da das System alle 8,192 Eingabe-Tokens verarbeiten muss, bevor der Benutzer eine Antwort erhält.
Umgekehrt testet das dekodierungsintensive Szenario die Speicherbandbreite der Beschleuniger, da das System einen hohen Durchsatz für Tausende generierter Token gewährleisten muss. Die TTFT (Time-to-Fly) ist entscheidend für interaktive Anwendungen, bei denen Benutzer auf eine Antwort warten, bevor das Streaming beginnen kann. Ein System kann bei intensiver Batchverarbeitung einen exzellenten Durchsatz erzielen, sich aber dennoch träge anfühlen, wenn die TTFT zu hoch ansteigt. Daher sind beide Metriken für den Produktiveinsatz relevant.
Anmerkung zu den FP8-Präzisionsdaten: Obwohl die Intel Gaudi 3-Beschleuniger native FP8-Beschleunigung bieten (und FP8 theoretisch einen höheren Durchsatz als BF16 ermöglichen sollte), sind die FP8-Leistungswerte in unseren Benchmarks niedriger als die ihrer BF16-Pendants. Dies ist keine Hardware-Beschränkung, sondern ein Problem mit der Software-Reife in Intels vLLM-Variante. Die von uns getestete Version (vLLM-Installer 2.7.1 auf Gaudi Docker 1.22.2) hat ihre FP8-Codepfade noch nicht vollständig optimiert. Intel bietet derzeit eine neue, Plugin-basierte Version von vLLM in der Beta-Phase an, die viele dieser Leistungsprobleme beheben könnte.
Lama 3.1 8B Anweisung
Llama 3.1 8B Instruct ist ein dichtes Transformer-Modell von Meta, d. h. jeder Parameter ist für jedes generierte Token aktiv. Mit 8 Milliarden Parametern zählt es zu den Open-Source-Modellen. Modelle dieser Größenordnung sind beliebt für alltägliche Aufgaben wie das Zusammenfassen kurzer Dokumente, das Verfassen von E-Mails und Nachrichten, das Beantworten einfacher Fragen und die Unterstützung einfacher Chatbot-Interaktionen, bei denen Geschwindigkeit und Kosteneffizienz wichtiger sind als tiefgreifende Schlussfolgerungen.

Wir haben dieses Modell sowohl in der TP1-Konfiguration (einzelner Beschleuniger) als auch in der TP4-Konfiguration (alle vier Gaudi-3-Beschleuniger) getestet. In der TP1-Konfiguration erreicht das Modell bei gleicher Arbeitslast und 128 gleichzeitigen Anfragen einen Gesamtdurchsatz von etwa 8,000 kJ/s und skaliert damit sauber von rund 250 kJ/s bei einer einzelnen Anfrage. Das Szenario mit vielen Vorabfüllungen zeigt ein interessantes Muster: Während TP1 einen Spitzenwert von etwa 7,000 kJ/s erreicht, steigt der Durchsatz von TP4 bei 128 gleichzeitigen Anfragen auf über 17,900 kJ/s. Hierbei werden zusätzliche Beschleuniger genutzt, um den großen Eingabekontext effizienter zu verarbeiten.

Bei Einzelbenutzer-Latenz bietet TP1 bei geringer Parallelität tatsächlich eine niedrigere TTFT (67 ms gegenüber 98 ms bei TP4). Dies spiegelt den Mehraufwand für die Koordination von vier Beschleunigern wider, obwohl das Modell problemlos auf einem einzigen Beschleuniger laufen sollte. Mit steigender Last zieht TP4 jedoch deutlich nach vorn. Bei 128 gleichzeitigen Anfragen hält TP4 die TTFT bei gleicher Arbeitslast und Dekodierungslast bei etwa 2 Sekunden, während sie bei TP1 auf 3.7 Sekunden bzw. 6.6 Sekunden ansteigt. Der Unterschied wird im Szenario mit hohem Prefill-Anteil am deutlichsten: TP1 erreicht bei 128 Anfragen eine TTFT von fast 47 Sekunden, während TP4 sie bei etwa 11 Sekunden hält.
Lama 3.1 70B Anweisung
Llama 3.1 70B Instruct ist das größte dichte Modell der Llama 3.1-Familie von Meta. Mit 70 Milliarden Parametern bietet es deutlich bessere Fähigkeiten im Befolgen von Anweisungen und in der Mehrsprachigkeit als die 8-B-Variante. Modelle dieser Größenordnung eignen sich hervorragend für anspruchsvollere Aufgaben mit hohem Agentenanteil, wie z. B. Kundendienstmitarbeiter, mehrstufige Rechercheassistenten, komplexe Dokumentenanalyse und Aufgaben, die die Aufrechterhaltung eines kohärenten Kontextes über längere Interaktionen erfordern.

Wir haben dieses Modell mit den Konfigurationen TP2 und TP4 getestet. Der Durchsatzunterschied zwischen den beiden ist erheblich. Bei 128 gleichzeitigen Anfragen erreicht TP4 bei gleicher Arbeitslast etwa 3,600 kB/s und im Szenario mit hohem Prefill-Aufkommen einen Spitzenwert von fast 4,600 kB/s. Dies entspricht etwa dem 4.4- bzw. 4.6-Fachen des Durchsatzes von TP2, dessen Maximalwert bei etwa 816 kB/s bzw. 1,005 kB/s liegt. Selbst bei hohem Dekodierungsaufkommen erreicht TP4 etwa 1,960 kB/s, verglichen mit 593 kB/s bei TP2.

Bei der TTFT (Time-to-First-Token) stößt TP2 unter Last, insbesondere bei der prefill-intensiven Arbeitslast, an seine Grenzen und erreicht bei 128 gleichzeitigen Anfragen einen Wert von sage und schreibe 496 Sekunden. Dadurch ist es für interaktive Anwendungen praktisch unbrauchbar. TP4 reduziert diesen Wert auf etwa 73 Sekunden. Bei den Arbeitslasten „Equal“ und „Decode“ hält TP4 die TTFT bei 128 Anfragen bei etwa 10 Sekunden, während TP2 50 bzw. 29 Sekunden erreicht. Bei geringer Parallelität liefert TP4 die Antworten auf das erste Token in etwa 160 ms für die Arbeitslast „Equal“, verglichen mit 486 ms bei TP2.
Qwen3 Coder 30B-A3B Anleitung
Qwen3 Coder 30B-A3B ist eines der beliebtesten Codierungsmodelle für lokale Inferenz-Implementierungen und basiert auf einer Mixture-of-Experts-Architektur (MoE). Im Gegensatz zu dichten Modellen, bei denen jeder Parameter in jedem Forward-Pass verwendet wird, leitet MoE-Modelle jedes Token durch eine kleine Teilmenge spezialisierter Expertennetzwerke. Der Qwen3 Coder behält eine Modellgröße von 30 Milliarden Parametern bei BF16-Genauigkeit bei, aktiviert aber nur 3 Milliarden Parameter pro generiertem Token. Dank dieses sparsamen Aktivierungsmusters erreicht das Modell die Qualität eines deutlich größeren Netzwerks bei nur einem Bruchteil der Rechenleistung pro Token und ist daher extrem effizient auf Hardware, die den Routing-Overhead unterstützt. Für Endanwender eignet sich dieses Modell hervorragend zur Unterstützung bei alltäglichen Codierungsaufgaben, wie z. B. der Generierung von Boilerplate-Code, der Vervollständigung von Funktionen, der Erklärung von Code, dem Schreiben von Unit-Tests und der Bewältigung routinemäßiger Entwicklungsaufgaben, die von einem code-spezialisierten Modell profitieren, ohne dass komplexe logische Schlussfolgerungen erforderlich sind.

Wir testeten drei Konfigurationen: TP1 BF16, TP1 FP8 und TP4 BF16. Bei 128 gleichzeitigen Anfragen führte TP4 BF16 mit rund 14,300 kB/s im Szenario mit hohem Prefill-Aufkommen – der höchste Durchsatzwert, den wir in unserer Testreihe für jedes Modell ermittelten. TP1 BF16 folgte mit etwa 6,900 kB/s im selben Szenario, während TP1 FP8 mit rund 3,360 kB/s deutlich zurücklag. Bei gleicher Arbeitslast verringerte sich der Abstand etwas: TP4 erreichte 6,073 kB/s, TP1 BF16 5,718 kB/s und TP1 FP8 2,101 kB/s. Wie bereits im Abschnitt zu FP8 erwähnt, spiegeln die niedrigeren FP8-Werte hier den aktuellen Stand von Intels vLLM-Fork wider und sind nicht auf einen Hardware-Engpass zurückzuführen.

Dank des spärlichen Aktivierungsmusters bleibt die TTFT niedrig. TP4 BF16 erreicht bei Einzelbenutzerlast eine First-Token-Latenz von ca. 140 ms und bleibt bei 128 gleichzeitigen Anfragen unter gleicher Last bei etwa 2.6 Sekunden. TP1 BF16 ist bei geringer Parallelität vergleichbar (106 ms), steigt aber unter Volllast auf 3.1 Sekunden. Das Szenario mit vielen Prefills zeigt erneut deutliche Unterschiede zwischen den Konfigurationen: TP4 erreicht bei 128 Anfragen etwa 18 Sekunden, TP1 BF16 57 Sekunden und TP1 FP8 sogar 72 Sekunden.
Qwen3 235B-A22B Denken
Das größte Modell unserer Benchmark-Suite, Qwen3 235B-A22B Thinking, ist ein umfangreiches MoE-Reasoning-Modell mit insgesamt 235 Milliarden Parametern und 22 Milliarden aktiven Parametern pro Token. Neben seiner enormen Größe verfügt dieses Modell über integrierte Funktionen für Gedankenketten-Reasoning. Dadurch kann es komplexe Probleme Schritt für Schritt analysieren und zu einer Lösung gelangen, was allerdings mehr Dekodierungs-Tokens erfordert. Dies macht es besonders geeignet für anspruchsvollste Aufgaben: fortgeschrittene Codegenerierung und -debugging, mathematische Problemlösung, mehrstufiges logisches Schließen und komplexe, agentenbasierte Workflows, bei denen Genauigkeit wichtiger ist als reine Geschwindigkeit. Dieses Modell benötigt TP4 und wurde sowohl mit BF16- als auch mit FP8-Genauigkeit getestet.

BF16 übertrifft FP8 in allen Bereichen deutlich. Bei 128 gleichzeitigen Anfragen erreicht BF16 im Prefill-intensiven Arbeitslastbereich ca. 2,750 kB/s und im gleichmäßigen Arbeitslastbereich 2,500 kB/s, während FP8 etwa 1,784 kB/s bzw. 516 kB/s erzielt. Die FP8-Variante wies zudem im Dekodier-intensiven Szenario bei höheren Parallelitätsstufen (32+ Anfragen) Timeouts auf.

Bei TTFT beginnt BF16 bei etwa 340 ms für eine einzelne Anfrage gleicher Länge und skaliert auf ca. 6.9 Sekunden bei 128 gleichzeitigen Anfragen. Dies ist für ein Modell dieser Größenordnung sehr reaktionsschnell. FP8 ist durchgehend etwa doppelt so langsam, mit einem Startwert von 615 ms und einem Wert von ca. 11.2 Sekunden unter Volllast. Die anspruchsvollste Variante ist die Vorbefüllung, bei der BF16 auf 168 Sekunden und FP8 auf 80 Sekunden bei 128 Anfragen ansteigt.
Für wen ist das?
Die Nachfrage nach Inferenzlösungen lässt nicht nach. Ob Unternehmen Modelle intern einsetzen, um Entwicklerteams zu beschleunigen, KI in kundenorientierte Produkte integrieren oder Automatisierungspipelines aufbauen, die rund um die Uhr laufen – der Rechenbedarf steigt stetig. Und mit dieser Nachfrage geht ein bekannter Engpass einher: die Beschaffung. Die Vorlaufzeiten für gängige Beschleuniger können sich über Monate erstrecken und Projekte verzögern, die bereits finanziert und personell ausgestattet sind.
Der mit Intel Gaudi 3 ausgestattete XE7740 behebt diese Einschränkung direkt. Gaudi 3-Beschleuniger sind ab sofort verfügbar, und Intel stellt validierte Bereitstellungsvorlagen bereit, sodass Teams innerhalb weniger Stunden vom Auspacken bis zur Inferenzverarbeitung gelangen. Dell senkt die Hürde zusätzlich mit Test- und Kaufprogrammen, die XE7740-Systeme direkt in Ihrer Umgebung bereitstellen. So können Sie die Leistung anhand Ihrer tatsächlichen Workloads, Daten und Infrastruktur validieren, bevor Sie sich für eine vollständige Implementierung entscheiden. Diese Kombination aus sofortiger Verfügbarkeit, schneller Wertschöpfung und risikoarmer Evaluierung macht die Gaudi 3-Konfiguration besonders attraktiv für Unternehmen, die heute Inferenzkapazität benötigen und nicht auf Zuteilungswarteschlangen warten können.
Die XE7740 ist jedoch keine Plattform mit nur einem Beschleuniger. Dank Dells Engagement für Siliziumvielfalt ist dieselbe Plattform mit einer Vielzahl von Optionen und allen gängigen Beschleunigern auf dem Markt erhältlich. Die richtige Wahl hängt dabei ganz von der jeweiligen Arbeitslast ab. Videoverarbeitungspipelines beispielsweise eignen sich hervorragend für NVIDIA L4-Grafikkarten. Die XE7740 kann mit 16 L4-GPUs und 8 PCIe Gen5 x16-Netzwerkkartensteckplätzen ausgestattet werden und bietet so ein kompromissloses Streaming- und Transkodierungssystem. Unternehmen, die abteilungsübergreifend unterschiedliche KI-Workloads ausführen, können das XE7740-Gehäuse standardisieren und die Beschleunigerkonfiguration einfach an die jeweilige Bereitstellung anpassen. Dies vereinfacht die Flottenverwaltung und optimiert die Rechenleistung für die jeweilige Aufgabe.
Fazit
Der Dell PowerEdge XE7740 wurde speziell für die Anforderungen von Enterprise-Inferenzsystemen entwickelt. Sein Dual-Zone-Wärmemanagement, die strukturierte PCIe-Topologie, die Speicherarchitektur mit hoher Bandbreite und die Scale-Out-Netzwerkfähigkeit bilden ein System, das für dauerhafte Produktionslasten ausgelegt ist. Diese Designentscheidungen sind nicht zufällig, sondern spiegeln ein Infrastrukturmodell wider, in dem Inferenz kontinuierlich läuft, vorhersehbar skaliert und sich nahtlos in bestehende Rechenzentrumsabläufe integriert. In dieser Evaluierung demonstriert Intel Gaudi 3, dass der XE7740 bereits heute Inferenz auf dichten und Multi-Level-Architekturen mit vorhersehbarem Skalierungsverhalten und hohem speichergebundenem Durchsatz ermöglicht. Softwareoptimierungen werden die Leistung weiter verbessern, aber die architektonische Grundlage der Plattform ist bereits solide.
Noch wichtiger ist, dass der XE7740 eine zukunftsfähige Blaupause für die KI-Infrastruktur von Unternehmen schafft. Organisationen können sich auf ein einheitliches Chassis, Management-Stack und Bereitstellungsmodell standardisieren und ihre Beschleunigerstrategie im Laufe der Zeit weiterentwickeln. Mit dem Wachstum der Modelle, der Diversifizierung der Workloads und der zunehmenden Integration von Inferenz in die Geschäftsprozesse steigt der Bedarf an einer stabilen und anpassungsfähigen Infrastruktur. Der PowerEdge XE7740 ist bestens für diese Entwicklung gerüstet. Er bietet die architektonische Ausgewogenheit, die operative Reife und die Erweiterungsmöglichkeiten, die für KI in Unternehmen erforderlich sind – von der schnellen Einführung bis zur langfristigen Integration.
Dieser Bericht wird von Dell Technologies gesponsert. Alle in diesem Bericht geäußerten Ansichten und Meinungen basieren auf unserer unvoreingenommenen Sicht auf das/die betrachtete(n) Produkt(e).




Amazon