StorageReview.com

Lenovo ThinkSystem SR650 V4 Testbericht: Vielseitiges 2U-Arbeitstier

Unternehmen  ◇  Server

Der Lenovo ThinkSystem SR650 V4 ist ein flexibler und leistungsstarker 2U-Rackserver mit zwei Sockeln, der speziell für Branchen wie Cloud-Dienste, Telekommunikation und High-Performance Computing (HPC) entwickelt wurde. Ob für die Optimierung skalierbarer Workloads oder die Zukunftssicherung Ihres Rechenzentrums mit hoher Rechenleistung – der SR650 V4 bietet deutliche Verbesserungen gegenüber seinem Vorgänger, dem SR650 V3.

Lenovo SR650 v4 Front

Unterschiede zwischen Lenovo SR650 V4 und SR650 V3

Prozessoren

Die Prozessorleistung stellt eine der bedeutendsten Verbesserungen des SR650 V4 dar. Während der SR650 V3 auf Intel Xeon Scalable Prozessoren der 4. Generation basierte, führt der SR650 V4 die Intel Xeon 6 Plattform (ehemals Codename „Granite Rapids“) ein. Unser Test konzentriert sich auf die P-Core-Architektur (Performance-Core), die speziell für rechenintensive Anwendungen entwickelt wurde. Der V4 unterstützt einen oder zwei Prozessoren mit bis zu 86 P-Cores pro Sockel (bis zu 172 Threads) und bietet höhere Taktraten (bis zu 4 GHz) sowie eine TDP von bis zu 350 W.

Dieser Übergang ermöglicht es Unternehmen, anspruchsvollere Anwendungen pro Server auszuführen und gleichzeitig den Platzbedarf zu reduzieren. Die Architektur schafft eine robuste Grundlage für Virtualisierung und rechenintensive Datenbankoperationen. Darüber hinaus unterstützt die V4-Architektur eine enorme PCIe-Bandbreite mit bis zu 88 PCIe-5.0-Lanes pro Prozessor. Dies ist unerlässlich, um moderne Hochgeschwindigkeits-Netzwerkadapter und NVMe-Speicherarrays ohne Engpässe anzusteuern.

CPU-Modell Kerne / Threads Basisfrequenz Max Turbo L3 Cache TDP
6787P 86 / 172 2.0 GHz 3.8 GHz 336 MB 350 W
6781P 80 / 160 2.0 GHz 3.8 GHz 336 MB 350 W
6767P 64 / 128 2.4 GHz 3.9 GHz 336 MB 350 W
6761P 64 / 128 2.5 GHz 3.9 GHz 336 MB 350 W
6760P 64 / 128 2.2 GHz 3.8 GHz 320 MB 330 W
6747P 48 / 96 2.7 GHz 3.9 GHz 288 MB 330 W
6745P 32 / 64 3.1 GHz 4.3 GHz 336 MB 300 W
6741P 48 / 96 2.5 GHz 3.8 GHz 288 MB 300 W
6740P 48 / 96 2.1 GHz 3.8 GHz 288 MB 270 W
6737P 32 / 64 2.9 GHz 4.0 GHz 144 MB 270 W
6736P 36 / 72 2.0 GHz 4.1 GHz 144 MB 205 W
6732P 32 / 64 3.8 GHz 4.3 GHz 144 MB 350 W
6731P 32 / 64 2.5 GHz 4.1 GHz 144 MB 245 W
6730P 32 / 64 2.5 GHz 3.8 GHz 288 MB 250 W
6724P 16 / 32 3.6 GHz 4.3 GHz 72 MB 210 W
6714P 8 / 16 4.0 GHz 4.3 GHz 48 MB 165 W
6530P 32 / 64 2.3 GHz 4.1 GHz 144 MB 225 W
6527P 24 / 48 3.0 GHz 4.2 GHz 144 MB 255 W
6521P 24 / 48 2.6 GHz 4.1 GHz 144 MB 225 W
6520P 24 / 48 2.4 GHz 4.0 GHz 144 MB 210 W
6517P 16 / 32 3.2 GHz 4.2 GHz 72 MB 190 W
6515P 16 / 32 2.3 GHz 3.8 GHz 72 MB 150 W
6511P 16 / 32 2.3 GHz 4.2 GHz 72 MB 150 W
6507P 8 / 16 3.5 GHz 4.3 GHz 48 MB 150 W
6505P 12 / 24 2.2 GHz 4.1 GHz 48 MB 150 W

Memory

Der SR650 V4 bietet im Vergleich zum V3 deutliche Verbesserungen beim Arbeitsspeicher und maximiert die Leistung der Subsysteme. Er unterstützt DDR5-Speichergeschwindigkeiten von bis zu 6400 MHz (1 DIMM pro Kanal), ein erheblicher Sprung gegenüber dem Limit von 4800 MHz der Vorgängergeneration. Das System verfügt über 32 DIMM-Steckplätze (16 pro Prozessor), die auf acht Speicherkanäle pro Prozessor verteilt sind. Es unterstützt Standard-RDIMMs, 3DS-RDIMMs und die neuen Multiplexed Rank DIMMs (MRDIMMs), die für bandbreitenintensive Anwendungen mit Geschwindigkeiten von bis zu 8000 MHz arbeiten können. Mit 256 GB 3DS-RDIMMs unterstützt der Server einen Gesamtspeicher von bis zu 8 TB.

Lenovo SR650 V4, Draufsicht, Rückseite

Darüber hinaus bietet die V4 Unterstützung für die CXL 2.0-Speichererweiterung (Compute Express Link). Administratoren können bis zu 12 CXL-Speichermodule in den E3.S-Laufwerksschächten (insbesondere im E3.S 2T-Formfaktor) installieren. Dadurch lässt sich die Speicherkapazität und Bandbreite über die herkömmlichen, prozessorgebundenen Grenzen hinaus skalieren. Dies reduziert die Rechenlatenz für Workloads der nächsten Generation und senkt die Gesamtbetriebskosten (TCO) durch den geringeren Speicherbedarf.

Lagerung

Die Speicherkapazitäten des Lenovo SR650 V4 demonstrieren den Trend hin zu hoher NVMe-Speicherdichte und flexiblen Formfaktoren. Neben der Unterstützung herkömmlicher 3.5-Zoll- und 2.5-Zoll-Laufwerke bietet der V4 umfassende Unterstützung für den E3.S-NVMe-Formfaktor. Das System kann bis zu 32 E3.S-1-TB-Laufwerke oder 12 E3.S-2-TB-Laufwerke aufnehmen und bietet damit eine höhere Speicherdichte und ein verbessertes Wärmemanagement im Vergleich zu herkömmlichen U.2-SSDs.

Lenovo SR650 V4 Frontspeicher

Entscheidend ist, dass die V4 direkte NVMe-Konnektivität ohne Überbelegung (1:1) unterstützt und somit sicherstellt, dass Hochgeschwindigkeitsspeicher nicht durch die gemeinsame Nutzung von PCIe-Lanes ausgebremst wird. Die Möglichkeit, M.2-Bootlaufwerke im laufenden Betrieb zu wechseln, verbessert die Wartungsfreundlichkeit zusätzlich.

Netzwerken

Für die Netzwerkanbindung verfügt der SR650 V4 über zwei dedizierte OCP 3.0-Steckplätze, die beide PCIe Gen 5 x16 unterstützen. Dieses wichtige Upgrade ermöglicht redundante Hochgeschwindigkeitsnetzwerke (z. B. Dual-Port 200GbE oder Single-Port 400GbE), ohne Standard-PCIe-Riser-Steckplätze zu belegen. Der Übergang zu PCIe 5.0 verdoppelt die theoretische Bandbreite (32 GT/s gegenüber 16 GT/s) und macht den V4 damit in der Lage, selbst anspruchsvollsten Cloud- und KI-Netzwerkverkehr zu bewältigen.

Lenovo SR650 V4 Rückansicht

Leistung und Kühlung

Das SR650 V4 bietet erweiterte Stromversorgungsoptionen von 800 W bis 3200 W, erhältlich in den Effizienzklassen Titanium und Platinum. Das System unterstützt zudem -48 V DC und HVAC/HVDC-Optionen, um spezifische Anforderungen von Rechenzentren zu erfüllen.

Lenovo SR650 V4 Netzteile

Um die Wärmeentwicklung von Prozessoren und Arbeitsspeichern mit hoher TDP zu bewältigen, bietet Lenovo die Neptune-Flüssigkeitskühlung an. Das „Compute Complex Neptune Core Module“ nutzt eine offene Flüssigkeitskühlung, um die Wärme von Prozessoren, Arbeitsspeicher und Spannungsreglern abzuführen. Es kann über 80 % der Serverwärme auffangen und die Kühlkosten von Rechenzentren deutlich senken.

Insgesamt stellt die SR650 V4 einen deutlichen Fortschritt in puncto Leistung, Dichte und thermischer Effizienz für moderne Unternehmensumgebungen dar.

Spezifikationen des Lenovo ThinkSystem SR650 V4

Normen Details
Systemspezifikationen
Formfaktor 2HE-Rack
Prozessor Bis zu 2x Intel Xeon 6700/6400-Serie (P-Kerne); bis zu 86 Kerne pro CPU; bis zu 350 W TDP
Memory 32 DIMM-Steckplätze (16 pro Prozessor); unterstützt TruDDR5 RDIMMs bis zu 6400 MHz und MRDIMMs bis zu 8000 MHz
Speichererweiterung Unterstützt CXL 2.0-Speichermodule im E3.S 2T-Formfaktor (bis zu 12x DIMMs)
Maximaler Arbeitsspeicher Bis zu 8 TB Systemspeicher (mit 256 GB 3DS RDIMMs)
Laufwerkschächte Vorne: Bis zu 24x 2.5″ NVMe/SAS/SATA, 16x 3.5″ SAS/SATA oder 32x E3.S NVMe
Mitte: Bis zu 8x 2.5″ einfacher Austausch
Hinten: Bis zu 8x 2.5″ oder 4x 3.5″ Hot-Swap-fähig
Speichercontroller Bis zu 36 integrierte NVMe-Anschlüsse (1:1-Konnektivität); RAID/HBA-Unterstützung
Netzwerk Schnittstellen Zwei OCP 3.0 SFF-Steckplätze mit PCIe 5.0 x16-Hostschnittstelle
PCI Erweiterungssteckplätze Bis zu 10 PCIe 5.0-Steckplätze (Rückseite); optionale PCIe-Steckplätze an der Vorderseite
GPU-Unterstützung Bis zu 10 GPUs mit einfacher Breite oder 2 GPUs mit doppelter Breite
Ports Vorne: Externer Diagnoseanschluss, optionaler USB-Anschluss und Mini-DP-Anschluss
Hinten: 2x USB 3.0, 1x VGA, 1x RJ-45-Management, optional seriell
Kühlung: Bis zu 6 Hot-Swap-Lüfter (N+1-Redundanz); optionale Neptune-Flüssigkeitskühlungsmodule
Labor-Stromversorgungen Bis zu zwei redundante, im laufenden Betrieb austauschbare AC/DC-Netzteile (800 W–3200 W)
Systems Management XClarity Controller 3 (XCC3); Optionaler XCC3 Premier
Sicherheits-Features TPM 2.0, PFR-Vertrauensbasis (NIST SP800-193), Gehäuseeingriffserkennung, abschließbare Blende
Betriebssysteme Microsoft Windows Server, RHEL, SLES, Ubuntu Server
Garantie 3 Jahre Basisgarantie (konfigurierbar)
Abmessungen 87 mm (3.4 Zoll) H x 440 mm (17.3 Zoll) B x 800 mm (31.5 Zoll) T
Gewicht Höchstgewicht: 38.8 kg (85.5 lb)

Lenovo ThinkSystem SR650 V4 – Design und Aufbau

Der Lenovo ThinkSystem SR650 V4 ist eine Standard-2U-Plattform, die ihren Bauraum optimal nutzt und ein ausgewogenes Verhältnis zwischen Komponentendichte, Luftzirkulation und Wartungsfreundlichkeit bietet. Das Gehäuse misst 3.4 cm in der Höhe, 17.3 cm in der Breite und 31.5 cm in der Tiefe und hat ein maximales Konfigurationsgewicht von 85.5 kg. Mit diesen Abmessungen entspricht er den Standards anderer 2U-Enterprise-Server und bietet gleichzeitig ausreichend Platz für leistungsstarke CPUs, dichte Speicherkonfigurationen und flexible Speicher-Backplanes.

Lenovos etabliertes ThinkSystem-Industriedesign ist sofort erkennbar: ein robustes Stahlgehäuse und eine klare, funktionale Beschriftung. Auch das Innere ist übersichtlich und funktional gestaltet, mit Fokus auf optimale Luftzirkulation, modulare Komponentenzonen und werkzeuglosen Zugang für Wartungsarbeiten. Die gesamte Konstruktion wirkt robust und durchdacht und spiegelt eine Plattform wider, die für den Dauerbetrieb in Rechenzentren und nicht für ästhetische Ansprüche konzipiert ist.

Frontblende

Die Frontblende ist hochgradig konfigurierbar. Unser Testsystem ist mit einer 8-Bay-2.5-Zoll-Laufwerksrückwand ausgestattet, das Gehäuse lässt sich jedoch mit minimalem Aufwand auf 16 oder sogar 24 Bays erweitern. Kunden können sich auch für 3.5-Zoll-Bays mit höherer Speicherkapazität oder die neueren E3.S-Rückwandoptionen für hohe NVMe-Speicherdichte entscheiden. Dank AnyBay-Unterstützung können SAS-, SATA- und NVMe-Laufwerke im selben Laufwerkskäfig verwendet werden, was erhebliche Flexibilität für gemischte Speichersysteme bietet.

Lenovo SR650 V4 Front-I/O

Die Frontblende enthält die wichtigsten Bedienelemente: einen Ein-/Ausschalter, eine ID-Taste und Status-LEDs, die den Systemzustand und die Netzwerkaktivität anzeigen. Über eine ausziehbare Informationslasche sind das XCC-Netzwerkkennzeichnungsetikett und die Seriennummer schnell zugänglich. Optional sind Mini-DisplayPort- und USB-Anschlüsse für den Zugriff über einen Crash-Cart verfügbar, was in unbemannten Rechenzentren für die Fehlersuche von unschätzbarem Wert ist.

Rückwand

Die Gehäuserückseite ist für maximale I/O-Dichte ausgelegt. Je nach Riser-Konfiguration bietet sie Platz für bis zu 10 PCIe-Gen-5-Steckplätze. Durch die zwei OCP-3.0-Steckplätze bleiben die Standard-PCIe-Riser für weitere Erweiterungskarten wie GPUs oder Speichercontroller frei.

Neben Erweiterungsmöglichkeiten beherbergt die Rückseite den integrierten BMC-Management-Netzwerkanschluss, zwei USB-A-Anschlüsse und einen VGA-Ausgang für den lokalen Konsolenzugriff. Zwei Hot-Swap-fähige Netzteile sind ebenfalls auf der Rückseite montiert, wodurch die Wartungsfreundlichkeit erhalten bleibt, ohne den Luftstrom oder die Erweiterungsmöglichkeiten zu beeinträchtigen.

Intern

Das Gehäuseinnere ist übersichtlich gestaltet und für optimale Luftzirkulation ausgelegt. 32 DIMM-Steckplätze flankieren zwei CPU-Sockel und sind so angeordnet, dass eine ungehinderte Kühlung von vorne nach hinten durch sechs leistungsstarke Hot-Swap-Lüfter an der Vorderseite gewährleistet ist. Die Lüfter lassen sich werkzeuglos montieren und einfach austauschen; die gesamte Lüfterhalterung kann ohne Werkzeug entnommen werden. Durch das Entfernen der Halterung ist der AnyBay-Speicherbereich direkt und frei zugänglich, was Wartung, Upgrades und den Austausch der Backplane vereinfacht.

Die Speicherkabel sind ordentlich an den Seiten des Gehäuses verlegt, um die Luftzufuhr zu CPU und Arbeitsspeicher nicht zu behindern. Bei Konfigurationen mit Neptune-Flüssigkeitskühlungsmodulen ändert sich das interne Layout geringfügig, um die Kühlkreisläufe unterzubringen, die Wartungsfreundlichkeit bleibt jedoch hoch. Das M.2-Bootlaufwerk ist an der Luftleitblende oder am Laufwerkskäfig montiert und ermöglicht so einen einfachen Zugriff, ohne dass andere Komponenten ausgebaut werden müssen.

XClarity Controller 3

Der SR650 V4 ist mit dem neuen XClarity Controller 3 (XCC3) ausgestattet. Diese Management-Engine bietet eine deutliche Leistungssteigerung gegenüber Vorgängergenerationen mit kürzeren Startzeiten und einer reaktionsschnelleren HTML5-Oberfläche. Der Platform Resource Manager liefert detaillierte Telemetriedaten zum Strom- und Temperaturstatus und unterstützt Administratoren so bei der Optimierung der Rechenzentrumseffizienz.

XCC3 unterstützt eine Vielzahl von Fernverwaltungsfunktionen, darunter Fernsteuerung (KVM), virtuelles Medien-Mounting und Firmware-Updates. Die intuitive Benutzeroberfläche bietet eine Dashboard-Ansicht des Systemzustands, aktiver Ereignisse und des Hardwarebestands. Für die Automatisierung unterstützt XCC3 die Redfish REST-APIs vollständig.

Leistung des Lenovo ThinkSystem SR650 V4

Dieser Abschnitt untersucht Benchmark-Ergebnisse von Blender, y-cruncher, vLLM und Phoronix. Die ersten Tests wurden auf dem Lenovo ThinkSystem SR650 V4 mit Intel Xeon 6740P Prozessoren durchgeführt. So konnten wir die leistungsorientierte P-Core-Architektur der Plattform und ihren Gesamtdurchsatz unter CPU-lastigen Workloads bewerten. Im Laufe des Tests passten wir die Systemkonfiguration an, um GPU-beschleunigte Tests zu ermöglichen. Der Übergang verlief reibungslos dank Lenovos GPU-Upgrade-Kit. Dieses enthält Hochleistungslüfter, verbesserte Kühlkörper, eine optimierte Luftführung und GPU-fähige Riser-Karten für leistungsstärkere Beschleuniger. Die Installation erforderte keine wesentlichen Änderungen am Gehäuse und fügte sich nahtlos in das bestehende Systemlayout ein.

Nach dem Einbau der verbesserten Kühl- und Luftstromkomponenten haben wir die Plattform um eine einzelne NVIDIA L40S GPU erweitert. Dadurch konnten wir die Tests auf GPU-beschleunigte Workloads wie Blender-GPU-Rendering und inferenzorientierte Benchmarks ausdehnen und gleichzeitig stabile Temperaturen und ein konsistentes Systemverhalten gewährleisten. Die modulare Bauweise des Upgrades unterstreicht die Flexibilität des SR650 V4 und ermöglicht einen einfachen Übergang von einer effizienzorientierten CPU-Konfiguration zu einer ausgewogenen CPU+GPU-Plattform, die sich für gemischte Rechenlasten eignet.

Lenovo ThinkSystem SR650 V4 Konfiguration:

  • ZENTRALPROZESSOR: 2x Intel Xeon 6740P
  • Erinnerung: 1 TB RAM
  • Lagerung: 4 x 960 GB SSDs
  • GPU: NVIDIA L40S

Mixer 4.5

Blender ist eine Open-Source-Anwendung für 3D-Modellierung. Dieser Benchmark wurde mit dem Blender Benchmark-Tool durchgeführt. Das Ergebnis wird in Samples pro Minute gemessen, wobei höhere Werte eine bessere Leistung anzeigen.

Im Blender-CPU-Benchmark liefert der Lenovo ThinkSystem SR650 V4 in allen Szenen eine solide Rendering-Leistung mit 1136.99 Samples pro Minute in „Monster“, 707.60 in „Junkshop“ und 562.53 in „Classroom“. Die Ergebnisse spiegeln die starke Multithreading-Skalierung der beiden Intel Xeon 6740P Prozessoren wider, die auch bei zunehmender Szenenkomplexität eine gleichbleibende Leistung gewährleisten.

Blender-CPU (Samples pro Minute; je höher, desto besser) Lenovo ThinkSystem SR650 V4 (2x Intel Xeon 6740P, 1 TB RAM)
Monster 1136.99
Trödelladen 707.60
Klassenzimmer 562.53

Im Blender-CPU-Benchmark ohne SMT zeigt die SR650 V4 eine deutliche Steigerung des Rendering-Durchsatzes mit 4686.40 Samples pro Minute in Monster, 2223.96 in Junkshop und 2385.98 in Classroom. Die GPU-Ergebnisse unterstreichen die Fähigkeit des Systems, komplexe Rendering-Workloads zu beschleunigen und einen deutlich höheren Durchsatz im Vergleich zum reinen CPU-Rendering zu erzielen.

Blender CPU (ohne SMT) (Samples pro Minute; höher ist besser) Lenovo ThinkSystem SR650 V4 (2x Intel Xeon 6740P, 1 TB RAM)
Monster 4686.40
Trödelladen 2223.96
Klassenzimmer 2385.98

Y-Cruncher

y-cruncher ist ein multithreadfähiges, skalierbares Programm, das Pi und andere mathematische Konstanten auf Billionen von Stellen berechnet. Seit seiner Veröffentlichung im Jahr 2009 hat es sich zu einer beliebten Benchmark- und Stresstest-Anwendung für Übertakter und Hardware-Enthusiasten entwickelt.

Im y-cruncher-Test skaliert das Lenovo-System problemlos mit zunehmender Problemgröße und unterstreicht damit die hohe Multithread-Rechenleistung und Speicherbandbreite der Plattform. Mit zwei Intel Xeon 6740P Prozessoren und 1 TB RAM berechnet das System Pi mit einer Milliarde Stellen in etwas über 20 Sekunden und behält seine Effizienz bis zu 25 Milliarden Stellen bei (362 Sekunden). Die Ergebnisse zeigen eine vorhersehbare Skalierung unter anhaltender CPU- und Speicherauslastung, wodurch sich der SR650 V4 ideal für rechenintensive mathematische Aufgaben und Stresstests eignet.

Y-Cruncher (Gesamtrechenzeit) Lenovo ThinkSystem SR650 V4 (2x Intel Xeon 6740P, 1 TB RAM)
1 Milliarden 20.715 s
2.5 Milliarden 44.412 s
5 Milliarden 81.937 s
10 Milliarden 152.743
25 Milliarden 362.566

vLLM Online-Bereitstellung LLM-Inferenzleistung

vLLM ist die beliebteste Engine für Inferenz und Serverbereitstellung mit hohem Durchsatz für LLMs. Der vLLM Online-Serving-Benchmark ist ein Tool zur Leistungsbewertung, das die realen Serverleistungsfähigkeiten dieser Inferenz-Engine unter gleichzeitigen Anfragen misst. Er simuliert Produktionslasten, indem er Anfragen mit konfigurierbaren Parametern wie Anfragerate, Eingabe-/Ausgabelängen und Anzahl gleichzeitiger Clients an einen laufenden vLLM-Server sendet. Der Benchmark misst wichtige Kennzahlen wie Durchsatz (Tokens pro Sekunde), Zeit bis zum ersten Token und Zeit pro Ausgabetoken (TPOT) und hilft Benutzern so, die Leistung von vLLM unter verschiedenen Lastbedingungen zu verstehen.

Wir testeten die Inferenzleistung anhand einer umfassenden Reihe von Modellen, die verschiedene Architekturen, Parameterskalen und Quantisierungsstrategien umfassten, und evaluierten den Durchsatz unter verschiedenen Parallelitätsprofilen.

Leistung des dichten Modells

Dichte Modelle folgen der konventionellen LLM-Architektur, bei der alle Parameter und Aktivierungen während der Inferenz verwendet werden, was zu einem höheren Rechenaufwand als bei ihren spärlichen Pendants führt. Um die Leistungsmerkmale über verschiedene Modellgrößen und Quantisierungsstrategien hinweg umfassend zu bewerten, haben wir mehrere Konfigurationen dichter Modelle aus der Llama 3.1 8B-Familie verglichen.

Llama 3.1 8B Präzisions-FP8

Das Llama 3.1 8B-Modell, das in FP8-Präzision läuft, zeigt ein anderes Skalierungsprofil als die Standardpräzisionskonfiguration. Es priorisiert die Effizienz bei moderater Parallelität, während der Spitzendurchsatz bei größeren Batchgrößen reduziert wird. Bei Einzelbenutzer-Parallelität (BS=1) erreicht das Modell 67.8 kB/s pro Benutzer, mit einem Gesamtdurchsatz von 135.6 kB/s und einer TPOT von ca. 3.1 ms. Dies stellt eine niedrigere Basislinie für Einzelstream-Verarbeitung im Vergleich zur vollen Präzision dar.

Mit zunehmender Batchgröße steigt der Gesamtdurchsatz rapide an, während der Durchsatz pro Benutzer kontrolliert abnimmt. Bei BS=2 erreicht der Gesamtdurchsatz 271 tok/s, was 66.8 tok/s pro Benutzer entspricht. Bei BS=4 liegt der Gesamtdurchsatz bei 523 tok/s und bei BS=8 bei 1,017 tok/s, mit 63.6 tok/s pro Benutzer. Die Latenz bleibt bei diesen niedrigeren Parallelitätsstufen stabil, wodurch sich FP8 gut für einfache Mehrbenutzer-Inferenzszenarien eignet.

Die Skalierung setzt sich bis BS=16 fort, wobei das Modell einen Gesamtdurchsatz von 1,918 tok/s und einen Durchsatz von 60.0 tok/s pro Benutzer beibehält. Bei BS=32 stagniert der Gesamtdurchsatz bei etwa 1,920 tok/s, während der Durchsatz pro Benutzer auf 30.0 tok/s sinkt. Dieses Plateau deutet darauf hin, dass die FP8-Konfiguration ihren Sättigungspunkt früher erreicht als die Standardgenauigkeit, wodurch Effizienz und Vorhersagbarkeit gegenüber maximalem Gesamtdurchsatz priorisiert werden.

Insgesamt erzielt FP8 eine Steigerung des Gesamtdurchsatzes um etwa das 14-Fache von BS=1 bis zu seinem Spitzenwert bei BS=16-32. Die Latenz bleibt bis BS=16 konstant und flacht dann bei höherer Parallelität parallel zum Durchsatz ab. Dies unterstreicht, dass FP8 eine praktikable Wahl für ausgewogene, latenzempfindliche Inferenz-Workloads und weniger für extreme Batch-Skalierung darstellt.

Llama 3.1 8B Standard Precision

Bei Standardgenauigkeit zeigt das Llama 3.1 8B-Modell ein vorhersehbares Skalierungsverhalten bei geringer Parallelität. Es bietet eine hohe Leistung pro Benutzer bei kleinen Batchgrößen und einen stetig steigenden Gesamtdurchsatz mit zunehmender Parallelität. Im Einzelbenutzerbetrieb (BS=1) erreicht das Modell ca. 45.8 kB/s pro Benutzer, was einen Gesamtdurchsatz von 91.6 kB/s ergibt und eine solide Basis für latenzkritische Workloads darstellt.

Mit zunehmender Parallelität skaliert der Gesamtdurchsatz effizient, während der Durchsatz pro Nutzer allmählich sinkt. Bei BS=2 steigt der Gesamtdurchsatz auf 176 TK/s (44.0 TK/s pro Nutzer), und bei BS=4 erreicht er 344 TK/s (43.0 TK/s pro Nutzer). Dieses Verhalten setzt sich bis BS=8 fort, wo das Modell einen Gesamtdurchsatz von 672 TK/s (42.0 TK/s pro Nutzer) beibehält, was auf eine gute Auslastung ohne signifikante Beeinträchtigung des Durchsatzes pro Nutzer hindeutet.

Die Skalierung setzt sich bis BS=16 fort, wo der Gesamtdurchsatz mit ca. 1,280 tok/s und 40.0 tok/s pro Benutzer seinen Höchstwert erreicht. Bei BS=32 bleibt der Gesamtdurchsatz mit rund 1,280 tok/s nahezu konstant, während der Durchsatz pro Benutzer auf 20.0 tok/s sinkt, was auf eine Sättigung der Ausführungspipeline hindeutet. Dieses Plateau lässt vermuten, dass das Modell bei Standardgenauigkeit seinen optimalen Betriebspunkt um BS=16 erreicht und dabei ein ausgewogenes Verhältnis zwischen Durchsatz und Reaktionsfähigkeit bietet.

Insgesamt erzielt die Standardgenauigkeit eine etwa 14-fache Steigerung des Gesamtdurchsatzes von BS=1 bis zum Spitzenwert, bei stabiler Leistung pro Benutzer auch bei moderater Parallelität. Aufgrund dieses Profils eignet sich die Standardgenauigkeit besonders für Umgebungen, in denen konsistente Latenz und vorhersehbare Skalierung wichtiger sind als eine aggressive Batch-Erweiterung.

Leistung des Sparse-Modells

Sparse Modelle, insbesondere Mixture-of-Experts-Architekturen (MoE), stellen einen vielversprechenden Ansatz zur effizienten Skalierung von Sprachmodellen dar. Diese Architekturen behalten eine hohe Gesamtparameteranzahl bei, indem sie pro Token nur eine Teilmenge der Parameter aktivieren, was potenziell eine verbesserte Leistung pro aktivem Parameter ermöglicht.

Qwen3-Coder-30B-A3B FP8-Leistung

Das in FP8-Genauigkeit laufende Modell Qwen3-Coder-30B-A3B weist ein für moderate Parallelität optimiertes Skalierungsprofil auf und bietet eine hohe Leistung pro Benutzer, erreicht aber im Vergleich zu kleineren Modellen früher die Sättigung. Im Einzelbenutzerbetrieb (BS=1) erzielt das Modell ca. 98 tok/s pro Benutzer und einen Gesamtdurchsatz von 196 tok/s. Dies stellt eine hohe Basislinie für den Einzeldatenstrom dar und spiegelt die Optimierung des Modells für Codegenerierungs-Workloads wider.

Mit zunehmender Parallelität skaliert der Gesamtdurchsatz effizient, während der Durchsatz pro Nutzer kontrolliert abnimmt. Bei BS=2 steigt der Gesamtdurchsatz auf 317 kJ/s (79 kJ/s pro Nutzer), und bei BS=4 erreicht das Modell einen Gesamtdurchsatz von 477 kJ/s (59 kJ/s pro Nutzer). Diese Ergebnisse zeigen eine effektive Nutzung der verfügbaren Rechenressourcen durch geringe bis moderate Batchverarbeitung ohne abrupte Verschlechterung der Reaktionsfähigkeit pro Nutzer.

Das Modell erreicht seinen maximalen Gesamtdurchsatz bei BS=8 und hält einen Gesamtdurchsatz von ca. 905 tok/s bei 56 tok/s pro Benutzer aufrecht. Die Skalierung setzt sich bis BS=16 nur geringfügig fort, wobei der Gesamtdurchsatz leicht auf 920 tok/s ansteigt, während der Durchsatz pro Benutzer auf 29 tok/s sinkt, was auf eine Sättigung der Inferenzpipeline hindeutet. Jenseits dieses Punktes führt eine zusätzliche Parallelität nur zu minimalen Steigerungen des Gesamtdurchsatzes, beeinträchtigt aber die Leistung pro Benutzer erheblich.

Insgesamt bietet Qwen3-Coder-30B-A3B FP8 eine Steigerung des Gesamtdurchsatzes um etwa das 4.7-Fache von BS=1 bis zum Spitzenwert bei BS=16. Die Latenz- und Durchsatzeigenschaften deuten darauf hin, dass diese Konfiguration am besten für moderate Mehrbenutzer-Codierungs-Workloads geeignet ist, die eine hohe Leistung pro Anfrage erfordern. Extreme Batch-Skalierung ist jedoch nicht das primäre Ziel.

 

Mikroskalierung der Datentyp-Performance

Mikroskalierung ist ein fortschrittliches Quantisierungsverfahren, das feine Skalierungsfaktoren auf kleine Gewichtsblöcke anwendet, anstatt große Parametergruppen gleichmäßig zu quantisieren. Das NVFP4-Format von NVIDIA implementiert diese Technik durch eine blockweise Gleitkommadarstellung, bei der jeder Mikroskalenblock mit 8 bis 32 Werten einen gemeinsamen Exponenten als Skalierungsfaktor verwendet. Dieser granulare Ansatz erhält die numerische Präzision bei gleichzeitiger 4-Bit-Darstellung und gewährleistet so den für Transformer-Architekturen entscheidenden Dynamikbereich. Das Format ist in die Tensor-Core-Architektur von NVIDIA integriert und ermöglicht effiziente Berechnungen mit gemischter Präzision und dynamischer Dekomprimierung während Matrixoperationen.

GPT-OSS-20b Leistung

Das gpt-oss-20b-Modell weist starke Skalierungseigenschaften bei steigender Parallelität auf, mit besonders hohem Gesamtdurchsatz bei größeren Batchgrößen. Bei Einzelbenutzer-Parallelität (BS=1) erreicht das Modell ca. 138 tok/s pro Benutzer, was zu einem Gesamtdurchsatz von 276 tok/s führt und damit eine solide Grundlage für die Single-Stream-Inferenz bildet.

Mit zunehmender Parallelität steigt der Gesamtdurchsatz rasant an, während der Durchsatz pro Benutzer erwartungsgemäß sinkt. Bei BS=2 erreicht der Gesamtdurchsatz 420 kJ/s (105 kJ/s pro Benutzer), und bei BS=4 liegt er bei 690 kJ/s (86 kJ/s pro Benutzer). Diese stetige Steigerung deutet auf eine effiziente Nutzung der verfügbaren Rechenressourcen durch geringe bis moderate Batchverarbeitung hin.

Die Skalierung setzt sich bis BS=8 fort, wo das Modell einen Gesamtdurchsatz von ca. 1,120 Tok/s bei 70 Tok/s pro Benutzer erreicht, und bis BS=16, wo der Gesamtdurchsatz auf 1,900 Tok/s mit 60 Tok/s pro Benutzer ansteigt. Diese Ergebnisse zeigen, dass gpt-oss-20b auch bei steigender Anzahl gleichzeitiger Zugriffe eine relativ hohe Leistung pro Benutzer beibehält und sich daher gut für Szenarien mit mehreren Benutzern eignet.

Das Modell erreicht seinen maximalen Gesamtdurchsatz bei BS=32 und liefert einen Gesamtdurchsatz von ca. 3,250 t/s, wobei der Durchsatz pro Benutzer auf 50 t/s sinkt. Dies entspricht einer Steigerung des Gesamtdurchsatzes um das 11.8-Fache im Vergleich zur Einzelbenutzerleistung. Obwohl der Durchsatz pro Benutzer bei höheren Batchgrößen weiter abnimmt, bleibt die Skalierungseffizienz insgesamt hoch. Dies deutet darauf hin, dass das Modell von höherer Parallelität profitiert, ohne frühzeitig an seine Grenzen zu stoßen.

Insgesamt weist gpt-oss-20b ein ausgewogenes Skalierungsprofil auf, das hohe Einzelbenutzerleistung mit starker Batch-Skalierung kombiniert. Dies macht es zu einer attraktiven Option für Bereitstellungen, die sowohl reaktionsschnelle Einzelbenutzer-Inferenz als auch einen hohen Gesamtdurchsatz unter hoher Mehrbenutzerlast erfordern.

Phoronix-Benchmarks

Phoronix Test Suite ist eine Open-Source-Plattform für automatisiertes Benchmarking, die über 450 Testprofile und mehr als 100 Testsuiten via OpenBenchmarking.org unterstützt. Sie übernimmt alle Schritte von der Installation der Abhängigkeiten über die Ausführung der Tests bis hin zur Ergebniserfassung und eignet sich daher ideal für Leistungsvergleiche, Hardwarevalidierung und Continuous Integration.

Stream-Speicherbandbreite

Die SR650 V4 erreichte eine Speicherbandbreite von 369.6 GB/s und demonstrierte damit einen starken Durchsatz für datenintensive Workloads sowie eine einwandfreie Mehrkanal-Speicherleistung.

7-Zip-Komprimierung

Mit 584,499 MIPS erzielte das System eine hervorragende Komprimierungs- und Dekomprimierungsleistung, was eine solide Multi-Core-Effizienz und eine starke Integer-Rechenleistung widerspiegelt.

Kernel-Kompilierung

Der Server schloss den allmod-Kernel-Build in 256.175 Sekunden ab, ein respektables Ergebnis, das seine Fähigkeit unterstreicht, parallele Kompilierung und Entwickler-Workflows effizient zu bewältigen.

Apache Web Server

Mit 61,654 Anfragen pro Sekunde (R/s) zeigte der SR650 V4 eine starke Webserver-Performance und gewährleistete einen hohen Anfragedurchsatz, der für Front-End-Hosting oder schlanke Virtualisierungs-Stacks geeignet ist.

OpenSSL-Verifizierung

Mit einer Durchsatzrate von 712.6 Milliarden Bytes pro Sekunde demonstrierte die Plattform eine robuste kryptografische Verifizierungsleistung und bestätigte damit die Fähigkeit der CPU, sichere, zertifikatsintensive Operationen durchzuführen.

Phoronix-Benchmarks Lenovo ThinkSystem SR650 V4
Strom 369,58.3 MB / s
7-ZIP 584,499 MIPS
Kernel-Kompilierung (allmod) 256.175 Sekunden
Apache (Anfragen pro Sekunde) 61,654.47 R/s
OpenSSL 712,633,776,990 Bytes/s

Fazit

Der ThinkSystem SR650 V4 ist eine Plattformaktualisierung, die wirklich zählt, denn sie beinhaltet mehr als nur einen CPU-Austausch. Lenovo hat diese Generation genutzt, um in Bereichen, die den praktischen Einsatz einschränken, bedeutende Verbesserungen vorzunehmen: Speicherbandbreite, PCIe-Lanes, Speicherdichte und die Möglichkeit, die Konfiguration an veränderte Anforderungen anzupassen. Der Wechsel zu Intel Xeon 6 bietet mehr Kernoptionen und mehr I/O-Spielraum pro Sockel. Die weiteren Plattformverbesserungen, darunter schnellerer DDR5-Speicher mit MRDIMM-Unterstützung und optionaler CXL-Erweiterung, sorgen dafür, dass der SR650 V4 auch bei steigenden Speicheranforderungen relevant bleibt.

Lenovo SR650 V4, Ansicht von oben hinten

Im Speicherbereich bietet Lenovos Fokus auf E3.S trotz unserer eingeschränkten Testkonfiguration mit U.2 eine höhere NVMe-Speicherdichte mit 1:1-Konnektivität und verbesserter Wärmeableitung. Dies entspricht den Anforderungen moderner Infrastrukturen, insbesondere für Virtualisierungsarchitekturen mit hohem Bedarf an lokalem Flash-Speicher und für KI-nahe Anwendungen, bei denen die GPU-Anbindung ebenso wichtig ist wie die reine Rechenleistung. Die beiden OCP 3.0 Gen5 x16-Steckplätze stellen ebenfalls ein praktisches Upgrade dar: Sie ermöglichen den Einsatz leistungsstarker Netzwerklösungen, ohne PCIe-Steckplätze zu belegen, die Sie lieber für Beschleuniger, Speicher oder Spezialadapter reservieren würden.

Wenn Sie mit der SR650 V3 arbeiten und an die Grenzen der Speichergeschwindigkeit, des PCIe-Spielraums oder der NVMe-Dichte stoßen, ist die SR650 V4 ein überzeugender Fortschritt. Sie bewahrt die Wartungsfreundlichkeit und Konfigurierbarkeit, die die SR650-Serie so beliebt gemacht haben, und bietet gleichzeitig eine Plattform mit Zukunftsperspektiven, die IT-Teams vor unnötigen Einschränkungen bewahrt. Ob Sie einen Virtualisierungscluster aufbauen, Scale-Out-Dienste modernisieren oder einen ausgewogenen CPU/GPU-Knoten konfigurieren – die SR650 V4 erfüllt alle wichtigen Anforderungen und lässt Raum für zukünftige Entwicklungen.

Produktseite

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed

Conor Houser