StorageReview.com

Comino Grando RTX PRO 6000 Testbericht: 768 GB VRAM in einem flüssigkeitsgekühlten 4U-Gehäuse

Unternehmen  ◇  Server

Comino hat uns kürzlich die neueste Version des Comino Grando zum Testen zugeschickt. Diese ist mit acht NVIDIA RTX PRO 6000 Blackwell-Karten ausgestattet, jede mit 96 GB VRAM, was insgesamt 768 GB GPU-Speicher ergibt. Wir haben die . überprüft Comino kehrt 2024 zurück, konfiguriert mit 6x RTX 4090s, die insgesamt 144 GB GPU-Speicher bietet, sowie eine Version mit NVIDIA H100Dieses neueste Update stellt einen bedeutenden Generationssprung sowohl hinsichtlich der reinen Speicherkapazität als auch des Spektrums der von der Plattform bewältigbaren Arbeitslasten dar. 

Comino Grando RTX PRO 6000 mit vollständiger Frontblende und GPU-I/O

Das Grando ist eine speziell entwickelte 4U-Plattform, die den kritischen Konflikt zwischen hoher GPU-Leistung und optimalem Wärmemanagement löst. Während herkömmliche luftgekühlte Gehäuse unter der dauerhaften TDP von über 600 W moderner Profi-Grafikkarten versagen, verfolgt das Grando einen grundlegend anderen Ansatz: Es basiert von Grund auf auf einer Flüssigkeitskühlung, die eine kontinuierliche Wärmeleistung von 6.5 kW abführen kann. Dies ist keine nachträgliche Nachrüstung oder Ergänzung; das gesamte Gehäuse, vom umgekehrten Motherboard-Layout bis zum farbcodierten Schnellanschluss-System, wurde um den Kühlkreislauf herum konstruiert.

Das Ergebnis ist eine Plattform, die acht professionelle GPUs mit voller TDP in einem einzigen 4U-Gehäuse betreiben kann – rund um die Uhr bei Umgebungstemperaturen von 3–38 °C, ohne thermische Drosselung, ohne die Lärmbelästigung durch hochtourige Luftkühlung und ohne Kompromisse bei der Wartungsfreundlichkeit. Für Unternehmen, die KI-Inferenz, maschinelles Lernen oder hochleistungsfähige Simulations-Workloads in großem Umfang einsetzen, bietet der Grando etwas wirklich Seltenes: einen Server, bei dem man sich nicht zwischen Dichte, Kühlung und Zuverlässigkeit entscheiden muss.

Comino Grando Spezifikationen

Die folgende Tabelle zeigt die physikalischen Spezifikationen und die unterstützten Hardwarekonfigurationen für die Comino Grando Plattform.

Spezifikation/Funktion Comino Grando
Comino Grando Server & Rackable Workstation
KÄLTELEISTUNG 6.5 kW (Maximal 6500 W bei 20 °C Ansauglufttemperatur)
Motherboards Bis zu EATX & EBB
GPUs (Server) Bis zu 8;
NVIDIA: RTX A6000, RTX 6000 ADA, RTX PRO 6000, A40, L40, L40S, A100, H100, H200
GPUs (Rackable Workstation) Bis zu 6;
NVIDIA: 3090, 4090, 5080, 5090, RTX A6000, RTX 6000 ADA, RTX PRO 6000, A40, L40, L40S, A100, H100, H200;
AMD: W7800, W7900
CPUs Bis zu 2;
Einzelsockel: Intel Xeon W-2400/2500 & 3400/3500, Intel Xeon Scalable 4. Generation, 5. Generation, XEON 6, AMD Threadripper PRO 5000WX, 7000WX, 9000WX, AMD EPYC 9004/9005
Dual-Sockel: Intel Xeon Scalable der 4. und 5. Generation, XEON 6, AMD EPYC 9004/9005
RAM Bis zu 2TB
M2-Laufwerke Bis zu 8x NVME
Lagerung Hot-Swap-Käfige an der Rückseite: bis zu 4x Hot-Swap-SSDs (4x 7 mm oder 2x 15 mm) und bis zu 4 weitere (4x 7 mm oder 2x 15 mm) anstelle des 4. Netzteils;
Interner 3.5″-Käfig bis zu 4x 3.5″ oder 4x 2.5″ 15 mm oder 12x 2.5″ 7 mm;
Interne 2.5″-Steckplätze: bis zu 4 x 2.5″ SSD 7 mm
Stromversorgung und Betriebsspannung Bis zu 4 x 2000 W Hot-Swap-CRPS bei 180–264 V
Bis zu 4 x 1000 W Hot-Swap-CRPS bei 90–140 V
Redundanzmodi: 4+0, 3+1, 2+2
Geräuschpegel 39dB-70dB
Lan Bis zu 2x 10 Gbit/s auf dem Mainboard und bis zu 400 Gbit/s über PCIe.
OS Ubuntu / Windows 11 (Pro/Home) / Windows Server
Physikalische und Kühlungsspezifikationen
Flüssigkeitskühlung CPU mit VRM und GPU mit GDDR und VRM
Reservoir Comino Custom 450ml mit integrierten Pumpen
Ventilatoren 3x Ultra High Flow 6200 U/min (hoher Geräuschpegel) oder
3x High Flow 3000 U/min (niedriger Geräuschpegel)
Installation 19″-Rack-montierbar oder als eigenständige Workstation
Benötigter Rackplatz 4U
Größe 439 x 681 x 177 mm (ohne Griffe und hervorstehende Teile)
Gewicht 4 GPUs: 49 kg (netto), 67 kg (brutto)
6 GPUs: 52 kg (netto), 70 kg (brutto)
8 GPUs: 55 kg (netto), 72 kg (brutto)
Betriebs- und Lagertemperaturbereich Lagerung: -5..50°C / 23..122°F
Betriebstemperatur: 3..38°C / 38..100°F
Comino-Überwachungssystem (CMS)
Übersicht Steuerplatine mit Sensoren und Software zur Echtzeitüberwachung
Wichtigste Vorteile Überwachung von Kühlsystem und CPU/GPU, Weboberfläche, Kühlsystemprotokoll, zentrale Überwachung für Arbeitsgruppen
Sensoren und vernetzte Geräte Temperatur (Luft und Kühlmittel), Luftfeuchtigkeit in %, Spannung, Kühlmitteldurchfluss, Kühlmittelstand im Ausgleichsbehälter, Lüfter, Pumpen, Hauptplatine, Display und Tasten
Integrationsmöglichkeiten Richten Sie die Überwachung über eine REST-API ein und übertragen Sie Sensordaten an Überwachungssoftware (z. B. Zabbix, Grafana) oder Datenbanken (z. B. InfluxDB).
CMS-technische Anforderungen
OS Windows-11 / 10
Ubuntu 22.04/20.4 (Abhängigkeit für Ubuntu: Auf dem Zielsystem müssen die Dienstprogramme nvidia-smi und sensors installiert sein)
Web Browsers Mozilla Firefox, Google Chrome, Chromium, Apple Safari, Microsoft Edge (Achtung: Internet Explorer 11 wird nicht unterstützt)
Festplattenlaufwerk 300MB
Controller-Firmware-Version 1.0.6 oder neuer
Controller-PCB-Version 2.xx.xx

Design, Konstruktion und GPU-Dichte

Chassis-Layout und -Einsatz

Der Grando Server ist ein Paradebeispiel für optimale Raumausnutzung und misst 17.3 x 26.8 x 6.97 cm (4 HE). Anders als bei herkömmlichen Servern befindet sich die Rückseite des Mainboards an der Vorderseite des Gehäuses, wodurch das übliche interne Layout umgekehrt wird. Dies gewährleistet, dass luftgekühlte Komponenten wie RAM-Module und VRMs die kühlstmögliche Ansaugluft erhalten, bevor diese den Flüssigkeitskühlungsradiator an der Rückseite erreicht.

Das Gehäuse selbst entspricht denselben hohen Standards und besteht aus robustem Stahl mit einer mattschwarzen Pulverbeschichtung innen und außen. Diese bewusste Materialwahl erstreckt sich auch auf die Schläuche, Kabel, den Kühlkörper und die Lötstoppmaske der Leiterplatte und unterstreicht den Anspruch auf ein durchgängig sauberes und professionelles Erscheinungsbild. Darüber hinaus ist das System flexibel einsetzbar und kann sowohl als 19-Zoll-Rackgerät als auch als eigenständiges Desktop-Gerät verwendet werden. Je nach Konfiguration wiegt es zwischen 148 und 159 kg.

Comino Grando RTX PRO 6000 Draufsicht

GPU-Kühlplatten und Wasserkühler

Die eigens entwickelten Kupfer-Wasserkühler bilden das Herzstück der kompakten Grando-Kühlung und kühlen nicht nur den GPU-Die, sondern auch andere Komponenten wie Speicher und Spannungsregler. Jede GPU wird als Standardkarte geliefert, auf der Comino eine spezielle Kühlplatte montiert. Dank dieses flachen Designs belegt jede Karte nur einen Steckplatz, sodass sechs oder sogar acht professionelle GPUs nebeneinander in einem einzigen 4U-Gehäuse Platz finden. Unser Testgerät war mit acht NVIDIA RTX PRO 6000 Blackwell-Karten ausgestattet, jede mit einer TDP von 600 W, was unter Volllast einen Kühlbedarf von insgesamt 4,800 W ergab.

Comino Grando NVIDIA RTX PRO 6000 Paar Kühlerseitenprofil

Die für Comino typische GPU-Dichte von acht Einzelsteckplätzen wäre mit Luftkühlung nahezu unmöglich, da standardmäßige NVIDIA RTX PRO 6000-Karten jeweils zwei Steckplätze belegen und einen erheblichen Luftstrom benötigen. Im Gegensatz dazu belegen diese individuell gekühlten Karten jeweils nur einen Steckplatz. Die Kühlplatten sind robust gebaut und erhöhen das Gewicht der Karten spürbar, was jedoch die in dieser Preisklasse erforderliche Qualität und Kühlleistung widerspiegelt.

Jedes GPU-Paar ist über einen separaten Verteiler mit dem Hauptverteiler verbunden, der beide Karten an einen einzigen Ein- und Auslass anschließt. Diese paarweise Anordnung vereinfacht die gesamte Kreislaufarchitektur, reduziert die Anzahl der Verbindungen am Hauptverteiler und ermöglicht es dem Techniker, zwei Karten gleichzeitig durch das Trennen eines einzigen Schnellkupplungspaares zu entnehmen, was die Wartung weiter vereinfacht.

Comino Grando verbindet zwei GPU-Karten mit Schläuchen und Schnellkupplungen

Wasserverteilung und Verteiler

Im Zentrum des Systems befindet sich ein großer Wasserverteiler, der die Kühlplatten von GPU und CPU mit Kühlflüssigkeit versorgt und den Rücklauf zum Radiator herstellt. Alle Verbindungen zwischen Verteiler und GPUs/CPU erfolgen über Comino „TheQ“-Schnellkupplungen. Diese tropffreien Edelstahl-Fittings sind mit roten und blauen Ringen farbcodiert, um die warme und kalte Seite des Kreislaufs eindeutig zu kennzeichnen und so jegliche Unklarheiten bei Installation und Wartung zu vermeiden.

Comino Grando TheQ Schnellkupplungen Nahaufnahme

Sie hinterlassen beim Trennen nur minimale Rückstände auf der Kontaktfläche, sodass Techniker einzelne GPUs oder die CPU entfernen oder austauschen können, ohne den 450-ml-Ausgleichsbehälter oder den restlichen Kühlkreislauf entleeren zu müssen. Dadurch vereint Grando die Wartungsfreundlichkeit luftgekühlter Systeme mit einer leistungsstarken Flüssigkeitskühlung.

CPU-Kühlung und Arbeitsspeicher

Die CPU und ihre Spannungsregler profitieren zudem von einer separaten Kühlplatte, die direkt mit dem Kühlkreislauf verbunden ist. Dadurch wird verhindert, dass der Prozessor bei intensiver Multi-GPU-Auslastung zum Flaschenhals wird. Unser Testgerät war mit einem AMD Turin/Genoa-Mainboard und einem einzelnen AMD EPYC 9474F 48-Kern-Prozessor ausgestattet. Die Kühlplatte entspricht der hohen Qualität der Kühlplatten der Grafikkarte: Sie ist aus massivem Kupfer gefertigt und mit Edelstahlschrauben befestigt.

Comino Grando CPU-Wasserblock

Beidseitig der CPU befinden sich acht vollständig bestückte DRAM-Steckplätze, die Konfigurationen mit bis zu 2 TB RAM unterstützen. Unser Testgerät war mit 512 GB DDR5-RAM ausgestattet. Ein Stützbügel verläuft oberhalb des GPU- und CPU-Bereichs des Gehäuses, senkrecht zu diesen, und sichert empfindliche Komponenten wie die GPU. Zudem gewährleistet er die Stabilität des Gehäuses während des Transports.

Kühler und Lüfter

Die Kühlung erfolgt durch einen großen, dreifachen 140-mm-Radiator an der Gehäuserückseite, der mit drei schnelllaufenden 140-mm-Lüftern kombiniert ist. Diese erreichen Drehzahlen von bis zu 6,200 U/min und fördern bis zu 1,000 m³/h Luft. Die dichte Lamellenanordnung des dicken Radiators unterstreicht die hohe thermische Leistungsfähigkeit der Plattform, die in unserer Konfiguration eine Dauerwärmeleistung von bis zu 6.5 kW abführen kann.

Am überraschendsten ist wohl, dass das Gerät trotz dieser hohen Belastung und Lüfterdrehzahlen einen erträglichen Geräuschpegel beibehält. Dieser liegt selbst bei Volllast bei über 70 dB. Für einen Arbeitsplatz ist das laut, aber bemerkenswert niedrig für ein System, das die Wärmeleistung eines kleinen Elektroofens abführt. Das zeigt, wie effektiv der Flüssigkeitskreislauf des Comino die Wärme von den Komponenten abführt.

Comino Grando Kühler und Lüfter

Frontplatte und Telemetrieanzeige

Auf der Vorderseite zeigt ein LED-Display wichtige Telemetriedaten in Echtzeit an, darunter Pumpenstatus, Umgebungslufttemperatur, Kühlmitteltemperatur und Lüfterdrehzahl. Die Menüführung erfolgt über beleuchtete Tasten am Kühlmodul. Kurzes Drücken ermöglicht das Durchblättern der verfügbaren Daten. Durch langes Drücken der Taste PB2 werden weitere Menüpunkte wie Befehle, Serviceeinstellungen und ein Ereignisprotokoll geöffnet. Zusätzlich verfügt das Front-I/O-Panel über einen VGA-Anschluss für die Bildausgabe, eine serielle Schnittstelle, mehrere USB-Anschlüsse und Netzwerkanschlüsse für Peripheriegeräte.

Comino Grando Front-I/O- und Ein-/Ausschalter mit LCD-Display

Energie- und Speicherarchitektur

Stromversorgung und Redundanz

Um diese Rechenleistung zu gewährleisten, ist eine ebenso robuste Stromversorgung erforderlich. Der Grando unterstützt bis zu vier Hot-Swap-fähige 1000-W- oder 2000-W-CRPS-Module in redundanter Konfiguration und liefert bis zu 8.0 kW bei 180–264 V. Dank der Unterstützung von 4+0-, 3+1- und 2+2-Redundanzmodi kann das System Netzteilausfälle tolerieren und gleichzeitig den unterbrechungsfreien Betrieb für KI- und HPC-Workloads rund um die Uhr sicherstellen.

Comino Grando RTX PRO 6000 Heckstromversorgung und -speicher.

Unser Testgerät wurde mit vier Great Wall 2000W 80 Plus Platinum Hot-Swap-Netzteilen ausgeliefert, die zusammen die volle 8.0-kW-Konfiguration bilden.

Comino Grando Single Hot-Swap 2000W Netzteil

Die Stromversorgung der einzelnen GPUs erfolgt über eine zentrale 12-polige Stromverteilerplatine, die zwischen dem GPU-Array und dem Hauptkabelbaum montiert ist. Das Grando-System nutzt diese Verteilerplatine, um die eingehenden Stromzufuhrsignale zu bündeln und sie dann platzsparend und übersichtlich an die einzelnen GPUs zu verteilen.

Comino Grando GPU-Stromanschluss und Kabel

PCIe, Speicher und Netzwerk

Das Grando unterstützt problemlos sechs GPUs ohne Einbußen bei der Steckplatzbandbreite und lässt sich für maximale Dichte auf bis zu acht Karten skalieren. Das ASRock Rack GENOAD8X-2T/BCM-Mainboard des Comino bietet sieben x16- und einen x8-PCIe-Gen-5-Steckplatz. Das bedeutet, dass sieben der acht GPUs mit voller x16-Bandbreite laufen, während die achte Karte mit x8 arbeitet. Dies ist ein Kompromiss zwischen der Anzahl der PCIe-Lanes, die eine Single-Socket-CPU unterstützt, und Cominos Abneigung gegen die Größe, die Kosten und die Komplexität einer PCIe-Switch-Platte. Ein Dual-Socket-Mainboard würde zwar mehr PCIe-Lanes bieten, aber noch weniger Steckplätze, da der zweite Sockel Platz belegen würde, der im beengten Formfaktor sonst von PCIe-Steckplätzen genutzt wird.

Comino Grando GPU-Display-Konnektivität.

Der Betrieb von acht GPUs in einem Single-Socket-System beansprucht den Großteil der verfügbaren PCIe-Lanes, was Kompromisse mit sich bringt. Unser Testsystem, basierend auf AMD Genoa, verfügt über insgesamt 128 PCIe-Gen-5-Lanes. Da die acht GPUs 120 dieser Lanes belegen, werden die verbleibenden acht Lanes viermal auf die M.2-SSD-Steckplätze aufgeteilt. Daher ist es nicht möglich, gleichzeitig acht GPUs und eine vollständige Anzahl von NVMe-Laufwerken an der Gehäuserückseite über die beiden MCIO-Anschlüsse zu betreiben. In unserer Konfiguration mit acht GPUs standen nur zwei M.2-Steckplätze für Speicher zur Verfügung. Administratoren, die neben maximaler GPU-Dichte zusätzliche NVMe-Kapazität benötigen, sollten beachten, dass das Hinzufügen von Hot-Swap-fähigen NVMe-Speichern über die rückseitigen Einbauschächte zusätzliche PCIe-Lanes belegt und die GPU-Kapazität des Systems reduziert.

Comino Grando Single Socket Motherboard Blockdiagramm

Blockdiagramm des ASRock Rack GENOAD8X-2T/BCM Motherboards mit CPU, PCIe Gen 5 Steckplätzen, DIMM-Kanälen, M.2 Steckplätzen, BMC, USB, SATA und Netzwerkanschlüssen.

Die Speicherkapazität ist ebenso modular und umfangreich, wobei die Konfiguration die verfügbaren PCIe-Steckplätze für GPUs beeinflusst. Dies sollte bei der Planung des jeweiligen Anwendungsfalls berücksichtigt werden. Die Rückseite unseres Testgeräts verfügt über einen 2.5-Zoll-Laufwerkskäfig für bis zu vier 2.5-Zoll-SSDs (entweder 4x 7 mm oder 2x 15 mm). Optional kann anstelle des vierten Netzteils ein zweiter Satz für bis zu vier SSDs eingerichtet werden. Da unser Testgerät für die volle 8-GPU-Konfiguration alle vier Netzteilschächte benötigte, stand uns nur der erste der beiden Hot-Swap-Schächte zur Verfügung. Intern bietet das Gehäuse Platz für einen 3.5-Zoll-Käfig mit bis zu vier 3.5-Zoll-Laufwerken, vier 2.5-Zoll-Laufwerken (15 mm) oder bis zu zwölf 2.5-Zoll-Laufwerken (7 mm). Zusätzlich stehen bei entsprechender Konfiguration vier weitere interne 2.5-Zoll-SSD-Steckplätze (7 mm) zur Verfügung.

Comino Grando 2.5" SSD-Einschübe

Für die Netzwerkverbindung verfügt das Mainboard standardmäßig über zwei integrierte RJ45-Ports mit 10 Gbit/s, die vom Broadcom BCM57416 unterstützt werden, sowie einen dedizierten Gigabit-Ethernet-IPMI-Management-Port. Administratoren können die Bandbreite durch die Installation von PCIe-Netzwerkkarten mit bis zu 400 Gbit/s für hochbandbreitenfähige Fabric-Verbindungen weiter erhöhen. Dabei ist jedoch zu beachten, dass zusätzliche PCIe-Netzwerkkarten GPU-Steckplätze belegen und somit die maximale Anzahl der vom System unterstützten GPUs reduzieren.

Comino Grando: Ansicht der Kartenröhren und M.2-Speicher

Fernverwaltung und Systemintelligenz

Zum Schutz der Hardware und zur Leistungsoptimierung ist das System mit dem Comino Monitoring System (CMS) ausgestattet. Eine separate, autonome Steuerplatine steuert das CMS und fungiert unabhängig vom Hauptbetriebssystem als „Gehirn“ des Servers. Diese Steuerplatine liest in Echtzeit die Daten einer Vielzahl von Sensoren aus, die Luft- und Kühlmitteltemperaturen, Luftfeuchtigkeit, Kühlmitteldurchfluss und Füllstände im Ausgleichsbehälter erfassen. Entscheidend ist, dass das CMS dank dieser autonomen Bauweise eine Selbstdiagnose durchführen und bei Erkennung eines Lecks oder Pumpenausfalls eine Notabschaltung auslösen kann, um die teure interne Hardware vor Schäden zu schützen.

Eine webbasierte Benutzeroberfläche übernimmt die tägliche Verwaltung und bietet Administratoren einen umfassenden Überblick über Kühlleistung, Verfügbarkeit und Echtzeit-Energieverbrauch von CPU und GPUs. Für unternehmensweite Installationen lässt sich das CMS zudem über REST-APIs mit zentralen Überwachungstools wie Zabbix, Grafana und InfluxDB verbinden. Diese Funktionen ermöglichen es Administratoren, einen Wartungszyklus von drei Jahren einzuhalten und den Server auch in Umgebungen mit hoher Umgebungstemperatur und ohne thermische Drosselung mit maximaler Effizienz zu betreiben.

Jenseits der KI: Kreative und technische Anwendungen

Unsere Tests konzentrierten sich zwar auf KI-Inferenz-Workloads, doch die Grando eignet sich ebenso gut für Kreativprofis und Ingenieure, die umfangreiche lokale GPU-Rechenleistung benötigen. Die insgesamt 768 GB VRAM, verteilt auf acht RTX PRO 6000-Karten, ermöglichen Funktionen, die herkömmliche Workstation-Konfigurationen nicht bieten können.

FX-Künstler und Motion-Graphics-Profis können komplexe Szenen mit umfangreichen Textursätzen vollständig im VRAM rendern und so die Engpässe durch Festplattenzugriffe vermeiden, die Produktionen mit 8K-Material oder hochauflösenden Umgebungen häufig behindern. CAD-Ingenieure, die Strömungssimulationen oder Struktursimulationen durchführen, können Bauteile von beispielloser Komplexität bearbeiten, ohne ihre Modelle in mehrere Durchläufe aufteilen zu müssen. Videoeditoren, die mit Multi-Stream-8K-RAW-Timelines arbeiten, Coloristen, die ML-basierte Rauschunterdrückung in voller Auflösung anwenden, und 3D-Künstler, die Path-Tracing-Finals lokal rendern, anstatt auf die Verfügbarkeit von Cloud-Ressourcen zu warten, profitieren alle von dieser hohen GPU-Speicher- und Rechenleistung.

Die Grando benötigt keine vollständige Acht-GPU-Konfiguration. Comino bietet die Plattform mit vier, sechs und acht GPUs an, alle Varianten sind sofort lieferbar. Kleinere Studios, unabhängige Kreative und Entwicklerteams können ihre Investition optimal an ihren aktuellen Bedarf anpassen und gleichzeitig bei steigendem Arbeitsaufkommen problemlos aufrüsten.

Plattform-Kompromisse: Dichte vs. Erweiterbarkeit

Das kompakte Design des Grando ermöglicht eine außergewöhnliche GPU-Dichte und ein hervorragendes Wärmemanagement innerhalb eines Standard-4U-Gehäuses, doch diese Dichte bringt architektonische Kompromisse mit sich, die vor der Installation verstanden werden sollten.

Das Gehäuse ist mit Mainboards im EATX- und EEB-Formfaktor kompatibel, jedoch nicht mit erweiterten Server-Mainboards, wie sie in herkömmlichen Dual-Socket-Plattformen zu finden sind. Dies begrenzt die Anzahl der für Peripheriegeräte über die GPU-Anschlüsse hinaus verfügbaren PCIe-Lanes. In unserer Konfiguration mit acht GPUs werden die 128 PCIe-Gen-5-Lanes des AMD EPYC-Prozessors nahezu vollständig von den GPUs belegt, sodass kaum Bandbreite für zusätzlichen NVMe-Speicher oder Hochgeschwindigkeitsnetzwerke über die integrierten 10-GbE-Anschlüsse hinaus verbleibt.

Dies steht im Gegensatz zu den von uns getesteten Acht-GPU-Plattformen von Dell, HPE und Supermicro. Diese Systeme nutzen größere Gehäuse, Dual-Socket-Konfigurationen und PCIe-Switch-Topologien, um deutlich mehr Peripherieanschlüsse zu ermöglichen. Sie bieten typischerweise Platz für vier bis acht zusätzliche Netzwerkkarten (NICs) oder dedizierte CPUs (DPUs) neben der vollständigen GPU-Ausstattung sowie acht oder mehr Hot-Swap-fähige NVMe-Einschübe. Dadurch eignen sie sich hervorragend für verteilte Inferenz-Workloads, die hochbandbreitige Fabric-Verbindungen erfordern.

Diese erweiterten Funktionen haben jedoch ihren Preis. Der Stromverbrauch liegt über 8 kW. Die thermische Belastung erfordert eine dedizierte Kühlinfrastruktur für Rechenzentren. Der hohe Geräuschpegel schließt einen Einsatz außerhalb speziell dafür vorgesehener Serverräume aus. Und die Lieferzeiten betragen aufgrund anhaltender Lieferengpässe bei Enterprise-GPU-Plattformen häufig sechs bis achtzehn Monate.

Grando nimmt eine andere Position ein. Für Organisationen, die Wert auf schnelle Bereitstellung, überschaubare Betriebsumgebungen und Inferenz- oder kreative Workloads legen, anstatt auf groß angelegtes verteiltes Training, sind die Vorteile oft vorteilhaft. Teams, die ihre Hardware sofort und in einer realisierbaren Umgebung benötigen, finden Grandos Dichteansatz möglicherweise praktischer, als auf eine Plattform zu warten, die sie nach deren Eintreffen nicht praktikabel einsetzen können.

Ergebnisse der Leistungsprüfung von Comino Grando

Comino Grando Wasserkühlungsverteiler (Draufsicht)

Systemkonfiguration

  • Fahrwerk: Comino Grando
  • Motherboard: ASRock Rack GENOAD8X-2T/BCM
  • ZENTRALPROZESSOR: AMD EPYC 9474F 48C
  • Erinnerung: 512 GB DDR5
  • GPU: 8 x NVIDIA RTX PRO 6000
  • Lagerung: M.2 SSD

Claude Code Serving – MiniMax M2.5

Über die üblichen Benchmarks für LLM-Inferenz hinaus wollten wir die Leistungsfähigkeit dieser Hardware in einem agentenbasierten Codierungs-Workflow evaluieren, insbesondere durch die gleichzeitige Nutzung mehrerer Claude-Code-Sitzungen mit einem lokal gehosteten Modell. Dieser Anwendungsfall ist direkt auf die Produktivität von Entwicklungsteams übertragbar: Wie viele Entwickler können gleichzeitig einen KI-Codierungsassistenten nutzen, der von einem einzelnen Knoten bereitgestellt wird, bevor die Benutzerfreundlichkeit nachlässt?

Um dies zu testen, haben wir ein Benchmark-System entwickelt, das einen Datensatz mit mittelschweren Programmieraufgaben generiert (z. B. die Implementierung eines LRU-Caches, die Entwicklung einer CLI-Todo-Anwendung, das Schreiben eines Markdown-Konverters und die Erstellung einer REST-API). Jede Claude-Code-Sitzung wird in einem separaten Docker-Container auf dem lokalen vLLM-Server ausgeführt. Ein transparenter Proxy befindet sich zwischen den Sitzungen und dem Inferenz-Endpunkt und erfasst die Metriken pro Anfrage für jede Claude-Code-Instanz. Als Modell wurde MiniMax M2.5 verwendet, das über vLLM auf den acht NVIDIA RTX PRO 6000 GPUs des Systems bereitgestellt wurde. Obwohl M2.5 nicht das am besten bewertete Programmiermodell in öffentlichen Ranglisten ist, handelt es sich um ein leistungsfähiges Modell, das von vielen Nutzern, darunter auch unseren Entwicklerkollegen, lokal eingesetzt wird.

Als Referenzwert verwenden wir den durchschnittlichen Durchsatz von Anthropics Claude Opus 4.6 über OpenRouter.ai, einem der beliebtesten Routing-Dienste für den produktiven API-Zugriff. Dieser Wert liegt bei etwa 37 Token pro Sekunde und API-Anfrage.

Wir haben zwei wichtige Kennzahlen gemessen: die durchschnittliche Anzahl der Ausgabetoken pro Sekunde pro Claude Code-Sitzung (was jeder Entwickler erlebt) und die Gesamtanzahl der Ausgabetoken pro Sekunde über alle Sitzungen hinweg (die gesamte Arbeit, die der Server leistet).

Den Ergebnissen zufolge erreicht eine einzelne Claude Code-Sitzung 67.3 tok/s pro Benutzer und eine Gesamtleistung von 64.7 tok/s. Bei zwei Sitzungen sinkt der Durchsatz pro Instanz leicht auf 57.4 tok/s, während die Gesamtleistung auf 95.1 tok/s ansteigt, da die Batchverarbeitung von vLLM den Overhead reduziert. Vier gleichzeitige Sitzungen erreichen weiterhin 49.2 tok/s pro Benutzer – eine nach wie vor hohe Reaktionsgeschwindigkeit für interaktive Codierungs-Workflows – und einen Gesamtdurchsatz von 177.2 tok/s. Acht Sitzungen stellen den optimalen Wert für die Gesamtleistung dar, die mit 206.7 tok/s ihren Höchstwert erreicht, während sich der Durchsatz pro Instanz bei 38.7 tok/s einpendelt – ein Wert, der für die Echtzeit-Codegenerierung und -Iteration weiterhin gut geeignet ist.

Bei 16 gleichzeitigen Sitzungen zeigt das System den klassischen Kompromiss beim Batching: Der Durchsatz pro Instanz sinkt auf 31.1 kB/s, und die Gesamtleistung fällt auf 105.8 kB/s. Dies deutet darauf hin, dass das 230B MiniMax M2.5-Modell bei dieser Anzahl gleichzeitiger Sitzungen an die Grenzen dessen stößt, was acht GPUs leisten können, ohne für jeden Benutzer eine nennenswerte Latenz zu verursachen. Der Rückgang der Gesamtleistung von 8 auf 16 Sitzungen spiegelt den Speicher- und Bandbreitenbedarf einer großen MoE-Architektur unter hoher gleichzeitiger Dekodierungslast wider und ist nicht auf eine Ineffizienz der Ablaufplanung zurückzuführen.

Für Organisationen, die eine selbstgehostete KI-Infrastruktur für Entwicklertools evaluieren, ist Grando eine überzeugende Option. Mit einem hochmodernen 230B-Modell kann es problemlos bis zu acht Claude Code-Sitzungen gleichzeitig mit einem Durchsatz bedienen, der sich wirklich interaktiv anfühlt. Die Geschwindigkeiten pro Benutzer erreichen Spitzenwerte von über 38 Kilobyte pro Sekunde. Teams von vier bis acht Entwicklern können nahezu optimal arbeiten, ohne dass die Reaktionsfähigkeit spürbar beeinträchtigt wird.

Die flüssigkeitsgekühlte Architektur ermöglicht diese Rechenleistung auch in Umgebungen, in denen herkömmliche GPU-Server nicht funktionieren. Das System arbeitet so leise, dass es sich ideal für Start-up-Büros, kleine Serverräume oder abgetrennte Bereiche in Großraumbüros eignet. Luftgekühlte Systeme mit vergleichbarer GPU-Dichte erreichen typischerweise 90 dB oder mehr, was so laut ist, dass ein eigener Rechenzentrumsplatz oder zumindest ein geschlossener Serverraum mit umfassender Schalldämmung erforderlich ist. Grando hingegen kann problemlos mit dem Team, das es nutzt, koexistieren. Dank vollständiger Datenlokalität, keiner API-Kosten pro Token und voller Kontrolle über die Modellauswahl bietet es eine selbstgehostete Lösung, die mit einem wachsenden Entwicklerteam skaliert, ohne dass Rechenzentrumsinfrastruktur oder gleichlaufende Kostensteigerungen notwendig sind.

vLLM Online-Bereitstellung – LLM-Inferenzleistung

vLLM ist eine der beliebtesten Inferenz- und Server-Engines für LLMs mit hohem Durchsatz. Der vLLM Online-Server-Benchmark evaluiert die Serverleistung dieser Inferenz-Engine unter realen Bedingungen bei gleichzeitigen Anfragen. Er simuliert Produktionslasten, indem er Anfragen an einen laufenden vLLM-Server sendet. Dabei lassen sich Parameter wie Anfragerate, Eingabe- und Ausgabelängen sowie die Anzahl der gleichzeitigen Clients konfigurieren. Der Benchmark misst wichtige Kennzahlen wie Durchsatz (Tokens pro Sekunde), Zeit bis zum ersten Token und Zeit pro Ausgabetoken (TPOT). So können Benutzer die Leistung von vLLM unter verschiedenen Lastbedingungen besser verstehen.

Wir haben die Inferenzleistung anhand einer umfassenden Reihe von Modellen getestet, die verschiedene Architekturen, Parameterskalen und Quantisierungsstrategien umfassen, um den Durchsatz unter verschiedenen Parallelitätsprofilen zu bewerten.

Zusammenfassung der Ergebnisse

Modell Präzision Gleich (256/256) Vorfüllung stark (8k/1k) Dekodierungsintensiv (1k/8k)
Comino Grando mit 8× RTX PRO 6000 Blackwell — vLLM Inferenzergebnisse (tok/s, Spitze bei BS=256)
GPT-OSS 20B ep_dp1 17,280 32,061 11,187
GPT-OSS 120B ep_dp1 11,726 21,636 7,570
Lama 3.1 8B Anweisung FP8 12,109 20,137 7,353
Lama 3.1 8B Anweisung FP4 11,954 20,206 7,239
Lama 3.1 8B Anweisung BF16 11,752 17,346 6,155
Qwen3 Coder 30B A3B FP8 10,985 16,659 4,907
Qwen3 Coder 30B A3B BF16 10,588 16,680 4,829
Mistral Small 3.1 24B BF16 8,925 11,846 4,975
MiniMax M2.5 (230B) ep_dp1 5,753 7,357 * 2,555
Alle Werte in Tonnen/s, maximaler Durchsatz bei BS=256. *MiniMax M2.5 prefill-heavy erreichte einen Spitzenwert bei BS=128 (7,357 Tonnen/s); bei BS=256 waren es 7,141 Tonnen/s.

GPT-OSS 120B und 20B

Die GPT-OSS-Modellfamilie wurde sowohl in der 120B- als auch in der 20B-Konfiguration auf der Comino Grando getestet.

GPT-OSS 120B

Bei gleicher Auslastung (256/256) liefert das Modell 120B 268.85 tok/s bei BS=1, erreicht 6,666.23 tok/s bei BS=64 und einen Spitzenwert von 11,726.04 tok/s bei BS=256. Bei hoher Vorfüllung (8k/1k) beginnt die Leistung bei 1,375.69 tok/s, steigt auf 16,374.19 tok/s bei BS=64 und 17,944.55 tok/s bei BS=128 und erreicht einen Spitzenwert von 21,636.41 tok/s bei BS=256. Bei dekodierungsintensiven Anwendungen (1k/8k) steigt die Latenz von 196.28 tok/s bei BS=1 auf 7,569.97 tok/s bei BS=256, wobei die Latenz bei niedrigeren Parallelitätsniveaus gut kontrolliert wird.

GPT-OSS 20B

Das Modell 20B erreicht bei gleicher Auslastung und BS=1 eine Leistung von 334.80 t/s, bei BS=64 10,303.56 t/s und bei BS=256 einen Spitzenwert von 17,280.12 t/s. Bei starker Vorfüllung beginnt die Leistung bei 2,007.90 t/s, steigt auf 24,990.46 t/s bei BS=64 und 26,866.25 t/s bei BS=128 und erreicht bei BS=256 einen Spitzenwert von 32,060.72 t/s – den höchsten jemals gemessenen absoluten Vorfülldurchsatz beider Modellgrößen. Der Decode-intensive Prozess wächst von 286.08 tok/s bei BS=1 auf 11,187.36 tok/s bei BS=256 und erreicht damit etwa das 1.5-fache des Decode-Durchsatzes des 120B bei maximaler Parallelität, während gleichzeitig eine geringere Latenz beibehalten wird.

Qwen3 Coder 30B A3B Instruct und FP8 Instruct

Das Modell Qwen3-Coder-30B-A3B-Instruct wurde sowohl mit BF16- als auch mit FP8-Genauigkeit getestet.

Qwen3-Coder-30B-A3B-Instruct (BF16)

Bei gleicher Auslastung (256/256) liefert das Modell BF16 1,902.32 tok/s bei BS=8, erreicht 6,683.58 tok/s bei BS=64 und einen Spitzenwert von 10,587.56 tok/s bei BS=256. Bei hoher Vorfüllung (8k/1k) beginnt die Leistung bei 1,256.03 tok/s bei BS=1, steigt auf 14,400.57 tok/s bei BS=64 und 15,308.35 tok/s bei BS=128 und erreicht einen Spitzenwert von 16,679.52 tok/s bei BS=256. Bei dekodierungsintensiven Anwendungen (1k/8k) steigt die Latenz von 169.19 tok/s bei BS=1 auf 4,828.82 tok/s bei BS=256, wobei die Latenz bei niedrigeren Parallelitätsniveaus gut kontrolliert wird.

Qwen3-Coder-30B-A3B-Instruct (FP8)

Das FP8-Modell bietet in den meisten Szenarien einen mit BF16 vergleichbaren Durchsatz. Bei gleicher Arbeitslast erreicht es 6,478.54 kJ/s bei BS=64 und einen Spitzenwert von 10,984.61 kJ/s bei BS=256 – eine leichte Verbesserung gegenüber BF16 bei maximaler Parallelität. Bei hohem Prefill-Aufkommen beginnt der Durchsatz bei 987.48 kJ/s bei BS=1, steigt auf 14,036.46 kJ/s bei BS=64 und 15,156.69 kJ/s bei BS=128 und erreicht einen Spitzenwert von 16,658.98 kJ/s bei BS=256. Decode-heavy wächst von 130.70 tok/s bei BS=1 auf 4,906.51 tok/s bei BS=256 und übertrifft BF16 bei maximaler Parallelität geringfügig, während die beiden Konfigurationen im restlichen Parallelitätsbereich nahezu gleich bleiben.

Mistral Small 3.1 24B Anleitung 2503

Bei gleicher Auslastung (256/256) liefert das Modell 1,598.79 tok/s bei BS=8, erreicht 4,713.84 tok/s bei BS=64 und skaliert stark auf 8,925.12 tok/s bei BS=256. Bei hoher Vorlast (8k/1k) beginnt die Leistung bei 897.84 tok/s bei BS=1, steigt auf 9,632.58 tok/s bei BS=64 und 11,488.13 tok/s bei BS=128 und erreicht ihren Höchstwert von 11,846.15 tok/s bei BS=256. Der Dekodier-intensive (1k/8k) Durchsatz steigt von 124.98 tok/s bei BS=1 auf 2,653.82 tok/s bei BS=64 und beschleunigt sich dann bei höheren Parallelitätsstufen merklich, erreicht 4,262.53 tok/s bei BS=128 und einen Spitzenwert von 4,975.06 tok/s bei BS=256, was die Fähigkeit des Modells widerspiegelt, einen starken Dekodierungsdurchsatz bei steigender Parallelität aufrechtzuerhalten.

Lama 3.1 8B Anweisung

Das Llama-3.1-8B-Instruct-Modell wurde auf dem Comino in drei Präzisionskonfigurationen getestet, wodurch ein klarer Überblick darüber gewonnen wurde, wie sich die Quantisierung auf den Durchsatz für diese Modellgröße auswirkt.

Lama 3.1 8B Anleitung BF16

Bei gleicher Auslastung (256/256) liefert das Modell BF16 2,776.42 tok/s bei BS=8, erreicht 7,369.01 tok/s bei BS=64 und einen Spitzenwert von 11,751.56 tok/s bei BS=256. Bei hoher Vorfüllung (8k/1k) beginnt die Leistung bei 1,645.29 tok/s bei BS=1, steigt auf 14,990.47 tok/s bei BS=64 und 17,140.71 tok/s bei BS=128 und erreicht einen Spitzenwert von 17,345.80 tok/s bei BS=256. Der Decode-intensive (1k/8k)-Anteil steigt von 234.78 tok/s bei BS=1 auf 6,154.73 tok/s bei BS=256.

Llama 3.1 8B Instruct FP8

Die FP8-Quantisierung führt in allen Szenarien zu einer deutlichen Leistungssteigerung. Bei gleichmäßiger Auslastung erreicht die Leistung 7,530.39 kb/s bei BS=64 und einen Spitzenwert von 12,108.98 kb/s bei BS=256. Bei hohem Prefill-Anteil steigt die Leistung auf 16,546.53 kb/s bei BS=64 und 19,306.49 kb/s bei BS=128, mit einem Spitzenwert von 20,137.35 kb/s bei BS=256. Dies entspricht einem Zuwachs von rund 16 % gegenüber BF16 bei maximaler Parallelität. Bei hohem Dekodierungs-Anteil erreicht die Leistung einen Spitzenwert von 7,353.40 kb/s bei BS=256, was etwa 19 % über BF16 liegt.

Llama 3.1 8B Instruct FP4

FP4 bietet bei höheren Parallelitätsstufen einen Durchsatz, der mit FP8 nahezu konkurrenzfähig ist, liegt jedoch bei kleineren Batchgrößen etwas zurück. Die maximale Durchsatzrate bei gleicher Arbeitslast beträgt 11,954.40 tok/s bei BS=256, und die Durchsatzrate bei hohem Prefill-Aufwand erreicht 20,205.57 tok/s bei BS=256 und übertrifft FP8 bei maximaler Parallelität knapp. Die maximale Durchsatzrate bei hohem Dekodierungsaufkommen beträgt 7,239.29 tok/s bei BS=256 und bleibt damit stets nur wenige Prozentpunkte von FP8 entfernt. Dies macht FP4 zu einer attraktiven Option, wenn Speichereffizienz Priorität hat, ohne dass ein nennenswerter Durchsatzverlust in Kauf genommen werden muss.

MiniMax M2.5

Der MiniMax-M2.5 230B, der auf der Comino Grando getestet wurde, war das größte und anspruchsvollste Modell, das wir eingesetzt haben.

Bei gleicher Arbeitslast (256/256) beginnt das Modell bei 16.35 tok/s bei BS=1, erreicht 2,751.25 tok/s bei BS=64 und skaliert bei höherer Parallelität stark mit einem Spitzenwert von 5,753.24 tok/s bei BS=256. Bei hohem Prefill-Anteil (8k/1k) beginnt das Modell bei 606.97 tok/s bei BS=1, steigt stetig auf 5,351.02 tok/s bei BS=32 und 6,557.92 tok/s bei BS=64 und erreicht seinen Spitzenwert von 7,357.26 tok/s bei BS=128, bevor es leicht auf 7,140.74 tok/s bei BS=256 abfällt. Dies deutet darauf hin, dass das Modell ab BS=128 eine Sättigung im Prefill-Durchsatz erreicht. Der dekodierungsintensive Bereich (1k/8k) wächst stetig von 82.21 tok/s bei BS=1 auf 1,485.28 tok/s bei BS=64 und erreicht einen Spitzenwert von 2,554.87 tok/s bei BS=256. Dies spiegelt den zu erwartenden Speicherbandbreitenbedarf einer 230B MoE-Architektur unter anhaltender Dekodierungslast wider.

Fazit

Das Comino Grando lässt sich am besten als System verstehen, das speziell dafür entwickelt wurde, das volle Potenzial von acht NVIDIA RTX PRO 6000 GPUs auszuschöpfen. Jede wichtige Designentscheidung, vom invertierten Motherboard-Layout über den Kühlkreislauf bis hin zum integrierten Überwachungssystem, zielt darauf ab, dass diese GPUs dauerhaft mit voller TDP von 600 W ohne thermische oder Leistungsbeschränkungen arbeiten können.

Comino Grando RTX PRO 6000 GPUs

Was das Grando so überzeugend macht, ist nicht eine einzelne Funktion isoliert betrachtet, sondern das harmonische Zusammenspiel des gesamten Systems. Die Flüssigkeitskühlung ist keine nachträglich hinzugefügte Komponente, sondern integraler Bestandteil der Architektur. Die Stromversorgung ist redundant, im laufenden Betrieb austauschbar und auf die 4,800-Watt-Last von acht 600-Watt-Grafikkarten mit ausreichend Reserve ausgelegt. Das Überwachungssystem beschränkt sich nicht nur auf die Temperaturanzeige; es schützt die Hardware selbstständig, wenn ein Fehler auftritt. Nichts hier wirkt wie ein nachträglicher Einfall.

Die Leistungszahlen unterstreichen diesen Zusammenhalt. Auf einer Vielzahl von Modellen, vom Llama 3.1 8B bis zum 230B MiniMax M2.5, lieferte der Grando Durchsatzwerte, die für eine selbstgehostete Plattform beachtlich sind. Parallelitätstests mit Claude Code verdeutlichen den praktischen Nutzen: Acht Entwickler können gleichzeitig agentenbasierte Codierungssitzungen auf einem lokal gehosteten 230B-Modell in interaktiver Geschwindigkeit ausführen, wobei der Durchsatz pro Benutzer bei maximaler Gesamtausgabe 38 kB/s übersteigt. Teams von vier bis acht Personen können nahezu optimalen Durchsatz ohne wahrnehmbare Leistungseinbußen erzielen.

Der Nutzen dieser Konfiguration geht weit über KI-Inferenz hinaus. Mit 96 GB VRAM pro GPU und dichter Multi-GPU-Skalierung eignet sich die Plattform gleichermaßen für anspruchsvolle kreative und technische Workloads, darunter VFX-Rendering, umfangreiche Simulationen und komplexe CAD-Pipelines. Das System ist auf Vier-GPU- und Zwei-GPU-Konfigurationen skalierbar und bietet somit auch kleineren Studios und Teams, die dennoch Workstation-Leistung benötigen, diese Performance.

Der größte Unterschied zwischen dem Grando und den von uns getesteten Enterprise-Plattformen mit acht GPUs liegt in der praktischen Einsatzbarkeit. Diese Systeme bieten zwar mehr PCIe-Lanes, mehr NIC-Steckplätze und eine umfassendere Speicheranbindung, benötigen aber auch eine dedizierte Rechenzentrumsinfrastruktur, verbrauchen deutlich über 8 kW und haben Lieferzeiten von über einem Jahr. Der Grando verzichtet auf einen Teil dieser Erweiterungsmöglichkeiten, ist dafür aber so leise, dass er problemlos im selben Raum wie die Nutzer aufgestellt werden kann, gibt weniger Wärme an die Umgebung ab und ist sofort lieferbar. Für Unternehmen, die Wert auf schnelle Bereitstellung und einen einfach zu verwaltenden Betrieb legen, anstatt maximale Netzwerkanbindung zu nutzen, ist dieser Kompromiss vorteilhaft.

Produktseite – Comino Grando
Comino Konfigurator – Seite

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed

Dylan Dougherty

K-12-Netzwerkadministrator mit Fachwissen in Cisco-Netzwerken, IP-Sicherheit und NAC-Lösungen. UniFi-Enthusiast und Heimlaborant, der Netzwerk- und Sicherheitsprodukte testet und überprüft.