StorageReview.com

4 GPUs in 1U: Hypertecs neuer Immersion Server bietet stabile Leistung

Unternehmen  ◇  Server

Mit dem Wachstum von KI- und HPC-Workloads steigen auch deren Leistungs- und Kühlungsbedarf. Moderne GPUs, wie beispielsweise die NVIDIA RTX PRO 6000 Blackwell Server Edition, können bis zu 600 W verbrauchen und stellen damit eine enorme thermische Belastung für herkömmliche Rechenzentrumsinfrastrukturen dar. Luftgekühlte Server können diese GPUs zwar betreiben, die Aufrechterhaltung einer stabilen Leistung bei dieser Dichte ist jedoch eine ganz andere Herausforderung. Die Kosten für die Luftzirkulation in Racks mit GPUs hoher Leistungsaufnahme steigen rapide an, insbesondere in Regionen mit hohen Strompreisen wie Nordeuropa, dem Nordosten der USA und Teilen des asiatisch-pazifischen Raums. In diesen Märkten bietet die Immersionskühlung einen messbaren betrieblichen und wirtschaftlichen Vorteil.

Der Hypertec Trident iGW610R-G6 Server wurde speziell für diesen Einsatzbereich entwickelt. Im Gegensatz zu nachgerüsteten Servern, die luftgekühlte Designs an Flüssigkeitsumgebungen anpassen, ist die Trident-Serverfamilie von Grund auf für den Betrieb in Immersionsflüssigkeit konzipiert. Das PCB-Layout wurde von Anfang an so entwickelt, dass der Server in dielektrischer Flüssigkeit arbeitet. Diese neue 1U-Plattform von Hypertec unterstützt bis zu vier GPUs in voller Höhe und Länge in einem 21-Zoll-OCP-Layout und bietet so ein optimales Verhältnis zwischen Rechenleistung und stabilem Wärmeverhalten.

 

Wir evaluierten den Trident iGW610R-G6 im Labor von Hypertec in Montreal. Zunächst führten wir Ferntests durch, bevor wir vor Ort das System im Betrieb beobachteten und dokumentierten. Die Testkonfiguration bestand aus einer einzelnen NVIDIA H100 GPU und Solidigm SSDs, die in einem mit Castrol-Dielektrikum gefüllten Tauchbecken betrieben wurden. Unter Dauerlast wies der Trident ein bemerkenswert stabiles Temperaturprofil auf, wobei die Temperaturdifferenzen der Komponenten in einem engen Bereich blieben. Diese Stabilität reduziert thermische Zyklen, die häufig die Hauptursache für langfristige Zuverlässigkeitsprobleme in Hochleistungssystemen sind, erheblich.

Die Vorteile der Immersion reichen weit über die Temperaturregelung hinaus. Dank stabiler thermischer Bedingungen können GPUs ihre maximalen Boost-Taktraten ohne Drosselung halten, CPUs arbeiten mit geringerer Variabilität und Speichergeräte liefern einen konstanten I/O-Durchsatz. Diese Gleichmäßigkeit führt zu höherer Zuverlässigkeit, vorhersehbarer Leistung und effizienterer Energienutzung pro Rack-Einheit – entscheidende Vorteile für Unternehmen, die großflächige KI- und HPC-Umgebungen aufbauen.

Diese Evaluierung baut auf unserer vorherigen Zusammenarbeit mit Hypertec auf, die in [Referenz einfügen] detailliert beschrieben wurde. Edge-KI überall: Dieses immersionsgekühlte mobile Rechenzentrum macht es möglichDieses Projekt demonstrierte das Potenzial mobiler KI-Infrastruktur am Netzwerkrand durch immersive Anwendungen. Hier liegt der Fokus auf dem Einsatz in festen Rechenzentren und zeigt, wie der Trident iGW610R-G6 und sein zugehöriges Ökosystem von Submer und Castrol eine praxisnahe Effizienz im Rackmaßstab für dichtes GPU-Computing ermöglichen.

TRIDENT iGW610R-G6 Design und Bau

Der TRIDENT iGW610R-G6 verfolgt einen deutlich anderen Ansatz als herkömmliche luftgekühlte Rack-Server. Auf den ersten Blick fällt auf, dass er keine traditionelle obere Abdeckung besitzt, wodurch die Hauptkomponenten vollständig der Kühlflüssigkeit ausgesetzt sind. Dieses offene Gehäusedesign maximiert die Kontaktfläche für eine effiziente Wärmeübertragung innerhalb der dielektrischen Flüssigkeit und macht interne Lüfter oder Luftkanäle überflüssig. Jedes Detail des Systems ist auf einphasige Immersionskühlung ausgelegt, bei der die Wärmeenergie gleichmäßig von der umgebenden Flüssigkeit und nicht durch Luftstrom aufgenommen und abgeführt wird. Das Ergebnis ist eine geräuschlose, vibrationsfreie Plattform, optimiert für leistungsstarke Rechenumgebungen mit hoher Dichte.

Trident iGW610R-G6 Vorderansicht

Das Gehäuse behält seinen 1U-Formfaktor bei und misst 84,9 × 53,5 × 4,45 cm bei einem Gewicht von ca. 32.6 kg (voll bestückt). Trotz seiner flachen Bauweise ist das Layout bemerkenswert wartungsfreundlich: Vier von vorne zugängliche E1.S NVMe-Einschübe und leicht erreichbare PCIe-Steckplätze ermöglichen einen schnellen Komponentenaustausch im Inneren des Tanks. Das Design ist direkt mit führenden Immersionstanksystemen kompatibel und bietet Plug-and-Play-Funktionalität ohne spezielle Hardwaregehäuse oder Luftstromregler.

Trident iGW610R-G6 Frontstauraum-Layout.

Unser Testsystem war mit zwei Intel Xeon 6530 Prozessoren ausgestattet, die jeweils über 32 Kerne und 160 MB Cache verfügen und eine TDP von bis zu 350 Watt pro Sockel aufweisen. Die Kühlung erfolgt über speziell angefertigte, für die Immersion optimierte Vollkupfer-Kühlkörper mit Indiumfolie als Wärmeleitmaterial, die eine effiziente Wärmeübertragung an die Kühlflüssigkeit gewährleisten. Der CPU-Komplex ist mit 32 DDR5-RDIMM-Modulen (je 32 GB Speicherkapazität) kombiniert, die mit 4800 MT/s arbeiten und somit ausreichend Bandbreite für KI-, HPC- und Datenanalyse-Workloads bieten.

 

Die Speicherkonfiguration ist eine der Stärken dieses Systems. Neben zwei 1-TB-M.2-NVMe-SSDs für das Betriebssystem beherbergt es vier Solidigm D5-P5430 E1.S-Festplatten mit je 7.68 TB als primäre Datenebene. Diese EDSFF-Festplatten bieten sowohl hohe Speicherdichte als auch beeindruckende Effizienz und nutzen die Leistung von PCIe 4.0 auf kleinstem Raum. Der E1.S-Formfaktor ist ideal für Umgebungen, in denen die Festplatten von vorne zugänglich sind und einen werkzeuglosen Austausch ermöglichen, ohne dass das Gehäuse entleert oder angehoben werden muss. Die Solidigm-Festplatten tragen außerdem zur optimalen Balance zwischen Geschwindigkeit, Ausdauer und Wärmeeffizienz des Servers bei und eignen sich daher hervorragend für die Speicherung von KI-Modellen, die Datenbereitstellung und Inferenzpipelines mit hohem Durchsatz.

 

Das System unterstützt bis zu vier Doppelbreiten-Beschleuniger und ermöglicht so eine bedarfsgerechte Skalierung der Rechenleistung. Die Netzwerkanbindung erfolgt über ein Dual-Port-10GBase-T-OCP-3.0-Modul mit 1-GbE-Unterstützung, wodurch eine breite Kompatibilität mit bestehenden Rechenzentrumsinfrastrukturen gewährleistet wird.

 

Die Stromversorgung erfolgt über redundante 1+1 3000-W-80-PLUS-Titanium-CRPS-Netzteile, die auch unter Volllast eine konstante Leistung bei gleichzeitig hoher Energieeffizienz gewährleisten. Da der Server vollständig unter Wasser ist, ist keine aktive Luftzirkulation erforderlich, wodurch Lüftergeräusche vermieden und Staubablagerungen verhindert werden. Diese Konstruktion vereinfacht nicht nur die Wartung, sondern verlängert auch die Lebensdauer der Komponenten und verbessert die Gesamtzuverlässigkeit.

Hypertec schätzt, dass der Einsatz des iGW610R-G6 in Tauchbädern eine Reduzierung der Kühlbetriebskosten um 95 % und eine Verlängerung der Hardwarelebensdauer um bis zu 60 % ermöglicht, bei einem unabhängig zertifizierten PUE-Wert von 1.03. In Kombination mit dem Potenzial zur Energierückgewinnung durch die Nutzung von bis zu 99 % der Abwärme demonstriert das System, wie hohe Leistung und Nachhaltigkeit effektiv miteinander verbunden werden können.

TRIDENT iGW610R-G6 Managementübersicht

Das TRIDENT iGW610R-G6 basiert auf einer Platine mit ASPEED AST2600 Baseboard Management Controller (BMC) und bietet volle IPMI 2.0-Kompatibilität mit iKVM und Unterstützung für virtuelle Medien. Diese Out-of-Band-Management-Plattform ermöglicht Administratoren die Überwachung, Konfiguration und Fernverwaltung des Systems unabhängig vom Betriebssystemstatus. Diese Funktionen sind unerlässlich für Umgebungen mit hoher Packungsdichte und Immersionskühlung.

Die webbasierte Benutzeroberfläche ist übersichtlich und benutzerfreundlich. Über das linke Bedienfeld haben Sie schnellen Zugriff auf Dashboard, Systeminformationen, Sensoren, Protokolle und Berichte sowie die Energieverwaltung. Jeder Bereich bietet detaillierte Einblicke in Systemzustand, Sensordaten, Firmware-Versionen und Energiesparmodi. Das Dashboard zeigt Betriebszeit, Zugriffsprotokolle und Komponenteninformationen auf einen Blick und ermöglicht so eine klare Übersicht über den Systemstatus, ohne dass zusätzliche Software erforderlich ist.

Beim Betrieb in einer Unterwasserumgebung sind diese Fernwartungsfunktionen besonders wertvoll. Anstatt Datenträger oder Peripheriegeräte physisch in den Öltank einzuführen, können Administratoren Betriebssysteme bereitstellen, Images einbinden und Updates über virtuelle Medien durchführen. Dies reduziert den Wartungsaufwand und gewährleistet einen sauberen, effizienten und sicheren Betrieb der Unterwasserhardware.

Dashboard-Systemübersicht

Das Haupt-Dashboard zeigt Betriebsstunden, Firmware-Versionen, Netzwerkdetails und den Zustand der GPU an. Es dient als zentrales Statuspanel für die TRIDENT-Plattform, wobei der BMC Temperatur-, Spannungs- und Sensordaten bereitstellt, die über IPMI-Befehle oder SNMP-Überwachungstools abrufbar sind.

Prozessorinventar

Die Prozessorseite listet jeden Sockel mit Modell, Kernanzahl und Status auf. Dieses Gerät ist mit zwei Intel Xeon Gold 6530 Prozessoren ausgestattet. Jeder Prozessor verfügt über 32 Kerne, basiert auf der x86-Architektur, ist in den Sockeln CPU1 und CPU2 installiert und aktiviert. Die Seite gibt eine maximale Taktfrequenz von 4,000 MHz an und bestätigt Architektur und Prozessorfamilie. Dadurch lässt sich leicht überprüfen, ob beide CPUs vorhanden, funktionsfähig und mit dem erwarteten Mikrocode ausgestattet sind.

Inventar der Speichercontroller

Die Seite „Speichercontroller“ zeigt alle DIMMs an, einschließlich ihrer Kapazitäten, Hersteller, Seriennummern, Teilenummern, Status und Betriebsgeschwindigkeiten. In unserer Konfiguration ist jeder Steckplatz mit Micron 32,768 MiB DDR5 RDIMMs (Teilenummer MTC20F1045S1RC48BA22) bestückt, die aktiviert sind und mit 4400 MHz arbeiten, bei einer maximal zulässigen Frequenz von 4800 MHz. Die Tabellenansicht ermöglicht eine einfache Überprüfung der Kanalbelegung und trägt zur Bestätigung einheitlicher Timings über alle Speicherbänke hinweg bei.

Lagerbestand

Der Reiter „Speicher“ zeigt die angeschlossenen Laufwerke und Controller an. In unserem System dienen unsere Solidigm D5-P5430 E1.S NVMe SSDs als primärer Speicher, während Samsung 990 Pro 1 TB M.2-Laufwerke das Betriebssystem verwalten. Firmware-Version, Schnittstellengeschwindigkeit und Verschlüsselungsstatus jedes Laufwerks werden angezeigt, wodurch die Überprüfung des Speichersystems vereinfacht wird, ohne das Gehäuse öffnen zu müssen.

Thermische Leistung des TRIDENT iGW610R-G6

Das thermische Verhalten spielt eine entscheidende Rolle für die langfristige Systemzuverlässigkeit, und der Hypertec Trident iGW610R-G6 wurde speziell für den Betrieb in einer Immersionsflüssigkeit entwickelt. Anstatt die Wärme von den hochdichten Komponenten durch Luftzirkulation über Kühlkörper abzuführen, arbeitet der Trident vollständig in einer dielektrischen Flüssigkeit, die die Wärme direkt von der Hardware in einen geregelten Kühlkreislauf leitet. Diese Konstruktion eliminiert die mechanischen Risiken, die üblicherweise mit luftgekühlten Systemen verbunden sind, wie Lüfterausfall, Staubablagerungen und Feuchtigkeitseinwirkung. Durch die Trennung der Elektronik von der Luft und die Schaffung eines kontinuierlichen Flüssigkeitswärmepfads gewährleistet das System eine hochgradig kontrollierte und konstante thermische Umgebung.

 

Während der Tests wurde das Trident iGW610R-G6 in einem Submer SmartPod Exo-Tank betrieben, der für einphasige Immersionskühlung konfiguriert war. In dieser Konfiguration zirkuliert die dielektrische Flüssigkeit kontinuierlich durch das Gehäuse und absorbiert die Wärme von CPU, GPU und NVMe-Laufwerken, bevor sie integrierte Wärmetauscher durchströmt. Die aufgenommene Wärme wird anschließend in den Kaltwasserkreislauf des Gebäudes geleitet und zur Wärmeabfuhrinfrastruktur transportiert. Dieses geschlossene System gewährleistet konstante Temperaturen im gesamten Rack, einen gleichmäßigen Kühlmittelstrom und verhindert Hotspots, die häufig in dichten Rechenkonfigurationen auftreten.

Die zirkulierende Flüssigkeit dient als Wärmespeicher mit hoher spezifischer Wärmekapazität. Bei sich ändernder Wärmelast absorbiert die Flüssigkeit Energie und verteilt sie gleichmäßig im gesamten Behälter. Dies minimiert Temperaturgradienten und verhindert die in luftgekühlten Rechenzentren häufig auftretenden Temperaturschwankungen einzelner Komponenten. In herkömmlichen Umgebungen können Änderungen der Raumtemperatur oder der Lüfterdrehzahl zu Temperaturschwankungen von mehreren Grad an empfindlichen Bauteilen führen. Mit der Zeit erzeugen diese Zyklen Spannungen in Lötstellen und Substraten. Im Immersionsverfahren wird dieser Effekt nahezu vollständig eliminiert, wodurch die Materialermüdung reduziert und die Lebensdauer der Hardware verlängert wird.

Um das thermische Verhalten unter hoher Last zu messen, wurde das Trident iGW610R-G6 in allen wichtigen Subsystemen belastet. Mittels FIO wurde die SSD kontinuierlich mit I/O-Last beaufschlagt, während GPU- und CPU-Stresstests durchgeführt wurden, um die jeweiligen Komponenten auf 100 % auszulasten. Während des gesamten Tests wurden die Komponententemperaturen über mehrere Stunden protokolliert, um Gleichgewichts- und Schwankungseigenschaften zu analysieren.

 

Die Ergebnisse waren sehr konsistent. Die CPU stabilisierte sich bei etwa 52 °C, rund 13.7 °C über der Leerlauftemperatur. Die GPU erreichte einen Spitzenwert von etwa 58 °C, was einem Anstieg von 21.1 °C entspricht. Alle vier Solidigm NVMe SSDs zeigten ein ähnliches Verhalten und hielten die Temperatur unter Last in einem Bereich von 29 °C bis 30 °C, mit Abweichungen von 8.8 °C bis 9.2 °C. Nach Erreichen des Temperaturgleichgewichts blieben die Temperaturen während des gesamten Tests mit minimalen Schwankungen konstant, was auf eine gleichmäßige Flüssigkeitsverteilung und eine effektive Wärmeabfuhr im Kühlkreislauf hindeutet.

Die Zeitreihendaten bestätigen diese Leistung. Nach einer anfänglichen Aufwärmphase zeigen alle Sensoren stabile, nahezu horizontale Temperaturverläufe. Es treten keine größeren Schwankungen oder thermische Driftereignisse auf, was darauf hindeutet, dass die Immersionskühlung eine konstante Temperatur gewährleistet und der Kühlwasserkreislauf die Wärme effizient aus dem Tank abführt. Das Temperaturprofil des Trident blieb selbst unter Dauerbetrieb unter Volllast bemerkenswert vorhersehbar.

Aus Zuverlässigkeitssicht bietet diese Stabilität erhebliche Vorteile. Der Verzicht auf Lüfter reduziert den Wartungsaufwand für bewegliche Teile, während die abgedichtete Umgebung das Eindringen von Staub und die Oxidation von Steckverbindern verhindert. Langfristig führen diese Eigenschaften zu geringeren Ausfallraten und einer verbesserten mittleren Betriebsdauer zwischen Wartungsereignissen. Die Kombination aus der Trident iGW610R-G6-Plattform und der einphasigen SmartPod Exo-Umgebung von Submer bietet eine reproduzierbare und robuste Kühllösung, die sich optimal für dichte Installationen eignet.

Die vom Trident iGW610R-G6 erfassten thermischen Daten zeigen, dass die Immersionskühlung mit aktiver Flüssigkeitszirkulation nicht nur ein überlegenes Wärmemanagement, sondern auch einen messbaren Zuverlässigkeitsvorteil bietet. Durch die Aufrechterhaltung konstanter Komponententemperaturen und die Eliminierung von Umgebungsabhängigkeiten arbeitet das System unabhängig von Arbeitslast und Dauer innerhalb optimaler Grenzen und eignet sich daher hervorragend für hochverfügbare Rechen- und Speicheranwendungen.

Warum sich Organisationen für Immersion entscheiden

Immersionskühlung ist nicht länger experimentell. Unternehmen, die großflächige KI- und HPC-Umgebungen aufbauen, setzen sie heute ein, um eine stabile Wärmeleistung, höhere Rackdichte und eine effizientere Nutzung von Strom und Infrastrukturressourcen zu erreichen. Die folgenden Beispiele veranschaulichen, wie immersionsbasierte Plattformen in großem Umfang in Produktionsumgebungen eingesetzt werden.

ADACEN
ADACEN wählte eine auf Immersion basierende Infrastruktur, um die Erweiterung seiner KI- und HPC-as-a-Service-Plattform zu unterstützen. Dies ermöglicht es der Organisation, dichte GPU-Konfigurationen auszuführen, während gleichzeitig die Anforderungen an die Kühlung der Anlagen vereinfacht und die langfristige Betriebseffizienz verbessert werden.

„Wir arbeiten mit Hypertec zusammen, weil uns deren auf Immersion basierende Technologie einen operativen und ökologischen Vorteil verschafft, den Luft- oder direkte Flüssigkeitskühlung des Chips schlichtweg nicht bieten können. Ihre vollständig entwickelten Immersionsplattformen ermöglichen uns den Einsatz von CPU- und GPU-Ressourcen mit höherer Dichte, reduzieren den Kühlenergiebedarf um über 90 % und eliminieren mechanische Fehlerquellen. Die Systeme von Hypertec erlauben uns, unsere KI/HPC-as-a-Service-Workloads effizient zu skalieren und gleichzeitig unsere Leistungs- und ESG-Ziele zu erreichen – deshalb sind sie ein zentraler Bestandteil unserer KI-Strategie.“ – Bernard Westwood, Director of Revenue Operations, ADACEN.

ADACEN stellt ein Modell für die Bereitstellung hoher Dichte in gehosteter Infrastruktur dar. Forschungsumgebungen im Bereich Computing weisen ähnliche Treiber und Ergebnisse auf.

University of Waterloo
Die Universität Waterloo setzt 700 Knoten in neun Immersionstanks ein, um die Forschungsrechner der nächsten Generation zu unterstützen. Der Umstieg auf Immersionstechnologie ermöglicht hochdichte GPU-Cluster mit gleichmäßigem thermischen Verhalten und reduzierter Anlagenkomplexität.

„Wir haben uns bei Nibi für Immersionskühlung entschieden, weil sie außergewöhnliche Effizienz und Zuverlässigkeit bietet und gleichzeitig unser Rechenzentrumsdesign vereinfacht. Die für Immersionskühlung entwickelten Server von Hypertec ermöglichen die einfache Bereitstellung von Hochleistungsrechnern ohne die Komplexität herkömmlicher Luft- oder Flüssigkeitskühlsysteme. Dieser Ansatz verbessert Leistung und Stabilität und unterstützt unser Ziel, eine sehr nachhaltige und energieeffiziente HPC-Umgebung zu schaffen.“ – John Morton, Technologiedirektor bei SHARCNET, Universität Waterloo.

Diese Beispiele zeigen, dass Immersion bereits genutzt wird, um eine vorhersehbare Leistung in großem Umfang zu erzielen, und sie stellen nur zwei von vielen Organisationen dar, die diesen Ansatz verfolgen.

Fazit

Unsere Evaluierung des Hypertec Trident iGW610R-G6 ergab, dass die Immersionskühlung bei hoher GPU- und Speicherdichte zu einer deutlichen Leistungssteigerung führt. Auch unter Dauerlast wies das System geringe und stabile Temperaturschwankungen ohne thermische Drift oder Oszillationen auf. CPUs und GPUs arbeiteten unter Last konstant, und die Solidigm E1.S-Laufwerke lieferten einen stabilen I/O-Durchsatz mit nur geringfügigen Temperaturschwankungen. Diese hohe thermische Stabilität reduziert die Belastung der Komponenten und minimiert die Bedingungen, die typischerweise zu vorzeitigem Verschleiß führen.

Trident iGW610R-G6 Staufach vorne.

Diese Ergebnisse decken sich mit den Beobachtungen großer Betreiber in Produktionsumgebungen. ADACEN berichtet von einer messbaren Reduzierung der jährlichen Ausfallrate (AFR) bei Immersionsinstallationen, die auf weniger Temperaturwechsel und den Wegfall von Lüftervibrationen und Partikelbelastung zurückzuführen ist. Dies führt zu einer verbesserten Zuverlässigkeit im Laufe der Zeit, einem geringeren Wartungsaufwand und einer höheren Betriebskontinuität im großen Maßstab.

Die Universität Waterloo hat mit dem Einsatz von 700 Knoten in neun Immersionstanks erneut bewiesen, dass Immersionskühlung als praktikable Strategie für den Aufbau und die Erweiterung von Hochleistungsrechnerclustern eingesetzt wird. Die hohe Betriebseffizienz, die stabile Leistung und die vereinfachten Anforderungen an die Infrastruktur machen sie ideal für Organisationen, die KI- und HPC-Workloads in großem Umfang ausführen möchten.

Immersionskühlung bietet bereits in Produktionsumgebungen stabile Leistung und hohe Betriebseffizienz. Angesichts der stetig steigenden Rechenleistung und des zunehmenden Stromverbrauchs stellen immersionsbasierte Plattformen wie die Trident iGW610R-G6 einen praktikablen und nachhaltigen Weg für großflächige KI- und HPC-Implementierungen dar.

Dieser Bericht wird von Solidigm gesponsert. Alle in diesem Bericht geäußerten Ansichten und Meinungen basieren auf unserer unvoreingenommenen Sicht auf das/die betrachtete(n) Produkt(e).

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed

Kevin O'Brien

Im StorageReview Lab bewerten wir Produkte und arbeiten mit Branchenführern zusammen, um neue Testumgebungen zu entwickeln. Zu Hause gründe ich eine Familie.