StorageReview hat sich mit einem neuen Pi-Rekord von 314 Billionen Stellen den Titel im Bereich der Rechenleistung zurückerobert. Der moderne Pi-Wettlauf hat sich von Cloud-Experimenten hin zu umfassenden Infrastruktur-Experimenten entwickelt. 2022 erreichte Google Cloud 100 Billionen Stellen, indem der y-cruncher-Test auf einer riesigen Flotte von Cloud-Instanzen ausgeführt wurde und dabei mehrere zehn Petabyte an I/O-Daten verarbeitet wurden. Dieser Wert galt als Maßstab dafür, wie weit mit traditioneller Infrastruktur gefahren werden kann.
Anschließend verlagerte sich das Geschehen ins Labor. Anfang 2024 verbesserten wir unseren Rekord auf 105 Billionen Stellen auf einem System mit fast einem Petabyte Solidigm QLC SSDs. Diese Leistung setzte neue Maßstäbe für Skalierbarkeit und demonstrierte die Effizienz eines einzelnen On-Premise-Rechners. Wenige Monate später wiederholten wir diesen Erfolg und erreichten diesmal 202 Billionen Stellen. Dies bestätigte, dass hochdichte Flash-Speicher und sorgfältige Optimierung Hyperscale-Infrastrukturen für diese spezifische, anspruchsvolle Arbeitslast übertreffen können.
Natürlich locken Rekorde Herausforderer an. Die Linus Media Group und KIOXIA sicherten sich die Krone mit einer 300 Billionen Ziffern umfassenden Übertragung, ermöglicht durch einen großen Weka-Cluster mit gemeinsamem Speicher und 2 PB Flash-Speicher. Diese Leistung demonstrierte das Potenzial speicherintensiver, traditioneller Infrastrukturen – allerdings mit einem ganzen Rack voller Hardware, hohen Stromkosten und komplexen Kühlungsanforderungen. Wir konnten nicht tatenlos zusehen, wie dieser Rekord Bestand hat!
StorageReview hat π nun auf 314 Billionen Stellen erhöht. mit einem einzelnen 2U Dell PowerEdge R7725 Server ausgestattet mit zwei AMD EPYC 192-Kern-CPUs und vierzig 61.44TB Micron 6550 Ion SSDs. Nachdem der Systemaufbau und die Optimierung im Juli stattfanden, starteten wir unseren Testlauf am 31. Juli 2025. Wie es der Zufall wollte, schloss unser Pi-Testlauf am zweiten Tag der SC25 ab – passend für einen neuen HPC-Rekord.
Skalierung von y-cruncher auf 314 Billionen Stellen
Sobald man Hunderte von Billionen Stellen erreicht, verhält sich y-cruncher weniger wie ein herkömmlicher Benchmark und mehr wie ein Langzeit-Stresstest für die Infrastruktur. Die Anwendung selbst ist einfach, aber die Interaktion mit der Hardware in diesem Umfang wird zum entscheidenden Faktor. Alles hängt davon ab, wie gut das System Tausende von Mehrfachgenauigkeitsoperationen ausführen kann, ohne die CPUs zu überlasten oder die Speicherschicht zu blockieren. Genau auf der Speicherschicht wurde dieser Rekord erzielt. Wir setzten 40 Micron 6550 Ion Gen5 NVMe SSDs ein, von denen 34 für y-cruncher reserviert waren. Dieser SSD-Pool bot etwa 2.1 Petabyte Speicherplatz und ermöglichte y-cruncher damit die Berechnung der 314T-Stellen von Pi. Die verbleibenden 6 SSDs wurden für ein Software-RAID10-Volume verwendet, mit dem wir die 314T-Stellen von Pi aufzeichneten.
Die Designänderungen zwischen den Dell PowerEdge Servern der 16. und 17. Generation trugen ebenfalls zur Leistungssteigerung unseres jüngsten Rekordlaufs von 314 TB bei. Bei unserem vorherigen Rekordlauf von 202 TB nutzten wir den Dell PowerEdge R760 mit 24 Einschüben, der einen PCIe-Switch auf der Laufwerks-Backplane verwendete und so die Speicherdichte zugunsten der Leistung reduzierte. Bei den Dell PowerEdge Servern der 17. Generation, wie dem Intel-basierten R770 oder dem AMD-basierten R7725, sind die Backplanes wieder auf Direktverbindungen mit 2 oder 4 PCIe-Lanes pro Einschub umgestellt. Im PowerEdge R7725 mit seiner Gen5 E3.S Backplane der 40 Einschübe erhält jede SSD 2 PCIe-Lanes. Auch wenn dies zunächst nach einem Leistungsverlust klingt, erreicht die Plattform dennoch Lese- und Schreibgeschwindigkeiten von bis zu 280 GB/s, wenn alle 40 Einschübe gleichzeitig genutzt werden.
Mithilfe des internen y-cruncher-Speicherbenchmarks haben wir die Speicherleistung jeder Plattform in der für jeden Durchlauf verwendeten Konfiguration aufgezeichnet. Bei allen Workloads konnten wir Leistungssteigerungen zwischen 72 % und 383 % bei ausgeglichenen Lese- und Schreibwerten feststellen.
| Metrisch | 202T-System (alter Rekord) | 314T-System (neuer Rekord) | Prozentuale Differenz (314T vs 202T) |
|---|---|---|---|
| Sequenzielles Schreiben | 47.0 GiB/s | 107 GiB/s | + 127.7% |
| Sequenzielles Lesen | 56.7 GiB/s | 127 GiB/s | + 124.0% |
| Schwellenwert-Schrittweises Schreiben | 62.2 GiB/s | 107 GiB/s | + 72.0% |
| Schwellenwert-Schrittweises Lesen | 20.9 GiB/s | 101 GiB/s | + 383.3% |
Der Dell PowerEdge R7725 ist nicht nur ein Speichersystem, sondern bietet als Dual-Socket-Plattform mit AMD Turin-Prozessoren auch erhebliches Rechenpotenzial. Wir nutzten AMD EPYC 9965-Prozessoren mit 192 Kernen, insgesamt also 384 Kerne. Die standardmäßigen Luftkühlkörper ersetzten wir durch flüssigkeitsgekühlte CoolIT SP5-Kühlplatten, die von einer CoolIT AHx10 Liquid-to-Air-CDU gekühlt wurden. Diese Kombination ermöglichte höhere, dauerhafte Taktraten der Prozessoren, einen Lüfterbetrieb mit ca. 30 % PWM-Auslastung und einen durchschnittlichen Stromverbrauch des Systems von rund 1,600 W.
Auf der Softwareseite lief Ubuntu 24.04.2 LTS Server anstelle von Windows Server wie bei früheren Versuchen. Dies maximierte die Systemstabilität und führte zu deutlichen Leistungssteigerungen. Wir führten zahlreiche Testläufe durch, bevor wir unseren Rekordversuch starteten, und reservierten dabei unter anderem 4 von 384 Kernen für Hintergrundprozesse. Das Ergebnis war nicht nur ein Bruch des bestehenden Raspberry-Pi-Rekords; wir übertrafen ihn in zahlreichen Bereichen deutlich. Unser Rekordversuch in puncto Leistung, Stromverbrauch und – am beeindruckendsten – Zuverlässigkeit ist unübertroffen. Wir sind außerdem der einzige groß angelegte Raspberry-Pi-Weltrekordversuch, der ohne eine einzige Sekunde Ausfallzeit stattfand. Der Versuch musste vom Start bis zum Ende nicht unterbrochen werden.
Rekordverdächtige Energieeffizienz
StorageReview verfolgte bei jedem Pi-Rekordlauf den Ansatz, die Komplexität zu reduzieren und den Benchmark mit minimalem Energieverbrauch durchzuführen. Der vorherige 300T-Rekord, der einen verteilten Speichercluster und ein Hochgeschwindigkeitsnetzwerk nutzte, ging mit einem höheren Strom- und Kühlbedarf einher. Wir wählten einen anderen Weg und konzentrierten uns auf die Speicherdichte, um einen einzelnen 2U-Server sowohl für den Auslagerungs- als auch für den Ausgabespeicher zu verwenden. Dies trug maßgeblich zur Reduzierung unseres gesamten Strom- und Kühlbedarfs bei. Unser Dell PowerEdge R7725 verbrauchte während des 314T-Laufs lediglich 4,304.662 kWh, was nur 13.70 kWh pro Billion Stellen entspricht. Damit zählt er zu den energieeffizientesten Pi-Berechnungen im großen Maßstab. Beim Vergleich der beiden Ansätze wird der Unterschied sofort deutlich, wie die folgende Tabelle zeigt.
| Führen Sie | GesamtkWh | Kosten @ 0.12 $/kWh | Kosten @ 0.20 $/kWh |
|---|---|---|---|
| 300T Weka Cluster Run | 33,600 kWh (geschätzt) | $4,032 | $6,720 |
| 314T Einzelserverlauf | 4,304.662 kWh | $517 | $861 |
Es ist wichtig zu erwähnen, dass unser 314T-Testlauf SSDs in einer JBOD-Konfiguration ohne Datenausfallsicherheit nutzte. Stromverbrauch und Systemleistung waren ausschlaggebend für diese Entscheidung, gaben aber auch Anlass zu einer Diskussion über die Anpassung der Speicherlösung an die jeweilige Arbeitslast. Jede Arbeitslast ist anders, und manche, die mit minimalen Auswirkungen auf den Produktivbetrieb neu gestartet werden können, benötigen möglicherweise nicht dieselbe Fehlertoleranz. In unserem Fall konzentrierten wir uns auf den Schutz der Ausgabedaten mit herkömmlichem Software-RAID.
Gesamtlaufzeit: 110 Tage
Obwohl mehr Ziffern als je zuvor berechnet wurden, war die Laufzeit deutlich kürzer als beim bisherigen Rekord, der etwa 225 Tage in Anspruch nahm (175 Rechentage ohne Ausfallzeiten). Das ununterbrochene Zeitfenster von 110 Tagen ist auf ein stabiles Betriebssystem, eine minimierte Hintergrundlast, eine ausgewogene NUMA-Topologie und ein speziell für das von y-cruncher in diesem Umfang erzeugte Muster entwickeltes Scratch-Array zurückzuführen.
Technische Highlights
- Gesamtzahl der Ziffern berechnet: 314,000,000,000,000
- Verwendete HardwareDell PowerEdge R7725 mit 2x AMD EPYC 9965 CPUs, 1.5 TB DDR5 DRAM, 40x Micron 61.44 TB 6550 Ion
- Software und Algorithmen: y-cruncher v0.8.6.9545, Chudnovsky
- SSD-Verschleiß laut SMART: 7.3 PB geschrieben pro Laufwerk bzw. 249.11 PB auf den 34 für den Auslagerungsspeicher verwendeten SSDs.
- Logisch größter Kontrollpunkt: 850,538,385,064,992 (774 TiB)
- Logische Spitzenauslastung der Festplatte: 1,605,960,520,636,440 (1.43 PiB)
- Gelesene Bytes der logischen Festplatte: 148,356,635,606,263,504 (132 PiB)
- Geschriebene Bytes der logischen Festplatte: 126,658,805,195,776,600 (112 PiB)
- KursstartDonnerstag, 31. Juli 2025, 17:16:41 Uhr
- EnddatumDienstag, 18. November 2025, 05:57:08 Uhr
- Pi: 8793223.144 Sekunden, 101.773 Tage
- Gesamtrechenzeit: 9274878.580 Sekunden
- Wandzeit von Anfang bis Ende: 9463226.454 Sekunden
Abschließende Gedanken
Jahrzehntelang galten extreme Pi-Rekorde als Beweis für die Leistungsfähigkeit der damals als „Big Hardware“ geltenden Rechner. Anfängliche Rekorde wurden mit Hochleistungs-Desktop-PCs und externem Speicher erzielt, später verlagerte sich der Fokus auf lokale Unternehmenshardware. In jüngster Zeit verlagerte sich das Rennen in die Cloud, wo Projekte wie Googles 100-Billionen-stelliger Pi-Rekord bewiesen, dass man mit genügend Instanzen und ausreichend I/O einen Rekord durch reine Rechenleistung erzielen kann. Dann kamen große, gemeinsam genutzte Speichercluster auf den Markt, die Einfachheit gegen rohe Parallelität und enorme Strom- und Kühlkosten eintauschten.
Unser Ansatz verlief in die entgegengesetzte Richtung. Über mehrere Rekordläufe hinweg behandelten wir y-cruncher als ernstzunehmende HPC-Anwendung, nicht als einmaliges Projekt. Die Lösungen mit 105 TB und 202 TB halfen uns, die tatsächlichen Engpässe zu identifizieren, den Scratch-Speicher zu dimensionieren und zu optimieren, die CPUs ausreichend auszulasten, ohne die I/O-Schicht zu überlasten, und ein System zu härten, das einen monatelangen Auftrag tatsächlich erfolgreich abschließt. Der 314-TB-Lauf ist das Ergebnis dieser Erfahrung. Es geht nicht nur um eine höhere Zahl, sondern um ein ausgereifteres Design.
Die Kennzahlen bestätigen diese Ergebnisse. Wir haben die 300-Billionen-Marke auf einem einzelnen 2U Dell PowerEdge R7725 mit 40 Micron 6550 Ion SSDs und zwei 192-Kern-AMD-EPYC-Prozessoren überschritten, das System 110 Tage lang ununterbrochen online gehalten und mussten es nach keinem Ausfall wieder in Betrieb nehmen. Der Speicherdurchsatz hat sich im Vergleich zu unserer 202T-Plattform mehr als verdoppelt, dennoch lag der durchschnittliche Stromverbrauch des Servers bei etwa 1,600 W und der Gesamtverbrauch bei 4,305 kWh. Das entspricht 13.70 kWh pro Billion Stellen, also nur einem Bruchteil des geschätzten Energieverbrauchs des vorherigen 300T-Clusters: weniger Knoten, geringere Komplexität, geringerer Energieverbrauch, höhere Leistung.
Deshalb ist dieser Rekord nicht nur eine Frage des Prestiges: Wenn ein kommerzieller 2U-Server einen so umfangreichen y-Cruncher-Lauf mit dieser Zuverlässigkeit und Effizienz bewältigen kann, lassen sich dieselben Designmuster direkt auf die wissenschaftliche Produktion übertragen. Langlaufende Klimamodelle, Physiksimulationen, Genomik-Pipelines und KI-Trainingsprozesse stehen und fallen mit denselben Grundvoraussetzungen: ausgewogener I/O-Betrieb, vorhersehbarer Wärmeentwicklung, stabiler Firmware und einer Architektur, die monatelang zuverlässig funktioniert. Diese Plattform hat nun bewiesen, dass sie genau das unter Bedingungen leisten kann, die keinen Raum für Fehler lassen.
Ja, StorageReview hat sich mit 314 Billionen Stellen den Pi-Rekord zurückerobert. Noch wichtiger ist jedoch, dass wir die Messlatte für „gute“ Rechenleistung im großen Maßstab auf realer Hardware neu definiert haben. Sollte jemand den Rekord brechen wollen, erwarten wir von ihm ein komplettes Ergebnis: mehr Stellen, weniger Stromverbrauch, kürzere Laufzeit und dieselbe absolute Zuverlässigkeit. Bis dahin ist dies der Maßstab für Effizienz.




Amazon