StorageReview.com

Nach dem Pi-Rekord: Bereitstellung eines 130 TB großen Datensatzes mit Backblaze B2

Wolke  ◇  Unternehmen

Anfang dieses Jahres stellten wir einen neuen Rekord auf, indem wir berechneten 314 Billionen Stellen von PiDie Berechnung lief monatelang auf einem einzigen Rechner. Dell PowerEdge R7725, Die moderne CPU- und Speicherinfrastruktur wurde an ihre Grenzen gebracht und gleichzeitig eindrucksvoll demonstriert, wie weit die Entwicklung von Enterprise-Hardware fortgeschritten ist. Nach Abschluss des Berechnungslaufs stellte sich jedoch heraus, dass der Rekord nur ein Teil der Geschichte war. Die Berechnung erzeugte einen riesigen Datensatz mit 628 Dateien à ca. 206 GB, insgesamt über 130 TB. Diese Dateien stellen das vollständige Ergebnis der Berechnung dar und sind oft der interessanteste Teil solcher Projekte. Mathematiker, Entwickler und Data Scientists untersuchen solche Datensätze häufig genauer, sei es zur Validierung von Teilen der Berechnung, zum Experimentieren mit neuen Analysemethoden oder zur Arbeit mit ungewöhnlich großen numerischen Datensätzen.

Dies führt zu einem praktischen Problem, das weit über die Berechnung von Pi hinausgeht. Moderne Rechenprozesse erzeugen zunehmend enorme Datensätze, die auch lange nach Abschluss der Berechnung zugänglich bleiben müssen. Wissenschaftliche Simulationen, Genomanalysen und umfangreiche KI-Trainingsläufe liefern Ergebnisse, die Dutzende oder Hunderte von Terabyte umfassen können. Während eine Laborumgebung ideal für die Erzeugung dieser Daten geeignet sein mag, ist sie selten der beste Ort, um sie dauerhaft für ein globales Publikum bereitzustellen.

Für unser Pi-Projekt war es nicht die richtige Lösung, über 130 TB an Ergebnissen dauerhaft im StorageReview-Labor zu speichern. Forscher hatten bereits Zugriffsanfragen gestellt, und um den Datensatz breit zugänglich zu machen, benötigten wir eine Infrastruktur, die ihn zuverlässig speichern und effizient verteilen konnte.

Hier kam Backblaze ins Spiel. Das Unternehmen hostet den gesamten Pi-Datensatz im Backblaze B2 Cloud Storage und stellt die Ergebnisse somit Forschern und Interessierten zur Verfügung. Die Bereitstellung von dauerhaftem Speicherplatz und globalem Zugriff für einen Datensatz dieser Größe ist ein bedeutendes Engagement, und wir schätzen Backblazes Unterstützung sehr, die sicherstellt, dass die Ergebnisse dieser Rekordberechnung der gesamten wissenschaftlichen Gemeinschaft zugänglich bleiben.

Die Zusammenarbeit verdeutlicht zudem einen Trend, den wir in modernen Infrastrukturen zunehmend beobachten: die praktischen Vorteile hybrider Arbeitsabläufe, die lokale Rechenleistung mit cloudbasierter Speicherung und Verteilung kombinieren. Die Pi-Berechnung selbst lief vollständig in unserem Labor auf einem einzelnen System, doch nach Abschluss der Berechnungen erwies sich die Cloud als logischer Ort, um die Ergebnisse zu speichern und zu teilen.

Bevor es jedoch so weit kommen konnte, mussten die Daten von unserem Labor zu Backblaze übertragen werden. Mehr als 130 TB an Ergebnissen zu verschieben, ist keine Kleinigkeit, aber mit einer guten Netzwerkverbindung war die Übertragung in weniger als zwei Wochen abgeschlossen, wobei über weite Strecken ein konstanter Durchsatz von 2 Gbit/s erreicht wurde. Große Datensätze haben nach wie vor ihre Trägheit, und wenn man Hunderte von Gigabyte auf einmal überträgt, wird die Bandbreite schnell zum limitierenden Faktor.

Nachdem der Datensatz nun sicher in Backblaze B2 gespeichert ist, können die Ergebnisse der Berechnung mit 314 Billionen Stellen auch außerhalb unseres Labors genutzt werden. Forschende können die Dateien herunterladen, damit experimentieren, Teile der Berechnung überprüfen oder die Ziffern für eigene Projekte untersuchen. Angesichts des bevorstehenden Pi-Tags 2026 ist dies der perfekte Zeitpunkt, den Datensatz zugänglich zu machen.

Backblaze B2: Enterprise-Cloud-Speicher für große Datenmengen

Um den Pi-Datensatz breit verfügbar zu machen, war eine Infrastruktur erforderlich, die sehr große Datenmengen zuverlässig speichern und verteilen kann. Backblaze B2 Cloud Storage ist eine Enterprise-Objektspeicherplattform, die genau für solche Workloads entwickelt wurde. Objektspeicher ermöglicht die Speicherung massiver Dateisammlungen in skalierbaren Objekt-Buckets, anstatt sie in herkömmliche Dateihierarchien zu zwängen. Dadurch eignet er sich hervorragend für große Datensätze, Backups und moderne Datenpipelines. B2 unterstützt zudem S3-kompatible APIs, sodass Unternehmen mit dem Dienst über vertraute Tools und Workflows interagieren können, ohne bestehende Anwendungen oder Datenprozesse neu gestalten zu müssen.

Backblaze konzentriert sich bei seiner Plattform auf die Bereitstellung langlebiger Speicherlösungen mit transparenten Kosten und einfacher Bedienung. Die Architektur ist auf eine Datensicherheit von 11 ... Berichte zur Antriebszuverlässigkeit und die Beibehaltung einer planbaren Preisgestaltung, die viele Infrastrukturteams schätzen. In unserem Fall bietet B2 eine praktische Lösung für das Hosting eines sehr großen, in unserem Labor generierten Datensatzes. So bleibt die Datenanalyse für alle Interessierten zugänglich, und gleichzeitig wird demonstriert, wie Cloud-Speicher die Reichweite lokaler Rechenumgebungen erweitern kann. Zusätzlich zum Standard-Backblaze-B2-Cloud-Speicher unterstützt B2 Overdrive einen Durchsatz von bis zu 1 Tbit/s.

Hosting des Datensatzes in Backblaze B2

Nachdem die Berechnung von Pi mit 314 Billionen Stellen abgeschlossen und die Daten vom R7725 auf den NAS-Speicher ausgelagert waren, stellte sich die Frage nach der öffentlichen Zugänglichmachung des Datensatzes. Die direkte Bereitstellung von 130 TB aus dem Labor war keine praktikable Option. Unsere WAN-Verbindung bietet eine maximale Upload- und Downloadgeschwindigkeit von 2 Gbit/s und wird von allen Laboranwendungen gemeinsam genutzt. Dauerhafte öffentliche Downloads in nennenswertem Umfang hätten den täglichen Betrieb beeinträchtigt, und allein die Bandbreitenbegrenzung hätte große, gleichzeitige Downloads für alle, die auf die Daten zugreifen wollten, langsam und unzuverlässig gemacht.

Die ursprüngliche Idee war, den Datensatz über BitTorrent zu verteilen. Technisch wäre das zwar möglich gewesen, aber für die meisten Nutzer nicht die benutzerfreundlichste Lösung. Das Herunterladen eines 130 TB großen Datensatzes per Torrent erfordert einen Client, Grundkenntnisse im Umgang mit Torrents und Geduld für einen Prozess, der nicht so einfach ist wie ein direkter Download. Für einen Datensatz, der Forschern und der breiten Öffentlichkeit zugänglich gemacht werden soll, war es wichtig, diese Hürde zu vermeiden.

Backblaze B2 hat beide Probleme elegant gelöst. Der Datensatz wird vollständig in der Cloud-Infrastruktur gehostet, sodass öffentliche Downloads nicht vom WAN des Labors abhängig sind und den Laborbetrieb nicht belasten. Verbindungen zu B2 werden über HTTPS direkt von der Backblaze-Infrastruktur bereitgestellt. Dadurch sind die Downloads sicher, konsistent und unabhängig von der Verfügbarkeit von Drittanbietern. Der vollständige Datensatz befindet sich nun im riesigen „Pi-314-Billionen-Bucket“ als 628 Objekte mit insgesamt ca. 132 TB, organisiert unter einem einzigen Datenpfad und für jeden zugänglich, ohne den Laborbetrieb zu beeinträchtigen.

Die Übertragung vom Labor-NAS erfolgte mit einer einfachen Rclone-Konfiguration über unsere UDM Pro Max, die als Labor-Gateway diente, mit einer konstanten Upload-Rate von etwas über 2 Gbit/s. Bei diesem Durchsatz benötigte die Übertragung von 130 TB etwa 10 Tage kontinuierlichen Transfers. Die folgenden Diagramme veranschaulichen dies sowohl pro Minute als auch kumulativ.

WAN-Auslastung während der Übertragung

Das UniFi-Netzwerk-Dashboard des Labors bestätigt die Upload-Eigenschaften während des gesamten Übertragungszeitraums. Die WAN-Schnittstelle zeigt Backblaze als die Anwendung mit dem höchsten Datenverkehr, mit einem Upload-Durchsatz von 2.27 Gbit/s und einem monatlichen WAN-Datenverbrauch von 90.9 TB. Die Verbindung blieb während der gesamten Übertragung stabil, ohne nennenswerte Paketverluste.

Das UniFi-Dashboard zeigt einen anhaltenden Upload-Durchsatz von über 2 Gbit/s an, wobei Backblaze während des Übertragungszeitraums die wichtigste WAN-Anwendung war.

Übertragungsdurchsatz pro Minute

Das untenstehende Diagramm zeigt den Übertragungsdurchsatz pro Minute über einen repräsentativen Zeitraum des Uploads. Die Balken erreichen konstant Werte zwischen 15 und 16 Gigabyte pro Minute, was einer anhaltenden Leitungsgeschwindigkeit von ca. 2 Gbit/s entspricht. Die kurzen Lücken im Diagramm entsprechen den regelmäßigen Prüfsummen-Pausen während der Übertragung, die der Datenintegrität vor der Fortsetzung dienen.

Die Byte-Übertragungsrate pro Minute während des Uploads zeigte einen konstanten Durchsatz zwischen 15 und 16 GB pro Minute über das gesamte aktive Übertragungsfenster hinweg.

Kumulativer Transferfortschritt

Das Diagramm der kumulierten Bytes zeigt die vom 4. bis 10. Februar übertragenen Datenmengen und einen stetigen linearen Anstieg von 0 auf etwa 100 TB in diesem Zeitraum. Der gleichmäßige Anstieg über den gesamten Zeitraum spiegelt die Stabilität der Übertragung ohne größere Unterbrechungen oder Einbrüche wider.

Endgültige Eimeranordnung

Backblaze hat den Bucket „pi-314-trillion“ erstellt, der alle 628 Dateien enthält und eine bestätigte Größe von 132,210.5 GB aufweist. Der Bucket ist als privat konfiguriert, wobei alle Dateiversionen erhalten bleiben, und ist über den S3-kompatiblen Endpunkt unter s3.us-west-004.backblazeb2.com erreichbar. Objektspeicherung vereinfacht die Verwaltung eines Datensatzes dieser Größenordnung erheblich. Jede Datei ist einzeln adressierbar, die vollständige Liste kann programmatisch abgerufen werden, und es gibt keine Dateisystemhierarchien oder Volumenbeschränkungen, die umgangen werden müssen.

Die Backblaze B2-Konsole zeigt den pi-314-Billionen-Bucket an und bestätigt 628 Dateien, eine Gesamtgröße von 132,210.5 GB sowie den S3-kompatiblen Endpunkt.

Zugriff auf den Datensatz

Forscher haben uns um Zugang zu diesen Daten gebeten; tatsächlich läuft bereits ein entsprechendes Projekt. Michael Kleber ist leitender Softwareentwickler bei Google, beschäftigt sich aber schon seit seiner Promotion in Mathematik im Jahr 1999 mit den Nachkommastellen von Pi. Mathematiker erwarten, dass Pi eine normale AnzahlDaher ist es berechtigt zu fragen: „Welche der 10^d Ziffernfolgen mit d Ziffern benötigt am längsten, um in Pi zum ersten Mal aufzutauchen, und wie viele Ziffern benötigt sie?“ Kleber führte die Suche bis d=7 durch, und als Fabrice Bellard 2009 2.7 Billionen Ziffern von Pi berechnete, ermutigte Kleber ihn, die Suche auf d=11 zu erweitern, die damals machbare Grenze. „Mit 314 Billionen zufälligen Ziffern gibt es …“ etwa 79 % Chance Kleber sagt zu der Beobachtung, dass alle Strings eine Länge von 13 Zoll haben: „Ich hoffe also, wir haben Glück!“ Wir erwarten jetzt viel mehr davon, da Backblaze die Daten für alle zugänglich gemacht hat.

Der PI-Datensatz wird auf Backblaze B2 gehostet und steht allen Interessierten zum Download zur Verfügung. Der Zugriff wird gewährleistet. über ein Link anfordern, Über diese Plattform können Benutzer Zugangsdaten erhalten oder Anleitungen herunterladen. Um Dateien aus dem Bucket abzurufen, hostet Backblaze den Datensatz, um sicherzustellen, dass die Daten während des gesamten Zeitraums für Forschung und Überprüfung verfügbar bleiben.

Download-Optionen

Nutzer können je nach Bedarf entweder einzelne Dateien aus dem Datensatz oder die gesamte 130 TB große Sammlung abrufen. Der Bucket ist so strukturiert, dass einzelne Objekte direkt adressiert und heruntergeladen werden können, ohne den gesamten Datensatz herunterzuladen. Wer alles abrufen möchte, kann den Bucket mithilfe der unten beschriebenen Tools vollständig synchronisieren. Für diese Option werden 135 TB freier Speicherplatz empfohlen.

Empfohlene Werkzeuge

  • Rclone ist das empfohlene Tool für den Zugriff auf den Datensatz. Es integriert sich nahtlos in Backblaze B2 und ermöglicht es Benutzern, den Downloadprozess an ihre verfügbare Bandbreite anzupassen.
  • S3-kompatible APIDaher kann jedes Download-Tool mit S3-Funktionalität zum Abrufen der Daten verwendet werden. Voraussetzung ist lediglich, dass das Tool die Möglichkeit bietet, die standardmäßige S3-Endpunkt-URL so zu ändern, dass sie auf den B2-Endpunkt anstatt auf AWS verweist.

Ein konkretes Beispiel für hybride Infrastruktur

Unsere Berechnung von Pi mit 314 Billionen Stellen ist ein anschauliches Beispiel dafür, wie hybride Infrastrukturen in der Praxis aussehen. Die Berechnung lief vollständig auf einem einzelnen Dell PowerEdge R7725 im StorageReview-Labor. Da das System nach Abschluss der Berechnung jedoch für andere Projekte und Aufgaben benötigt wurde, war die dauerhafte Speicherung von 130 TB an Ergebnissen im Labor keine praktikable Lösung.

Der Wunsch, die Daten denjenigen zugänglich zu machen, die sie nutzen möchten – sei es für ernsthafte wissenschaftliche Arbeiten oder einfach aus Neugier –, ist verständlich. Doch die Speicherung eines so großen Datensatzes im Labor wird schnell zu einer Belastung. Bandbreite wird verbraucht, die Infrastruktur ist ausgelastet, und der Laboralltag konkurriert mit jeder eingehenden Downloadanfrage.

Eine Lösung wie Backblaze B2 beseitigt all diese Hürden. Die Daten werden in einer Cloud-Infrastruktur gespeichert, die speziell für Datensätze dieser Größenordnung entwickelt wurde. Sie bietet einen bedarfsgerechten Durchsatz, mehrfache Redundanz, um Datenverlust zu verhindern, und die Sicherheit und das operative Know-how einer Enterprise-Speicherplattform. Die Rechenleistung wurde lokal bereitgestellt, da dies für die Anwendung erforderlich war. Der Speicher befindet sich in der Cloud, weil dies für alle nachfolgenden Prozesse die bessere Lösung darstellt.

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed

Brian Beeler

Brian lebt in Cincinnati, Ohio und ist Chefanalyst und Präsident von StorageReview.com.