Startseite UnternehmenAI Skalierung von KI-Checkpoints: Der Einfluss von SSDs mit hoher Kapazität auf das Modelltraining

Skalierung von KI-Checkpoints: Der Einfluss von SSDs mit hoher Kapazität auf das Modelltraining

by Kevin O'Brien

Checkpoints sind für das Training von KI-Modellen von entscheidender Bedeutung, da sie Belastbarkeit, Effizienz und die Möglichkeit gewährleisten, das Training aus gespeicherten Zuständen fortzusetzen oder zu optimieren.

Checkpointing ist für das Training von KI-Modellen von entscheidender Bedeutung, da es Belastbarkeit, Effizienz und die Möglichkeit gewährleistet, das Training aus gespeicherten Zuständen fortzusetzen oder zu optimieren. Die Anforderungen moderner KI-Workloads mit zunehmend komplexen Modellen und umfangreichen Trainingsdatensätzen bringen den Speicher jedoch an seine Grenzen.

Die Rolle von Checkpoints in KI-Workflows

Checkpointing ist beim KI-Training ein kritischer Prozess, bei dem der vollständige Zustand des Modells während des Trainings regelmäßig gespeichert wird. Dieser Zustand umfasst die Modellgewichte und -parameter, Optimiererzustände, Lernratenpläne und Trainingsmetadaten. Checkpointing erstellt in bestimmten Intervallen einen umfassenden Snapshot des Trainingsprozesses und sorgt so für Trainingskontinuität und Wiederherstellung im Falle von Unterbrechungen.

Checkpoints werden typischerweise in iterationsbasierten Intervallen (z. B. alle tausend Trainingsschritte) gesetzt. Modernes LLM-Training, das Wochen oder Monate dauern und enorme Rechenressourcen verbrauchen kann, verlässt sich stark auf diese Checkpoints als Sicherheitsnetz gegen potenzielle Fehler. Beispielsweise kann das Training eines Modells wie der GPT-4-Klasse Checkpoints von mehreren hundert Gigabyte bis hin zu mehreren Terabyte generieren, je nach Modellgröße und Trainingskonfiguration.

Von DALL-E generierter Trainingsprozess

Der Hauptzweck von Checkpoints geht über die bloße Backup-Funktionalität hinaus. Sie dienen als entscheidender Mechanismus für die Trainingsstabilität und ermöglichen die Wiederaufnahme des Trainings vom letzten gespeicherten Zustand aus, anstatt bei Systemausfällen, Stromausfällen oder Hardwareproblemen von vorne zu beginnen. Darüber hinaus sind Checkpoints für die Modellanalyse von unschätzbarem Wert, da sie es Forschern ermöglichen, die Entwicklung des Modells in verschiedenen Trainingsphasen zu untersuchen und bei erkannter Leistungsverschlechterung möglicherweise zu vorherigen Zuständen zurückzukehren.

Die Schreibmuster während des Checkpointing sind aus Speichersicht besonders interessant. Wenn ein Checkpoint ausgelöst wird, muss das System große Datenmengen in einem Burst-Muster schreiben. Dadurch entsteht ein charakteristisches E/A-Profil, das durch Perioden relativ geringer Speicheraktivität während der Trainingsberechnungen gekennzeichnet ist, gefolgt von intensiven Schreibvorgängen mit hoher Bandbreite während des Checkpointing. Diese Schreibvorgänge sind normalerweise sequentiell und können erheblich von Speichersystemen profitieren, die für sequentielle Schreibvorgänge mit hoher Bandbreite optimiert sind.

Verschiedene Parallelitätsstrategien beim verteilten Training können das Checkpointing-Verhalten erheblich beeinflussen. Diese Parallelitätsstrategien beeinflussen, wann während des Trainings Checkpointing erfolgt und welcher Teil des Modells Checkpointing durchführt. In modernen verteilten Trainingskonfigurationen können mehrere GPUs gleichzeitig verschiedene Teile derselben Schicht schreiben und so komplexe E/A-Muster erstellen. Diese parallele Schreibfunktion ist der Schlüssel zur Effizienz, erfordert jedoch eine sorgfältige Koordination und robuste Speichersysteme, die gleichzeitige Schreibvorgänge verarbeiten und gleichzeitig die Datenkonsistenz aufrechterhalten können. Das Speichersystem muss in der Lage sein, diese gleichzeitigen Schreibvorgänge effektiv zu verwalten, da jeder Engpass in diesem Prozess zu allgemeinen Trainingsverzögerungen führen kann.

Langsames Checkpointing kann zu erheblichen Trainingsengpässen führen, da der gesamte Trainingsprozess angehalten werden muss, während der Checkpoint in den Speicher geschrieben wird. Wenn beispielsweise in einem groß angelegten Trainings-Setup das Checkpointing alle paar Stunden 30 Minuten dauert, kann dies über den gesamten Trainingszeitraum hinweg zu mehreren Stunden Ausfallzeit führen. Dies wirkt sich direkt auf die Trainingseffizienz aus und erhöht die Betriebskosten, insbesondere in Cloud-Umgebungen, in denen Rechenressourcen nach Zeitaufwand abgerechnet werden.

Durch schnelleres Checkpointing können sich Teams auch leisten, Checkpoints häufiger zu erstellen, wodurch der maximale potenzielle Datenverlust im Fehlerfall reduziert wird. Dies ermöglicht aggressivere Trainingsansätze und bessere experimentelle Iterationszyklen. Darüber hinaus ermöglichen schnelle Checkpoint-Ladezeiten schnelleres Experimentieren mit unterschiedlichen Trainingskonfigurationen und Modellarchitekturen, da Forscher frühere Zustände leichter wiederherstellen können, um alternative Ansätze auszuprobieren.

Die Fähigkeit des Speichersystems, diese Checkpoint-Operationen effizient zu handhaben, wird zu einem entscheidenden Faktor in der gesamten Trainingsinfrastruktur. Hochleistungsfähige Speicherlösungen, die sowohl die Burst-Schreibmuster der Checkpoint-Erstellung als auch die anhaltenden Lese-/Schreiboperationen des Trainings bewältigen können, können die Gesamtzeit und -kosten des Trainings großer Sprachmodelle erheblich beeinflussen. Daher sind die Leistungsmerkmale des Speichersubsystems, insbesondere bei der Handhabung großer sequentieller Schreibvorgänge und der Aufrechterhaltung einer konstant hohen Bandbreite, entscheidende Überlegungen beim Entwurf der LLM-Trainingsinfrastruktur.

Für diesen Bericht wollten wir die SSD-Leistung für KI-Checkpoints bewerten und dabei die Vorteile der neuesten Gen5-SSDs bewerten, wenn die Checkpoint-Geschwindigkeit entscheidend ist, im Vergleich zu den größten QLC-SSDs auf dem Markt, die eine große Anzahl von Checkpoints speichern können, falls dies für das trainierte Modell vorteilhafter ist.

Checkpoint Performance – Benchmarking mit DLIO

Um die tatsächliche Leistung der Solidigm SSD in KI-Trainingsumgebungen zu bewerten, nutzten wir die Benchmarktool für Daten- und Lerneingabe/-ausgabe (DLIO). DLIO wurde vom Argonne National Laboratory entwickelt und ist speziell darauf ausgelegt, I/O-Muster in Deep-Learning-Workloads zu testen. Es bietet Einblicke, wie Speichersysteme mit Checkpointing, Datenaufnahme und Modelltrainingsherausforderungen umgehen.

In Zusammenarbeit mit DLIO wollten wir den Durchsatz, die Latenz und die Zuverlässigkeit des Laufwerks in intensiven Checkpointing-Szenarien messen. Während dieser Test mit dem 61.44 TB D5-P5336 durchgeführt wurde, zeigten erste Leistungsdaten, dass die 5 TB-Version des Solidigm D5336-P122 ein ähnliches Leistungsprofil bietet. Wir haben auch Ergebnisse eines TLC-basierten D7-PS1010 einbezogen, um die Vorteile von PCIe Gen5 in diesem Test zu zeigen. Wir haben diese beiden Laufwerke ausgewählt, um beide Blickwinkel auf Checkpoints zu zeigen, wobei einer die schnellstmögliche Checkpoint-Zeit und der andere die Speicherung der meisten Checkpoints auf einer einzigen SSD ist.

Die für diese Arbeit gewählte Plattform war unser Dell PowerEdge R760 mit Ubuntu 22.04.02 LTS. Wir haben die DLIO-Benchmark-Version 2.0 aus der Version vom 13. August 2024 verwendet. Unsere Systemkonfiguration ist unten aufgeführt:

  • 2 x Intel Xeon Gold 6430 (32 Kerne, 2.1 GHz)
  • 16 x 64 GB DDR5-4400
  • Dell BOSS-SSD mit 480 GB
  • Serielle Kabel Gen5 JBOF
    • 7.68 TB Solidigm D7-PS1010
    • 61.44 TB Solidigm D5-P5336

Um sicherzustellen, dass unser Benchmarking reale Szenarien widerspiegelt, basierten wir unsere Tests auf der Modellarchitektur LLAMA 3.1 405B und implementierten Checkpointing über torch.save(), um Modellparameter, Optimiererzustände und Layerzustände zu erfassen. Unser Setup simulierte ein 8-GPU-System und implementierte eine hybride Parallelstrategie mit 4-Wege-Tensor-Parallelverarbeitung und 2-Wege-Pipeline-Parallelverarbeitung, verteilt auf die acht GPUs. Diese Konfiguration führte zu Checkpoint-Größen von 1,636 GB, was den Trainingsanforderungen moderner großer Sprachmodelle entspricht.

Unser Testverfahren für die DLIO-Checkpoint-Arbeitslast bestand darin, jedes Laufwerk auf ein ähnliches Auslastungsniveau zu bringen. Beim 61.44 TB Solidigm D5-P5336 umfasste jeder Durchgang 33 Checkpoint-Intervalle mit insgesamt 54 TB. Das kleinere 7.68 TB D7-PS1010 bot bequem Platz für drei Checkpoint-Intervalle und hatte einen Gesamtspeicherplatz von 4.9 TB. Ein zusätzlicher Checkpoint hätte in das D7-PS1010 gepasst, obwohl dies die Auslastung etwas höher machte, als wir wollten.

Die DLIO-Checkpoint-Arbeitslast ergab interessante Ergebnisse, als wir die Gen4 QLC-basierte 61.44 TB D5-P5536 mit der Gen5 TLC-basierten 7.68 TB D7-PS1010 verglichen. Während des ersten Durchgangs, als die Laufwerke voll waren, stellten wir eine größere Leistungslücke zwischen den beiden SSD-Modellen fest. Die schnellere Gen5 PS1010 absolvierte jeden Checkpoint im Durchschnitt in 464 Sekunden, verglichen mit 623 Sekunden bei der Gen4 P5336. In den Durchgängen zwei und drei verringerte sich die Lücke auf 579 und 587 Sekunden für die PS1010 und 676 und 680 Sekunden für die P5336.

Für Unternehmen, die möglichst kleine Lücken in den Checkpointing-Intervallen haben möchten, bietet der TLC-basierte Gen5 PS1010 den Vorteil der schnellsten Abschlusszeit. Wenn das Ziel darin besteht, viele Checkpoints kostengünstig beizubehalten, kann der QLC-basierte Gen4 P5336 genau das leisten. Wir haben bei den Durchläufen zwei und drei einen Unterschied bei den durchschnittlichen Checkpoint-Zeiten von weniger als 17 % zwischen beiden Laufwerken gemessen.

GPUDirect-Speicherbandbreite

Während DLIO die Flash-Leistung in einem KI-Workflow zeigt, ist die Arbeitslast vollständig schreibbasiert, bis ein Prüfpunkt wiederhergestellt ist. Um ein umfassenderes Bild des Solidigm D7-PS1010 und D5-P5336 in KI-Arbeitslasten zu zeichnen, haben wir Lesebandbreitenmessungen mithilfe von GDSIO einbezogen.

So funktioniert GPU Direct Storage

Wenn eine GPU Daten verarbeitet, die auf einem NVMe-Laufwerk gespeichert sind, müssen die Daten normalerweise zuerst durch die CPU und den Systemspeicher laufen, bevor sie die GPU erreichen. Dieser Prozess führt zu Engpässen, da die CPU zum Mittelsmann wird, was zu Latenz führt und wertvolle Systemressourcen verbraucht. GPU Direct Storage beseitigt diese Ineffizienz, indem es der GPU ermöglicht, über den PCIe-Bus direkt vom Speichergerät auf Daten zuzugreifen. Dieser direkte Pfad reduziert den mit der Datenbewegung verbundenen Overhead und ermöglicht schnellere und effizientere Datenübertragungen.

KI-Workloads, insbesondere solche mit Deep Learning, sind äußerst datenintensiv. Das Training großer neuronaler Netzwerke erfordert die Verarbeitung von Terabyte an Daten, und jede Verzögerung bei der Datenübertragung kann zu einer Unterauslastung der GPUs und längeren Trainingszeiten führen. GPU Direct Storage bewältigt diese Herausforderung, indem es sicherstellt, dass die Daten so schnell wie möglich an die GPU übermittelt werden, wodurch Leerlaufzeiten minimiert und die Rechenleistung maximiert werden.

Wie beim DLIO-Test besteht das Ziel darin, die Unterschiede zwischen Hochgeschwindigkeits-SSDs der 5. Generation und QLC-Laufwerken mit hoher Kapazität besser zu verstehen und zu charakterisieren. Nicht jede KI-Arbeitslast ist gleich, und jedes Laufwerk bietet je nach Bedarf unterschiedliche Vorteile.

Testen der Konfigurationsmatrix

Wir haben jede Kombination der folgenden Parameter systematisch mit einer NVIDIA L4 auf unserer Testplattform getestet:

  • Blockgrößen: 1 M, 128 K, 64 K, 16 K, 8 K
  • Fadenzahlen: 128, 64, 32, 16, 8, 4, 1
  • Anzahl der Aufträge: 16
  • Chargengrößen: 16

Unser erster Blick galt dem QLC-basierten D5-P5336, der bei einer Übertragungsgröße von 4.2 M und einer IO-Tiefe von 1 128 GiB/s erreichte. Der Effekt der Blockgrößen führte zu einer deutlichen Steigerung der Bandbreite von 8 K auf 1 M. Der Vorteil der erhöhten IO-Tiefe begann bei 32 nachzulassen, als die Arbeitslasten zu stabilisieren begannen.

Als nächstes schauen wir uns den Gen5 PS-1010 an, der bei einer Blockgröße von 6.2 M und einer IO-Tiefe von 1 bis zu 128 GiB/s skalieren kann. Er übertraf auf ganzer Linie den Gen4-basierten P5336, wobei sich bei bestimmten Workloads eine deutliche Steigerung zeigte. Ein bemerkenswerter Verbesserungsbereich war die 128-K-Blockgröße, wo der PS64 bei einer IO-Tiefe von 128 und 1010 die doppelte Lesebandbreite des P5336 bot.

Es ist wichtig zu beachten, dass beide SSDs mit NVIDIA L4 getestet wurden. Während die Gen4 D5-P5336 am oberen Ende oder nahe daran liegt, zeigten NVIDIA-GPUs der oberen Preisklasse wie die H100 mit der D7-PS1010 eine höhere Leistung. Die Geschwindigkeit eines Laufwerks ist für einige Kunden der entscheidende Faktor, während andere die Gesamtdichte priorisieren. Solidig bietet Lösungen für beide, mit seinen QLC- und TLC-SSD-Angebote.

Fazit

Da Umfang und Komplexität des KI-Trainings immer weiter zunehmen, muss die zugrunde liegende Speicherinfrastruktur nicht nur Schritt halten, sondern auch das Tempo vorgeben. Unsere Tests mit zwei sehr unterschiedlichen SSDs verdeutlichen, wie wichtig es ist, Speicherlösungen an bestimmten Trainingsprioritäten auszurichten, wie etwa die Minimierung der Checkpoint-Latenz oder die Maximierung der Checkpoint-Dichte für eine kosteneffiziente Skalierbarkeit.

In unserer Bewertung haben wir den Solidigm D5-P5336 (61.44 TB) und den D7-PS1010 (7.68 TB) unter realistischen KI-Trainingsbedingungen getestet, wobei wir den DLIO-Benchmark und einen umfangreichen hybrid-parallelen LLM-Checkpointing-Workflow verwendeten. Wir haben Metriken erfasst, die die Checkpoint-Schreibleistung über mehrere Durchläufe hinweg widerspiegeln, während die Laufwerke gefüllt wurden, und haben dabei die Unterschiede in den Fertigstellungszeiten zwischen dem Gen4 QLC-basierten D5-P5336 und dem Gen5 TLC-basierten D7-PS1010 hervorgehoben.

Während der D7-PS1010 die schnellstmöglichen Checkpoint-Schreibvorgänge lieferte, zeigte der D5-P5336 überzeugende Kosteneffizienz- und Kapazitätsvorteile bei nur geringen Leistungseinbußen. Wir untersuchten außerdem die Lesebandbreiten von GPU Direct Storage mit GDSIO über eine NVIDIA L4-GPU. Wir fanden heraus, dass der Solidigm D5-P5336 bis zu 4.2 GiB/s Lesebandbreite bei einer Übertragungsgröße von 1 M bot, während der D7-PS1010 eine erhebliche Steigerung auf 6.2 GiB/s bot. Sie würden eine noch bessere Leistung erzielen, wenn Sie eine noch größere GPU wie die NVIDIA L40s oder H100/H200 nutzen würden.

Mit Blick auf die Zukunft wird die beispiellose Kapazität der Solidigm D5-P5336 122TB SSD das Training und den Einsatz von KI neu gestalten. Da die Modellgrößen und Checkpointing-Anforderungen weiter steigen, öffnen diese massiven Laufwerke Türen zu neuen Ebenen der Effizienz und Flexibilität und ermöglichen Trainingsstrategien, die bisher unerreichbar waren. Solidigms führende Position bei SSD-Lösungen mit hoher Kapazität ermöglicht es Unternehmen, mehr Daten und Checkpoints auf weniger Laufwerken zu speichern und hilft dabei, ihre Infrastrukturen zukunftssicher gegen die nächste Welle der KI-Komplexität zu machen.

Solidigm D5-P5336 122 TB SSD

Dieser Bericht wird von Solidigm gesponsert. Alle in diesem Bericht geäußerten Ansichten und Meinungen basieren auf unserer unvoreingenommenen Sicht auf das/die betrachtete(n) Produkt(e).

Beteiligen Sie sich an StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed