Entreprise

Mise à l'échelle des points de contrôle de l'IA : l'impact des disques SSD haute capacité sur la formation des modèles

Le point de contrôle est essentiel à la formation du modèle d’IA, garantissant la résilience, l’efficacité et la capacité de reprendre ou d’affiner la formation à partir des états enregistrés.

Le point de contrôle est essentiel à la formation des modèles d'IA, car il garantit la résilience, l'efficacité et la capacité à reprendre ou à affiner la formation à partir des états enregistrés. Cependant, les exigences des charges de travail de l'IA moderne, avec des modèles de plus en plus complexes et des ensembles de données de formation étendus, poussent le stockage à ses limites.

Le rôle des points de contrôle dans les workflows d'IA

Le point de contrôle dans la formation de l'IA est un processus essentiel qui implique l'enregistrement périodique de l'état complet du modèle pendant la formation. Cet état comprend les pondérations et les paramètres du modèle, les états de l'optimiseur, les programmes de taux d'apprentissage et les métadonnées de formation. Le point de contrôle crée un instantané complet du processus de formation à des intervalles spécifiques, assurant la continuité de la formation et la récupération en cas d'interruption.

Les points de contrôle sont généralement définis à des intervalles basés sur des itérations (par exemple, tous les mille pas de formation). La formation LLM moderne, qui peut s'étendre sur des semaines ou des mois et consommer d'énormes ressources de calcul, s'appuie fortement sur ces points de contrôle comme filet de sécurité contre les défaillances potentielles. Par exemple, la formation d'un modèle comme la classe GPT-4 peut générer des points de contrôle allant de plusieurs centaines de gigaoctets à plusieurs téraoctets, selon la taille du modèle et la configuration de la formation.

Processus de formation généré par DALL-E

L'objectif principal des points de contrôle va au-delà de la simple fonctionnalité de sauvegarde. Il s'agit d'un mécanisme essentiel pour la résilience de l'entraînement, permettant la reprise de l'entraînement à partir du dernier état enregistré plutôt que de repartir de zéro en cas de panne du système, de coupure de courant ou de problèmes matériels. De plus, les points de contrôle sont inestimables pour l'analyse des modèles, permettant aux chercheurs d'examiner l'évolution du modèle à différentes étapes de l'entraînement et de potentiellement revenir aux états précédents si une dégradation des performances est détectée.

Les schémas d'écriture pendant le point de contrôle sont particulièrement intéressants du point de vue du stockage. Lorsqu'un point de contrôle est déclenché, le système doit écrire des quantités massives de données selon un schéma de rafale. Cela crée un profil d'E/S distinctif caractérisé par des périodes d'activité de stockage relativement faible pendant les calculs d'entraînement, suivies d'opérations d'écriture intenses à large bande passante pendant le point de contrôle. Ces opérations d'écriture sont généralement séquentielles et peuvent bénéficier considérablement de systèmes de stockage optimisés pour les écritures séquentielles à large bande passante.

Différentes stratégies de parallélisme dans la formation distribuée peuvent avoir un impact significatif sur le comportement des points de contrôle. Ces stratégies de parallélisme affectent le moment où les points de contrôle se produisent pendant la formation et la partie du modèle qui est contrôlée. Dans les configurations de formation distribuée modernes, plusieurs GPU peuvent écrire simultanément différentes parties de la même couche, créant ainsi des modèles d'E/S complexes. Cette capacité d'écriture parallèle est essentielle pour l'efficacité, mais exige une coordination minutieuse et des systèmes de stockage robustes capables de gérer des opérations d'écriture simultanées tout en maintenant la cohérence des données. Le système de stockage doit être capable de gérer efficacement ces écritures simultanées, car tout goulot d'étranglement dans ce processus peut entraîner des retards de formation globaux.

La lenteur des points de contrôle peut créer des goulots d'étranglement importants lors de la formation, car l'ensemble du processus de formation doit être interrompu pendant l'écriture du point de contrôle dans le stockage. Par exemple, dans une configuration de formation à grande échelle, si le point de contrôle prend 30 minutes toutes les quelques heures, cela peut entraîner plusieurs heures d'indisponibilité accumulées sur toute la période de formation. Cela a un impact direct sur l'efficacité de la formation et augmente les coûts opérationnels, en particulier dans les environnements cloud où les ressources informatiques sont facturées au temps.

Grâce à des points de contrôle plus rapides, les équipes peuvent également se permettre de créer des points de contrôle plus fréquemment, réduisant ainsi la perte potentielle maximale de données en cas de défaillance. Cela permet des approches de formation plus agressives et de meilleurs cycles d'itération expérimentaux. De plus, les temps de chargement rapides des points de contrôle facilitent une expérimentation plus rapide avec différentes configurations de formation et architectures de modèles, car les chercheurs peuvent plus facilement restaurer les états précédents pour essayer des approches alternatives.

La capacité du système de stockage à gérer efficacement ces opérations de point de contrôle devient un facteur essentiel dans l'infrastructure de formation globale. Les solutions de stockage hautes performances capables de gérer à la fois les schémas d'écriture en rafale des points de contrôle et les opérations de lecture/écriture soutenues de la formation peuvent avoir un impact significatif sur le temps total et le coût de formation de modèles de langage volumineux. Ainsi, les caractéristiques de performance du sous-système de stockage, en particulier dans la gestion des écritures séquentielles volumineuses et le maintien d'une bande passante élevée et constante, sont des considérations cruciales dans la conception de l'infrastructure de formation LLM.

Pour ce rapport, nous voulions évaluer les performances des SSD pour le point de contrôle de l'IA, en évaluant les avantages des derniers SSD Gen5 lorsque la vitesse du point de contrôle est critique, par rapport aux plus grands SSD QLC du marché, qui peuvent stocker un grand nombre de points de contrôle si cela est plus bénéfique pour le modèle en cours de formation.

Performances des points de contrôle – Analyse comparative avec DLIO

Pour évaluer les performances réelles du SSD Solidigm dans les environnements de formation d'IA, nous avons utilisé le Outil de référence d'entrée/sortie de données et d'apprentissage (DLIO)Développé par l'Argonne National Laboratory, DLIO est spécialement conçu pour tester les modèles d'E/S dans les charges de travail d'apprentissage profond. Il fournit des informations sur la manière dont les systèmes de stockage gèrent les points de contrôle, l'ingestion de données et les défis de formation des modèles.

En travaillant avec DLIO, nous avons cherché à mesurer le débit, la latence et la fiabilité du disque dans des scénarios de points de contrôle intensifs. Bien que ces tests aient été effectués sur le D61.44-P5 de 5336 To, les données de performances initiales ont montré que la version Solidigm D5-P5336 de 122 To offre un profil de performances similaire. Nous avons également inclus les résultats d'un D7-PS1010 basé sur TLC pour montrer les avantages du PCIe Gen5 dans ce test. Nous avons choisi ces deux disques pour montrer les deux angles sur les points de contrôle, l'un étant le temps de point de contrôle le plus rapide possible et l'autre stockant le plus de points de contrôle sur un seul SSD.

La plateforme choisie pour ce travail était notre Dell PowerEdge R760 exécutant Ubuntu 22.04.02 LTS. Nous avons utilisé la version 2.0 du benchmark DLIO du 13 août 2024. Notre configuration système est décrite ci-dessous :

  • 2 x Intel Xeon Gold 6430 (32 cœurs, 2.1 GHz)
  • 16 x 64GB DDR5-4400
  • Disque SSD Dell BOSS de 480 Go
  • Câbles série Gen5 JBOF
    • Disque SSD Solidigm D7.68-PS7 de 1010 To
    • Disque SSD Solidigm D61.44-P5 de 5336 To

Pour garantir que notre analyse comparative reflète des scénarios réels, nous avons basé nos tests sur l'architecture du modèle LLAMA 3.1 405B, en implémentant des points de contrôle via torch.save() pour capturer les paramètres du modèle, les états de l'optimiseur et les états des couches. Notre configuration a simulé un système à 8 GPU, mettant en œuvre une stratégie de parallélisme hybride avec un traitement parallèle à 4 tenseurs et un traitement parallèle à 2 pipelines répartis sur les huit GPU. Cette configuration a donné lieu à des tailles de points de contrôle de 1,636 XNUMX Go, représentatives des exigences de formation des modèles de langage modernes à grande échelle.

Notre processus de test pour la charge de travail du point de contrôle DLIO consistait à remplir chaque lecteur à un niveau d'utilisation similaire. Pour le Solidigm D61.44-P5 de 5336 To, chaque passage comprenait 33 intervalles de point de contrôle, pour un total de 54 To. Le D7.68-PS7 plus petit de 1010 To s'adaptait confortablement à trois intervalles de point de contrôle, avec une empreinte totale de 4.9 To. Un point de contrôle supplémentaire pourrait s'adapter au D7-PS1010, bien qu'il ait augmenté son utilisation légèrement au-dessus de ce que nous souhaitions.

La charge de travail du point de contrôle DLIO a donné des résultats intéressants lorsque nous avons comparé le D4-P61.44 de 5 To basé sur QLC Gen5536 au D5-PS7.68 de 7 To basé sur TLC Gen1010. Au cours du premier passage, à mesure que les disques se remplissaient, nous avons constaté un écart de performances plus important entre les deux modèles de SSD. Le PS5 Gen1010 plus rapide a terminé chaque point de contrôle en moyenne en 464 secondes, contre 623 secondes pour le P4 Gen5336. Lors des deuxième et troisième passages, l'écart s'est réduit à 579 et 587 secondes pour le PS1010 et à 676 et 680 secondes pour le P5336.

Pour les entreprises qui cherchent à réduire au minimum les intervalles de points de contrôle, le Gen5 PS1010 basé sur TLC offre l'avantage d'offrir le temps de traitement le plus rapide. Si l'objectif est de conserver de nombreux points de contrôle de manière rentable, le Gen4 P5336 basé sur QLC peut le faire. Nous avons mesuré une différence de temps de point de contrôle moyen de moins de 17 % entre les deux disques lors des passes deux et trois.

Bande passante de stockage GPUDirect

Bien que DLIO montre les performances du flash dans un flux de travail d'IA, la charge de travail est entièrement basée sur l'écriture jusqu'à ce qu'un point de contrôle soit restauré. Pour brosser un tableau plus complet des Solidigm D7-PS1010 et D5-P5336 dans les charges de travail d'IA, nous avons inclus des mesures de bande passante de lecture à l'aide de GDSIO.

Comment fonctionne le stockage direct GPU

Traditionnellement, lorsqu'un GPU traite des données stockées sur un disque NVMe, les données doivent d'abord transiter par le processeur et la mémoire système avant d'atteindre le GPU. Ce processus introduit des goulots d'étranglement, car le processeur devient un intermédiaire, ce qui ajoute de la latence et consomme de précieuses ressources système. Le stockage direct GPU élimine cette inefficacité en permettant au GPU d'accéder directement aux données depuis le périphérique de stockage via le bus PCIe. Ce chemin direct réduit la surcharge associée au déplacement des données, permettant des transferts de données plus rapides et plus efficaces.

Les charges de travail de l’IA, en particulier celles impliquant l’apprentissage profond, sont très gourmandes en données. La formation de grands réseaux neuronaux nécessite le traitement de téraoctets de données, et tout retard dans le transfert de données peut entraîner une sous-utilisation des GPU et des temps de formation plus longs. Le stockage direct GPU relève ce défi en garantissant que les données sont transmises au GPU le plus rapidement possible, en minimisant les temps d’inactivité et en maximisant l’efficacité de calcul.

Comme pour le test DLIO, l’objectif est de mieux comprendre et caractériser les différences entre les SSD Gen5 à grande vitesse et les disques QLC à grande capacité. Toutes les charges de travail d’IA ne sont pas identiques et chaque disque offre des avantages distincts, en fonction des besoins.

Matrice de configuration des tests

Nous avons testé systématiquement chaque combinaison des paramètres suivants avec un NVIDIA L4 dans notre plateforme de test :

  • Tailles de blocs : 1 M, 128 K, 64 K, 16 K, 8 K
  • Nombre de fils : 128, 64, 32, 16, 8, 4, 1
  • Nombre d'emplois : 16
  • Tailles des lots : 16

Notre premier aperçu a été le D5-P5336 basé sur QLC, qui a atteint 4.2 Gio/s avec une taille de transfert de 1 M à une profondeur d'E/S de 128. L'effet des tailles de blocs a produit une augmentation substantielle de la bande passante, passant de 8 1 à 32 M. L'avantage d'une profondeur d'E/S accrue a commencé à diminuer à XNUMX, où les charges de travail ont commencé à se stabiliser.

Ensuite, nous examinons le Gen5 PS-1010, qui peut évoluer jusqu'à 6.2 Gio/s avec une taille de bloc de 1 M et une profondeur d'E/S de 128. Dans l'ensemble, il a surpassé le P4 basé sur Gen5336, avec des charges de travail particulières démontrant une amélioration substantielle. Un domaine d'amélioration notable est venu dans la taille de bloc de 128 K, où avec une profondeur d'E/S de 64 et 128, le PS1010 offrait une bande passante de lecture deux fois supérieure à celle du P5336.

Il est important de noter que les deux SSD ont été testés avec le NVIDIA L4. Alors que le Gen4 D5-P5336 se situe à son niveau le plus élevé ou presque, les GPU NVIDIA haut de gamme comme le H100 ont démontré des performances supérieures avec le D7-PS1010. La vitesse d'un disque est le facteur décisif pour certains clients, tandis que d'autres privilégient la densité globale. Solidigme propose des solutions pour les deux, avec ses Offres SSD QLC et TLC.

Pour aller plus loin

À mesure que l'ampleur et la complexité de la formation de l'IA continuent de croître, l'infrastructure de stockage sous-jacente doit non seulement suivre le rythme, mais également donner le ton. Nos tests avec deux SSD très différents illustrent l'importance d'aligner les solutions de stockage sur des priorités de formation spécifiques, telles que la minimisation de la latence des points de contrôle ou la maximisation de la densité des points de contrôle pour une évolutivité rentable.

Dans notre évaluation, nous avons testé le Solidigm D5-P5336 (61.44 To) et le D7-PS1010 (7.68 To) dans des conditions d'entraînement d'IA réalistes à l'aide du benchmark DLIO et d'un workflow de point de contrôle LLM hybride-parallèle complet. Nous avons capturé des mesures reflétant les performances d'écriture des points de contrôle sur plusieurs exécutions à mesure que les disques se remplissaient, mettant en évidence les différences de temps d'achèvement entre le D4-P5 basé sur QLC Gen5336 et le D5-PS7 basé sur TLC Gen1010.

Alors que le D7-PS1010 offrait les écritures de point de contrôle les plus rapides possibles, le D5-P5336 a démontré des avantages convaincants en termes de rapport coût-efficacité et de capacité avec seulement une baisse de performances modeste. Nous avons également examiné les bandes passantes de lecture du stockage direct GPU avec GDSIO via un GPU NVIDIA L4. Nous avons constaté que le Solidigm D5-P5336 offrait jusqu'à 4.2 Gio/s de bande passante de lecture avec une taille de transfert de 1 Mo, tandis que le D7-PS1010 offrait une augmentation substantielle jusqu'à 6.2 Gio/s. Vous obtiendrez des performances encore plus élevées en exploitant un GPU encore plus grand, comme le NVIDIA L40s ou le H100/H200.

À l’avenir, la capacité sans précédent du SSD Solidigm D5-P5336 de 122 To devrait remodeler la formation et le déploiement de l’IA. Alors que la taille des modèles et les exigences en matière de points de contrôle continuent d’augmenter, ces disques massifs ouvrent la voie à de nouveaux niveaux d’efficacité et de flexibilité, permettant des stratégies de formation qui étaient auparavant hors de portée. Le leadership de Solidigm dans les solutions SSD haute capacité permet aux organisations de stocker plus de données et de points de contrôle sur moins de disques et contribue à pérenniser leurs infrastructures face à la prochaine vague de complexité de l’IA.

Disque SSD Solidigm D5-P5336 122 To

Ce rapport est sponsorisé par Solidigm. Tous les points de vue et opinions exprimés dans ce rapport sont basés sur notre vision impartiale du ou des produits à l'étude.

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS

Kevin O'Brien

À l'intérieur du laboratoire StorageReview, évaluant les produits et travaillant avec les leaders de l'industrie pour développer de nouveaux environnements de test. À la maison, j'élève une famille.

Derniers Articles

Test de la carte graphique NVIDIA GeForce RTX 5080 : la solution idéale pour les charges de travail d'IA

La NVIDIA GeForce RTX 5080, lancée le 30 janvier 2025, aux côtés du produit phare RTX 5090, se positionne comme la…

Il y a 1 semaine

Adaptateurs HBA sécurisés Emulex : la nouvelle norme pour le chiffrement des réseaux en vol

Découvrez comment le chiffrement Emulex Secure HBA protège les données en transit grâce à une sécurité déchargée du matériel pour les SAN Fibre Channel. (suite…)

Il y a 1 semaine

La demande d'IA des entreprises plaide en faveur de la FC 64G

Fibre Channel offre les capacités techniques nécessaires pour répondre à la croissance de l'IA, et le 64G FC constitue l'épine dorsale des applications d'IA gourmandes en données.

Il y a 1 semaine

Test du SuperMicro Hyper SuperServer SYS-212HA-TN (Intel Xeon 6 6980P)

Supermicro Hyper SuperServer SYS-212HA-TN : Intel Xeon 6 6980P, 12 emplacements DIMM, PCIe 5.0 et jusqu'à 24 baies dans un…

il y a 2 semaines

Test de la carte graphique NVIDIA GeForce RTX 5090 : repousser les limites grâce à l'accélération de l'IA

Test de la NVIDIA GeForce RTX 5090 : sortie le 30 janvier 2025, avec un prix de vente conseillé de 1,999 5090 $. La XNUMX va-t-elle redéfinir les performances élevées ?

il y a 2 semaines

Test du Dell Pro Rugged 14

Nous avons été très impressionnés par le Dell Pro Rugged 14. Le système est exceptionnellement bien construit et durable, bien au-dessus…

Il y a 1 mois