Accueil EntrepriseAI Les SSD KIOXIA E1.S rendent les flux de travail d'IA plus efficaces

Les SSD KIOXIA E1.S rendent les flux de travail d'IA plus efficaces

by Jordan Ranous

Même s'il existe un battage médiatique important autour des serveurs GPU denses pour l'IA, et à juste titre, la réalité est que la plupart des projets de formation en IA démarrent sur des postes de travail. Bien que nous puissions désormais intégrer jusqu'à quatre GPU NVIDIA A6000 Ada sur un seul poste de travail, le plus difficile est d'obtenir un stockage robuste dans ces boîtiers IA. Nous avons réfléchi à ce problème et élaboré un plan pour fournir au mieux à quelques postes de travail IA un stockage à haut débit. Nous avons travaillé avec Supermicro et KIOXIA pour remplir un serveur avec 24 SSD XD7.68P de 7 To afin de créer un serveur de stockage 1U incroyablement performant avec une astuce d'inférence dans son sac.

Même s'il existe un battage médiatique important autour des serveurs GPU denses pour l'IA, et à juste titre, la réalité est que la plupart des projets de formation en IA démarrent sur des postes de travail. Bien que nous puissions désormais intégrer jusqu'à quatre GPU NVIDIA A6000 Ada sur un seul poste de travail, le plus difficile est d'obtenir un stockage robuste dans ces boîtiers IA. Nous avons réfléchi à ce problème et élaboré un plan pour fournir au mieux à quelques postes de travail IA un stockage à haut débit. Nous avons travaillé avec Supermicro et KIOXIA pour remplir un serveur avec 24 SSD NVMe pour centre de données série XD7.68P de 7 To afin de créer un serveur de stockage 1U incroyablement performant avec une astuce d'inférence dans son sac.

Nous savons ce que vous pensez : comment comptez-vous relier les points entre une plate-forme de serveur remplie de SSD E1.S, des postes de travail entraînant des modèles d'IA et l'inférence sur le même serveur de stockage ? Laissez-vous un peu de latitude pour expliquer.

Les postes de travail IA n'ont pas besoin d'être sous un bureau

À quelques exceptions près, les stations de travail IA haute puissance équipées de GPU coûteux ne devraient probablement pas être distribuées en périphérie ou même dans un immeuble de bureaux. Les problèmes sont nombreux. Principalement, ces points de terminaison sont exposés à un risque élevé de menaces de sécurité et de fuite de données et, surtout, ils souffrent d'une sous-utilisation. La plupart des professionnels de l'IA ne peuvent pas accéder à la grande quantité de données nécessaires à l'entraînement de leurs modèles en raison de configurations LAN inadéquates.

Si, en revanche, nous placions ces postes de travail puissants dans le centre de données, nous bénéficierions désormais de plusieurs avantages. Premièrement, la sécurité physique est résolue et les problèmes d'accès à distance peuvent être atténués grâce à des clients légers ou à un accès qui transmet uniquement des pixels plutôt que des données via le câble. Dans ce scénario, les données résident sur le serveur plutôt que sur le poste de travail. Deuxièmement, ces systèmes du centre de données sont plus rapides, voire plus faciles, à sauvegarder. Troisièmement, grâce au provisionnement intelligent, nous pouvons augmenter l’utilisation dans l’ensemble de l’entreprise en partageant ces systèmes avec une main d’œuvre IA distribuée. Enfin, être dans le data center nous donne accès à l’actif le plus précieux de l’IA : les données.

Nous avons fourni trois postes de travail Lenovo que nous avions dans le laboratoire pour ce travail. Chacun est configuré un peu différemment, exploitant à la fois les GPU AMD et NVIDIA, offrant ainsi une flexibilité car certains modèles peuvent mieux fonctionner sur différents accélérateurs. Chaque système est équipé d'une carte NVIDIA ConnectX-6 100GbE, ce qui est fondamental pour garantir à ces systèmes un accès rapide au stockage. Chaque système se connecte ensuite à un commutateur Dell Z9100 100GbE, auquel le service de stockage est également connecté.

Partie Station de travail 1 Station de travail 2 Station de travail 3
Modèle Lenovo P620 Lenovo P620 Lenovo P5
Processeur AMD Ryzen Threadripper PRO 5995WX AMD Ryzen Threadripper PRO 3995WX Intel Xeon w7-2495X
Mémoire 128GB DDR4 3200 32GB DDR4 3200 32GB DDR5 4800Mhz
GPU AMD Radeon PRO W7900 Nvidia RTX A6000 Nvidia RTX A4500

Stockage IA rapide avec les SSD de la série KIOXIA XD7P

Une fois le banc d’essai du poste de travail IA trié, nous nous tournons vers le serveur de stockage. Dans ce cas, nous utilisons un Supermicro Stockage SuperServeur SSG-121E-NES24R. Ce serveur 1U dispose de deux processeurs Intel Xeon Platinum 8450H avec 28 cœurs et 56 threads avec une fréquence de base de 2.00 GHz. Les processeurs 8450H peuvent atteindre une fréquence turbo maximale de 3.50 GHz tout en disposant d'un cache de 75 Mo et d'un TDP de 250 W. Les 512 Go de RAM DDR5 représentent une empreinte RAM relativement modeste. Le serveur utilise la même carte réseau NVIDIA ConnectX-6 100GbE que les postes de travail pour la connectivité. Nous avons également installé un GPU NVIDIA A2 pour l'inférence.

En ce qui concerne le stockage, KIOXIA nous a envoyé 24 disques SSD NVMe pour centres de données de la série XD7P. Les SSD KIOXIA XD7P Series E1.S sont spécialement conçus pour répondre aux besoins des applications hyperscale trouvées dans les centres de données modernes, en particulier en ce qui concerne les performances, l'efficacité énergétique et les exigences thermiques, telles que décrites par la spécification SSD NVMe du centre de données Open Compute Project (OCP).

Ces SSD sont disponibles dans les variantes E9.5.S de 15 mm et 1 mm d'épaisseur, ces derniers étant dotés d'un dissipateur thermique pour améliorer la dissipation thermique. L'architecture propriétaire de KIOXIA du XD7P, qui comprend son contrôleur, son micrologiciel et 5th-gen BiCS FLASH™, contribue à l'efficacité, à la fiabilité et aux performances globales. La nouvelle série est proposée dans des capacités allant de 1.92 To à 7.68 To pour répondre aux différentes demandes de stockage.

Certaines fonctionnalités clés incluent la protection contre les coupures de courant (PLP) et la protection des données de bout en bout, qui sont essentielles au maintien de l'intégrité des données dans des scénarios impliquant une coupure de courant inattendue. De plus, la disponibilité de la technologie de lecteur à chiffrement automatique (SED) ajoute une couche supplémentaire de sécurité des données.

Concernant les performances, les SSD de la série KIOXIA XD7P offrent des chiffres potentiels impressionnants dans différentes capacités. Avec des vitesses de lecture séquentielle soutenues allant jusqu'à 7,200 4,800 Mo/s et des vitesses d'écriture séquentielle allant jusqu'à 1,650 200 Mo/s pour des capacités plus importantes, ces SSD sont conçus pour gérer efficacement les tâches gourmandes en données. De plus, les vitesses de lecture et d'écriture aléatoires soutenues, allant respectivement jusqu'à XNUMX XNUMX XNUMX IOPS et XNUMX XNUMX IOPS, les rendent adaptés aux charges de travail exigeant des opérations d'E/S élevées.

Le XD7P exploite le facteur de forme E1.S pour trouver un équilibre unique entre performances et densité. Cela positionne les nouveaux disques comme une solution d’avenir pour le stockage flash dans les centres de données cloud et hyperscale, répondant aux exigences évolutives de ces environnements exigeants. La taille standardisée du XD7P et les dissipateurs thermiques intégrés constituent un moyen efficace d'accueillir nos 24 disques montés à l'avant dans le SuperServer 1U SSG-121E-NES24R, augmentant ainsi considérablement la densité du serveur. De plus, la possibilité de remplacement à chaud de l'E1.S, associée à sa capacité à gérer des charges de travail hautes performances sans problèmes thermiques, le positionne comme un remplacement pratique du connecteur M.2 dans les centres de données, avec une efficacité et des performances améliorées pour les solutions de stockage telles que les centres de données. .

Le XD7P prend en charge les voies PCIe Gen4 x4. Le disque fonctionne bien avec les fonds de panier Gen4 ou Gen5.

Spécifications rapides de la série KIOXIA XD7P

Compétences 7,680 GB 3,840 GB 1,920 GB 7,680 GB 3,840 GB 1,920 GB
Spécifications de base
Facteur de forme E1.S 15mm E1.S 9.5mm
Interface PCIe 5.0, NVMe 2.0
Type de mémoire flash BiCS FLASH TLC
Performances (jusqu'à)
Lecture séquentielle soutenue de 128 Kio 7,200MB / s
Écriture séquentielle soutenue de 128 Kio 4,800MB / s 3,100MB / s 4,800MB / s 3,100MB / s
Lecture aléatoire soutenue de 4 Kio 1,550K IOPS 1,650K IOPS 1,500K IOPS 1,550K IOPS 1,650K IOPS 1,500K IOPS
Écriture aléatoire soutenue de 4 Kio 200K IOPS 180K IOPS 95K IOPS 200K IOPS 180K IOPS 95K IOPS
Exigences d'alimentation
Tension d'alimentation 12 V ± 10 %
Consommation d'énergie (active) 20 W typ. 20 W typ. 16 W typ. 20 W typ. 20 W typ. 16 W typ.
Consommation d'énergie (Prêt) 5 W typ.
Fiabilité
MTTF 2,000,000 heures
DWPD 1

Performances du serveur de stockage avec les SSD de la série KIOXIA XD7P

Pour mieux comprendre les performances de ce combo, nous avons commencé par tester le serveur de stockage avec des tests de performances internes. Lorsque nous avons examiné les performances du serveur de stockage, nous nous sommes concentrés sur les performances brutes complètes d'une configuration JBOD sous Ubuntu Linux pour caractériser les capacités du stockage.

Nous avons examiné le débit maximal avec une charge de travail aléatoire de 4K, puis la bande passante maximale avec une charge de travail séquentielle de 64K. Ces tests ont été exécutés en utilisant VDbench dans un environnement Ubuntu 22.04.

Charge de travail Lire Écrire
64K séquentiel, charge 64 threads 158GB / s 64.1GB / s
4K aléatoire, charge de 512 threads 4.09 millions d'IOPS, 16 Go/s 4.5 millions d'IOPS, 17.7 Go/s

Dans notre configuration expérimentale, nous avons décidé d'utiliser les espaces de stockage Windows en combinaison avec le protocole SMB3 pour exploiter les disques KIOXIA haute vitesse. En tirant parti des espaces de stockage pour créer un pool de stockage en miroir résilient, nous avons pu garantir l'intégrité des données et optimiser les performances d'E/S.

Les fonctionnalités améliorées de SMB3, telles que les capacités multicanaux et les poignées persistantes, permettent la diffusion directe de gros morceaux de données à haut débit vers plusieurs postes de travail GPU, contournant les goulots d'étranglement traditionnels souvent associés à une mémoire plus lente et liée au processeur. Cette configuration présentait le double avantage de permettre une récupération rapide des données tout en permettant à plusieurs postes de travail d'accéder et de charger simultanément des données vers et depuis notre stockage partagé alimenté par KIOXIA.

Alors que nos tests précédents mesuraient les performances brutes des SSD de la série KIOXIA XD7P sans système de fichiers en place, nous avons réexaminé les performances dans l'environnement Windows Server 2022. Dans cette configuration, avec le disque virtuel en miroir en place sur notre grand pool de stockage, nous avons utilisé le système de fichiers NTFS.

Pour confirmer les solides performances de notre volume en miroir, nous avons exploité CrystalDiskMark localement sur le serveur. Ce test a été mis en place pour mesurer les performances de lecture et d'écriture séquentielles avec une taille de transfert de 1 Mo ainsi que des vitesses de transfert aléatoires de 4K. Ici, avec une empreinte de fichier de 64 Go, nous avons mesuré 87.4 Go/s en lecture et plus de 18.4 Go/s en écriture.

Pour cet article, nous examinons les capacités globales de l'ensemble de la solution d'IA. Ainsi, même si ce type de profil de performances est impressionnant, KIOXIA nous en donne clairement plus que ce dont nous avons besoin. C'est une bonne chose, car cela signifie que nous pourrions facilement augmenter le nombre de postes de travail IA ou attribuer des tâches supplémentaires au serveur de stockage, qu'il s'agisse de nettoyer et de nettoyer nos données ou autre chose.

Alimenter les postes de travail IA avec un stockage à grande vitesse abondant

Avec nos postes de travail GPU situés dans le rack du laboratoire, connectés en réseau 100 GbE à notre serveur de fichiers 1U 100 % flash basé sur KIOXIA et des partages configurés, nous sommes partis tester cela en pratique. Dans notre configuration de test, nous avons opté pour une liaison 9100 GbE unique de base entre chaque poste de travail et notre commutateur Dell Z100 100 GbE, qui s'est ensuite connecté au serveur de stockage avec une autre liaison XNUMX GbE.

Ici, nous avons pu mesurer un débit impressionnant de 11.4 Go/s en lecture et de 11 Go/s en écriture à partir d'un partage de fichiers Windows sur notre serveur de stockage KIOXIA.

Ce niveau de performances et de densité sur le réseau filaire vers les postes de travail IA apportera une valeur considérable. Plutôt que d'essayer de remplir les postes de travail IA avec du stockage local, nous pouvons partager un stockage encore plus performant sur 100 GbE et dont la capacité est plus ou moins illimitée.

GenAI en pratique – Ensembles de données de formation LLM

Les grands modèles linguistiques (LLM) sont les enfants les plus populaires du secteur informatique de nos jours. Leur formation et leur réglage fin sont une entreprise colossale qui nécessite des ensembles de données monumentaux et une puissance GPU encore plus importante pour les traiter. Pour charger certains postes de travail GPU et effectuer des tests de style dans le monde réel, nous avons effectué un vidage de tous les textes soumis et commentaires Reddit de 2012 à 2021 avec quelques ajustements, ainsi que le Ensemble de données d'entraînement Stanford Alpaga, au modèle LLaMa pour plusieurs tentatives de réglage fin. L'objectif était d'évaluer l'efficacité, la précision et la viabilité du modèle LLaMa lorsqu'il est soumis à des ensembles de données réelles à grande échelle.

Depuis la plateforme Windows Server 2022, les 24 SSD KIOXIA XD7P Series ont été regroupés dans un pool de 168 To puis dans un volume miroir de 83.7 To. Ce volume a ensuite été partagé sur le réseau 100 GbE avec un partage de fichiers sur chacun des trois postes de travail à exploiter. Le serveur de stockage Supermicro Superserver utilisé peut gérer une taille de données remplissant tout le volume de 84 To sans affecter les performances. La taille des données actuellement utilisée est de 5.6 To, mais le volume peut gérer une taille beaucoup plus grande.

Chaque poste de travail GPU a été configuré légèrement différemment afin de fournir un environnement diversifié. Nous avons traité chaque machine comme s'il s'agissait d'un développeur individuel travaillant avec différents modèles sur un ensemble de données partagé et n'avons distribué aucune formation. Le choix de Windows dans ce contexte visait à émuler un premier scénario de recherche ou de développement.

Pour vous donner un aperçu de l'ampleur des données que nous traitons, nos ensembles de données pour ce test comprenaient 16,372 3.7 fichiers pour les données de formation LLM, consommant 8,501 To d'espace disque, et 1.9 24,873 autres fichiers pour les données de formation d'images occupant 5.6 To. Au total, nous avons travaillé avec XNUMX XNUMX fichiers totalisant XNUMX To. Il est important de noter que nous avons délibérément limité la taille de nos ensembles de données et n'avons pas utilisé toute la capacité de stockage pour ces expériences ; sinon, le processus de formation ou de mise au point aurait été prohibitif pour ce projet. Avec cette configuration, tous les postes de travail ont pu partager les ensembles de données et enregistrer les points de contrôle et les fragments sur le serveur pour la collaboration.

Fichiers Taille sur le disque
Données de formation LLM 16,372 3.7TB
Données de formation d'images 8,501 1.9TB
Total 24,873 5.6TB

La pile logicielle de nos deux expériences était une configuration simple et nous nous sommes appuyés sur la puissance de Anaconda et sous-système Windows pour Linux (WSL). Anaconda fournit un environnement robuste pour gérer nos bibliothèques et dépendances d'apprentissage automatique basées sur Python, permettant une configuration modulaire et facilement réplicable sur nos postes de travail GPU. WSL contribue à combler le fossé entre les utilitaires Windows et Linux, en offrant la flexibilité nécessaire pour exécuter de manière transparente des outils de manipulation et d'orchestration de données spécifiques à Linux sur nos postes de travail Windows. Nous pourrions exécuter des scripts shell pour le prétraitement des données et lancer des tâches de formation basées sur Python, le tout dans un flux de travail unifié. Une partie de la raison pour laquelle nous avons choisi cette voie n'était pas seulement la facilité de configuration, mais également pour uniformiser les règles du jeu avec notre environnement GPU mixte.

Au cours du processus de formation, quelques observations clés ont été faites :

  1. Diversité des données : la fusion des soumissions et des commentaires de Reddit, s'étalant sur près d'une décennie, a présenté le modèle avec un mélange éclectique de sujets, de lexiques et de contextes conversationnels. Cette riche diversité a fourni une plate-forme complète permettant au modèle de comprendre et de s'adapter aux diverses nuances, sentiments et changements culturels au fil du temps.
  2. Évolutivité du modèle : la gestion d'un volume de données aussi immense était un test décisif pour l'évolutivité du modèle LLaMa. Nous avons constaté qu'à mesure que les périodes de formation augmentaient, la capacité du modèle à prédire et à générer des réponses pertinentes s'améliorait considérablement, soulignant ainsi son potentiel pour des applications à grande échelle. Le surajustement était un problème après environ une demi-douzaine, mais n'était pas nécessairement un problème pour ce test, car l'objectif était de charger nos GPU et notre partage réseau davantage que de créer un modèle LLM général.
  3. Optimisation des ressources : étant donné la puissance monumentale du GPU requise, il était crucial de garantir une utilisation efficace des ressources de calcul. Un équilibrage de charge dynamique, des points de contrôle périodiques et des techniques d'augmentation des données à la volée ont été utilisés pour garantir des performances optimales.
  4. Puissance d'apprentissage par transfert : l'utilisation de l'ensemble de données d'entraînement Stanford Alpaca en conjonction avec les données Reddit a joué un rôle déterminant dans l'évaluation des capacités d'apprentissage par transfert du modèle. La structure inhérente et la nature académique de l'ensemble de données Alpaca, juxtaposées à la nature informelle et variée des données Reddit, représentaient un défi passionnant. Les résultats ont indiqué que LLaMa pouvait intégrer de manière transparente des connaissances provenant de sources disparates, ce qui la rendait polyvalente et adaptable.
  5. Considérations éthiques : Bien que le vaste ensemble de données Reddit offre un trésor d'informations, il est essentiel de garantir que les informations personnellement identifiables sont exclues et que les données sont utilisées de manière éthique et responsable. Des processus rigoureux de nettoyage et d’anonymisation des données devraient être mis en place pour la publication du modèle afin de respecter la confidentialité des utilisateurs.

Cet exercice a souligné le rôle déterminant joué par les disques haute densité de KIOXIA dans l'amélioration de l'efficacité de notre formation. Compte tenu de la taille colossale des ensembles de données et de la nature itérative de la formation des modèles, la vitesse et la capacité de stockage constituent souvent des goulots d'étranglement dans de telles expériences. Avec les disques KIOXIA, nous avons eu le luxe de stocker plusieurs instances de l'ensemble de données, des poids de modèle intermédiaires et des dizaines de points de contrôle affinés. Leurs vitesses de lecture et d'écriture rapides ont facilité une récupération rapide des données, nous permettant de traiter plusieurs itérations de réglage fin avec différents hyperparamètres en parallèle, comme illustré ci-dessous.

Cela était crucial dans notre quête pour identifier un point de contrôle de travail optimal. Grâce à notre nouveau serveur de stockage alimenté par KIOXIA, nous avons pu nous concentrer sur l'affinement du modèle, la modification des paramètres et l'évaluation des résultats plutôt que d'être limités par les limitations de stockage. Les disques haute densité n’étaient donc pas seulement une solution de stockage mais un atout essentiel qui a considérablement accéléré notre phase d’expérimentation. Cela a permis une exploration plus approfondie et plus efficace du potentiel du modèle LLaMa et nous a permis de développer notre propre nouveau réseau neuronal convolutif (CNN).

Pour les non-initiés, un réseau neuronal convolutif (CNN) est un type spécialisé d'architecture d'apprentissage profond principalement utilisé dans les tâches de traitement d'images et de vision par ordinateur. Sa particularité réside dans les couches convolutives qui apprennent automatiquement et de manière adaptative les hiérarchies spatiales des caractéristiques à partir des images d'entrée. Contrairement aux réseaux neuronaux traditionnels qui reposent sur des couches entièrement connectées, les CNN tirent parti de la structure spatiale des données en appliquant des filtres convolutifs, qui traitent les données d'entrée en petits morceaux ou champs récepteurs. Il en résulte un réseau capable de détecter des motifs complexes, tels que des bords, des textures et des structures plus complexes, en construisant à partir de motifs plus simples. À mesure que les données progressent plus profondément dans le réseau, ces modèles deviennent plus abstraits, permettant aux CNN de reconnaître et de classer hiérarchiquement des entités visuelles diverses et souvent alambiquées.

Grâce à de multiples tentatives de réglage, le modèle a démontré sa capacité à traiter efficacement des ensembles de données massifs et a mis en évidence son potentiel à produire des résultats pertinents, contextuels et nuancés. Alors que les LLM continuent de gagner du terrain, de telles expériences offrent des informations inestimables sur leurs applications pratiques et leurs limites, ouvrant la voie à des solutions d'IA plus sophistiquées et centrées sur l'utilisateur à l'avenir.

Capacités d'inférence du serveur

L'exécution d'opérations d'inférence sur le même ensemble de données offre une structure rationalisée, simplifiant les subtilités de la gestion des données. Notre serveur n'est pas simplement un outil de stockage : il est équipé pour gérer les activités liées à l'inférence, notamment l'ingestion et la préparation des données.

Pour tester l'inférence sur des ensembles de données plus volumineux, nous avons sélectionné un ensemble d'images d'astrophotographie allant d'environ 1 Mo à 20 Mo et avons exécuté un nouveau CNN sur lequel nous travaillons. Dans notre scénario, le modèle est chargé sur le GPU, puis une image ou une série d'images est chargée pour être traitée via le réseau neuronal.

Il s'agit d'un profil d'empreinte de stockage plus large que celui que vous rencontreriez dans quelque chose comme une classification d'objets de vision par ordinateur à partir d'une caméra standardisée. Cela illustre néanmoins la flexibilité et la cohérence des performances de la plateforme. Dans le graphique ci-dessous, qui est trié par taille et non par ordre de chargement (à l'exception de quelques valeurs aberrantes), les temps de lecture et de réécriture sont mis à l'échelle de manière appropriée.

Il est important de se rappeler que ce graphique est trié du plus petit au plus grand pour illustrer les performances linéaires des disques et du serveur. L'exécution et l'ensemble de données réels ont été randomisés, il aurait donc pu y avoir un fichier de 1 Mo lu et écrit, suivi immédiatement par un fichier de 20 Mo. Le type de traitement réel ne suivait aucun ordre particulier. Les temps de lecture variaient de 10 ms à 25 ms, avec des valeurs aberrantes atteignant plus de 70 ms.

Le tableau ci-dessous illustre l'écriture d'une progression linéaire similaire avec moins d'écart et montre les écritures des mêmes fichiers allant de 12 ms à 118 ms.


Une autre information essentielle à retenir est que ce tracé est un agrégat provenant du suivi sur trois postes de travail GPU exécutant simultanément une inférence sur le même ensemble de données. Les disques KIOXIA ont pu servir et réécrire une capacité impressionnante de 10.5 Go sur trois postes de travail GPU exécutant des inférences sur un ensemble de données aléatoires de 1000 59.62 images, à l'exclusion du traitement sérialisé utilisé par le modèle. L'ensemble du processus n'a pris que 59 secondes, soit XNUMX ms, pour lire et réécrire une seule image.

Plusieurs options pourraient améliorer la vitesse et la latence à mesure que cette conception s'adapte à plusieurs postes de travail ou serveurs GPU. La mise en œuvre du stockage GPUDirect de NVIDIA, combiné au protocole RDMA (Remote Direct Memory Access), faciliterait le transfert transparent des données du stockage partagé haute densité directement vers la mémoire GPU. Cette approche contournerait efficacement les goulots d’étranglement du processeur et de la mémoire système. En tirant parti de NVMe sur Fabrics et des équipements réseau NVIDIA, de gros volumes de données peuvent être préchargés dans la mémoire GPU en temps quasi réel. Cela serait particulièrement bénéfique lorsqu'il s'agit de LLM, compte tenu de leurs ensembles de données importants et de leurs exigences de calcul. Une telle fonctionnalité pourrait éliminer le besoin de mise en cache des données et permettrait à plusieurs postes de travail de lire et d'ingérer simultanément les données du pool de stockage partagé.

Réflexions finales

Résoudre le goulot d'étranglement des E/S des modèles plus volumineux est crucial pour l'évolution continue de l'apprentissage automatique, en particulier lorsqu'il s'agit de jeux de données volumineux. Un partage réseau centralisé à haut débit offre un triple avantage par rapport au stockage local traditionnel.

  • Premièrement, il rationalise les opérations en éliminant le besoin de migrer des ensembles de données massifs vers des postes de travail individuels à des fins de formation. Cela permet de lutter directement contre les goulots d'étranglement d'E/S qui peuvent paralyser les projets d'apprentissage automatique, en particulier ceux impliquant des modèles d'apprentissage profond.
  • Deuxièmement, en optant pour une approche centralisée, vous évitez de surcharger les précieuses voies PCIe du poste de travail avec des quantités de stockage local excessives, voire inaccessibles. Grâce à la connexion haut débit, cela pourrait permettre à davantage de GPU de traiter les données plus efficacement en parallèle, rendant ainsi les opérations d'apprentissage automatique plus simples et plus agiles.
  • Troisièmement, le stockage centralisé apporte intrinsèquement de meilleures mesures de sécurité. Lorsque les données sont stockées dans un emplacement unique et sécurisé, il devient plus facile de gérer les contrôles d'accès et de mettre en œuvre des protocoles de sécurité, réduisant ainsi le risque de violations de données, de menaces physiques ou d'accès non autorisé.

De plus, la centralisation des données garantit une meilleure cohérence des données et une couche supplémentaire de redondance des données. Les postes de travail accèdent aux données les plus récentes à partir d'une source unique, minimisant ainsi les écarts de résultats dus à une formation obsolète ou incohérente ou à un réglage précis des données ou des points de contrôle du modèle. Cela simplifie également la gestion des données et économise l'espace de stockage.

Alors que l’évolutivité, l’efficacité et la sécurité deviennent de plus en plus importantes dans le paysage en évolution hypersonique de l’IA et de l’apprentissage automatique, le passage à un stockage centralisé, dense et à haut débit fourni par une technologie telle que la plateforme KIOXIA E1.S présente un argument convaincant. Ceci est essentiel non seulement pour améliorer les performances, mais aussi pour une transformation fondamentale dans la façon dont nous abordons la gestion des données et la formation des modèles.

Fiche technique du centre de données KIOXIA XD7P série E1.S NVMe

Ce rapport est sponsorisé par KIOXIA America, Inc. Tous les points de vue et opinions exprimés dans ce rapport sont basés sur notre vision impartiale du ou des produits considérés.

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS