Nous avons récemment terminé un projet de type analyse de données qui nous a laissé un Fichier de sortie de 100 To. Bien que nous disposions d'un espace de stockage suffisant dans notre laboratoire, conserver un fichier de 100 To à perpétuité présente un ensemble unique de défis. De plus, nous n'avons pas vraiment « besoin » du fichier, mais nous préférons le conserver, si possible. Le cloud répond évidemment à ce besoin, mais le temps nécessaire pour transférer autant de données via le câble est immense, nous avons donc choisi d'essayer les appareils AWS Snowball Edge. L'objectif est de transférer nos données du laboratoire de Cincinnati vers un compartiment S3 dans la région AWS us-east-2 aussi rapidement que possible.
Nous avons récemment terminé un projet de type analyse de données qui nous a laissé un Fichier de sortie de 100 To. Bien que nous disposions d'un espace de stockage suffisant dans notre laboratoire, conserver un fichier de 100 To à perpétuité présente un ensemble unique de défis. De plus, nous n'avons pas vraiment « besoin » du fichier, mais nous préférons le conserver, si possible. Le cloud répond évidemment à ce besoin, mais le temps nécessaire pour transférer autant de données via le câble est immense, nous avons donc choisi d'essayer les appareils AWS Snowball Edge. L'objectif est de transférer nos données du laboratoire de Cincinnati vers un compartiment S3 dans la région AWS us-east-2 aussi rapidement que possible.
Que sont les appareils AWS Snowball Edge ?
Avant de nous plonger trop profondément dans la tâche de migration des données, une brève introduction aux appareils AWS Snowball Edge s'impose. AWS Snow Family est une collection de services spécialement conçus. Ces services exécutent des charges de travail intensives en calcul tout en stockant des données dans des emplacements périphériques pour une connectivité réseau refusée, interrompue, intermittente ou limitée (DDIL) et pour transférer de grandes quantités de données à partir d'environnements sur site et robustes ou mobiles. Les appareils AWS Snowball Edge sont robustes, portables et sécurisés et offrent des fonctions optimisées pour le stockage ou pour le calcul. Ces appareils sont conçus pour aider les clients à déplacer (vers AWS) ou à traiter de grandes quantités de données de manière sécurisée et efficace, même dans des endroits éloignés ou déconnectés.
Les appareils Snowball Edge sont disponibles en deux versions : le Snowball Edge Storage Optimized, que nous utilisons ici, et le Snowball Edge Compute Optimized. La version Storage Optimized est conçue pour les cas d'utilisation de transfert et de stockage de données et offre jusqu'à 80 To de capacité de stockage. La version Compute Optimized est destinée aux cas d'utilisation de traitement de données et de calcul et est livrée avec jusqu'à 104 processeurs virtuels et 416 Go de RAM. Il existe même une option permettant à un système optimisé pour le calcul d'inclure un GPU. Pour ceux qui ont un besoin de données plus modeste, il existe également une petite famille Snow ultra-portable, baptisée AWS Snowcone.
Les deux versions de Snowball Edge disposent de fonctionnalités de sécurité intégrées, telles que des boîtiers inviolables, un cryptage 256 bits et des puces Trusted Platform Module (TPM) pour garantir l'intégrité et la confidentialité des données. De plus, les appareils Snowball Edge peuvent être configurés pour exécuter des fonctions AWS Lambda, des instances Amazon EC2 et d'autres services AWS en périphérie, permettant aux clients d'effectuer le traitement et l'analyse des données sur site avant de transférer les données vers AWS.
Pour notre cas d'utilisation, les appareils Snowball Edge offrent aux clients un moyen rapide, sécurisé et flexible de transférer et de traiter de grandes quantités de données dans divers environnements, y compris des emplacements distants ou déconnectés.
Processus de commande AWS Snowball
Pour les professionnels AWS chevronnés, le processus de commande de Snowball est simple. Même pour les néophytes comme moi, j'ai pu parcourir les étapes avec un petit coup de pouce utile de nos amis AWS qui nous ont accompagnés tout au long du processus.
L'étape 1 consiste à donner un nom à votre travail et à choisir le type de travail pour votre appareil Snow. Notre tâche consistait simplement à transférer des données vers S3, mais les appareils Snow peuvent également exporter des données depuis S3. Ils peuvent également être utilisés comme solutions ponctuelles pour offrir un calcul, un stockage et un GPU locaux à un emplacement périphérique.
L'étape 2 continue d'être simple, avec la sélection de l'appareil Snow. Dans notre cas, nous avons sélectionné l'unité Snowball Edge Storage Optimized, avec 80 To disponibles. Il existe différentes options de tarification pour AWS Snowball. Il existe une option de tarification pour une utilisation par jour, ou AWS Snowball réduit considérablement les prix (jusqu'à 62 %) pour une utilisation d'un an et des engagements d'utilisation de 1 ans. Avec ces offres à long terme, vous payez à l'avance pour utiliser le ou les appareils Snowball à un tarif réduit et vous évitez de payer des frais de service supplémentaires ou des frais journaliers jusqu'à la fin de votre période prépayée. Vous pouvez vous inscrire pour bénéficier d'un engagement de tarification initial dans la console AWS Snow Family lorsque vous commandez un appareil Snowball.
Enfin, choisissez les instances EC2 et les compartiments S3 dont vous avez besoin pour l'importation. Il s'agissait d'un nouveau compte, nous avons donc créé un nouveau compartiment S3. Nous n'avions pas non plus besoin d'EC2 pour cela, mais nous avons fini par charger une instance EC2 plus tard pour s'amuser un peu.
L'étape 3 offre quelques fonctionnalités supplémentaires, comme un AWS IoT Greengrass for Snow en option et une option pour la gestion des appareils à distance.
L'étape 4 couvre les préférences de sécurité, d'expédition et de notification. Ici, nous avons utilisé le chiffrement par défaut et créé le rôle de service suggéré pour permettre à AWS de gérer les données. À partir de là, il s'agit d'ajouter votre adresse et de sélectionner une expédition en un ou deux jours. Vous pouvez également ajouter des notifications par e-mail ici, bien que la console AWS affiche toute la progression au fur et à mesure que la tâche s'exécute dans le système.
La dernière étape consiste à valider toutes les informations saisies et à les soumettre. Cela crée la tâche, puis le processus d'exécution par AWS commence. Nous avons parcouru le processus avec AWS assez lentement, voulant comprendre toutes les options. Même à notre rythme décontracté, l'ensemble du processus a pris environ 10 minutes. Une voie plus agressive rendrait la commande d'un appareil Snow de 2 à 3 minutes maximum.
À l'époque, nous pensions avoir besoin de deux appareils Snowball Edge. Rétrospectivement, nous n'en avions besoin que d'un. Le processus de clonage de ce travail est également très simple, et il suffit de quelques clics supplémentaires pour comptabiliser quelques boules de neige pour des ensembles de données plus volumineux.
À partir de là, c'est un jeu d'attente car le processus d'exécution fonctionne à travers le système. Comme il s'agissait d'un tout nouveau compte, nous avons déclenché quelques drapeaux en commandant immédiatement deux appareils Snowball Edge. Mais pour les comptes avec activité, il ne devrait pas y avoir de telles vérifications. Les boules de neige sont apparues en quelques jours seulement et nous avons entrepris de préparer nos données pour le transport.
Une chose à considérer avec Snowball est la tarification. Il y a des frais de travail, qui comprennent dix jours d'avoir l'unité sur place. Il y a, bien sûr, des frais de cloud dans S3 une fois que les données y sont également. Bien que la tarification de Snowball ne soit pas compliquée, elle varie en fonction du système que vous sélectionnez, de l'heure à laquelle vous en avez besoin et de la région dans laquelle vous vous trouvez. Dans notre cas, les frais de travail étaient de 300 $ par Snowball, et même cela pourrait être réduit considérablement avec des contrats à long terme. Vous pouvez cependant avoir une idée des prix de Snowball ; AWS a un tableau qui expose tout.
Préparation des données
Nous avons commencé avec un fichier texte de 100 To, mais pour toute personne ayant de l'expérience sur S3, vous saurez que c'est un problème. S3 a une limite de taille d'objet de 5 To, ce qui signifie que nous devions faire quelque chose à propos de notre seul fichier non conforme. Notre réponse a été de le couper et de voir si nous pouvions obtenir un avantage de compression en même temps. L'espoir était que nous pourrions arriver à une seule unité Snowball, qui plafonne à 80 To utilisables. En attendant l'arrivée de Snowball Edge, nous nous sommes mis à préparer les données.
Nous avons utilisé notre préféré application pour travailler avec de grands nombres, y-cruncher, qui comprend un utilitaire d'affichage, de fractionnement et de compression des chiffres. En raison de la limitation de taille d'objet de S3, nous avons choisi de diviser les 100 billions de chiffres de Pi en 200 fichiers. Après compression, cela nous a donné une taille de fichier d'environ 191 Go, chacun contenant 500,000,000,000 500 XNUMX XNUMX (XNUMX milliards) de chiffres.
Configuration de la boule de neige AWS
Une fois les données préparées et l'appareil Snowball en main, nous avons allumé la première unité pour la mettre en ligne. La configuration de Snowball est très simple, lui donnant le pouvoir et l'accès au réseau ; nous avons opté pour le port 10GbE. Beaucoup choisiront d'utiliser CLI pour s'interfacer avec la Snowball, qui est probablement la méthode préférée. Néanmoins, pour des raisons visuelles et pour l'expérience d'un point de vue non professionnel AWS, nous avons opté pour AWS OpsHub for Snow Family.
AWS OpsHub pour la famille Snow est un outil convivial qui aide les clients à gérer leurs appareils Snow Family et les services AWS locaux. Les utilisateurs peuvent déverrouiller et configurer des appareils, transférer des fichiers, lancer et gérer des instances et surveiller les métriques des appareils via une interface utilisateur graphique, qui fournit une vue unifiée des services AWS exécutés sur les appareils. AWS OpsHub automatise les tâches opérationnelles et est conçu pour s'adapter aux utilisateurs ayant différents niveaux d'expertise technique, ce qui facilite la gestion d'un grand nombre d'appareils de la famille Snow.
Avec l'adresse IP de l'écran LCD et le code de déverrouillage et le fichier manifeste de votre console AWS, vous pouvez déverrouiller et accéder à Snowball Edge. Cela peut prendre quelques minutes car AWS valide les informations d'identification, décrypte le contenu et gère quelques autres tâches de maintenance.
Une fois connecté, vous êtes transporté vers un tableau de bord visuel avec les informations pertinentes sur l'appareil et les services activés. À ce stade, nous sommes en ligne, connectés au réseau et prêts à déplacer nos données.
Transfert de données vers AWS Snowball
Avec Snowball Edge configuré, sur le réseau et OpsHub connecté, il est temps de déplacer nos 200 fichiers de 200 Go. Alors que la plupart utiliseraient l'interface CLI pour ce processus et bénéficieraient d'une expérience plus optimisée dans le temps, nous avons opté pour la simplicité. En utilisant OpsHub sous Windows, nous avons simplement sélectionné le dossier contenant nos données Pi à l'intérieur et les avons laissées partir. Il nous a fallu environ quatre jours pour que les fichiers parviennent à la Snowball.
Une fois le transfert de données terminé, nous avons éteint l'appareil, à quel point l'affichage de l'encre électronique est passé à l'adresse d'ingestion. Dans notre cas, cela signifiait Columbus, Ohio, la maison de us-east-2. Incidemment, une fois entre les mains de l'expéditeur, les informations d'identification d'accès disparaissent également de la console Web, protégeant ainsi les données en cours de route.
AWS suit l'état de la boule de neige
Une fois déposé auprès d'UPS, l'interface Web AWS met à jour le statut de la tâche avec le numéro de suivi et la progression de la Snowball en matière de transit, de tri, de réception AWS et d'importation dans S3. Il a fallu quelques jours pour que la boule de neige se rende à Columbus et deux jours pour que l'importation soit terminée.
Une fois le processus confirmé terminé, nous avons créé un visuel dans S3 pour nous assurer que toutes les données semblaient être importées correctement. Pour donner aux clients une tranquillité d'esprit plus formelle, AWS fournit également un rapport d'audit pour l'ensemble du processus, ainsi que toutes les exceptions.
Dans notre journal, nous pouvons voir les 200 fichiers terminés sans échec. AWS enregistre également les faits saillants au fur et à mesure que la Snowball Edge et ses données sont déplacées dans le système.
Réflexions finales
Les appareils AWS Snowball Edge ne sont pas nouveaux ; AWS a été l'un des premiers à fournir à ses clients un moyen sécurisé d'accélérer le déplacement des données hors ligne ou du stockage à distance vers le cloud. Si nous venions d'essayer de copier nos données sur S3 via le câble, nous serions probablement encore en attente de la fin de ce travail et incapables de faire autre chose de productif car notre canal Internet était bloqué. Pour nous, l'unité Snowball Edge Storage Optimized était exactement ce dont nous avions besoin pour transférer nos données dans le cloud le plus rapidement possible.
Ce n'est pas sans coût. Alors que les clients à long terme peuvent obtenir de meilleurs prix, notre débours pour les boules de neige était d'environ 700 $. Ce n'est pas mal, cependant, étant donné que nous en avons commandé un supplémentaire par erreur, et que nous n'avons pas bougé si vite pour renvoyer les unités à AWS. Il n'y avait aucun frais pour ingérer les données dans S3, et le coût S3 en cours est déterminé par le tarif de votre contrat avec AWS.
Il convient de noter que nous avons utilisé Snowball Edge de la manière la plus élémentaire. Les appareils Snowball avec Compute, en particulier ceux avec GPU, offrent beaucoup plus de potentiel pour des cas d'utilisation plus intensifs. Ceux qui sont intéressés devraient se connecter à notre récent Podcast neige AWS. En fin de compte, les appareils Snow ne sont qu'une version réduite d'AWS avec une limite de stockage et de calcul. Mais comme nous l'avons vu, ils sont très flexibles, extrêmement faciles à déployer et obtiennent de manière fiable les données là où elles doivent être. Pour tous ceux qui envisagent d'utiliser des appareils AWS Snow, nous vous recommandons vivement de les essayer.
S'engager avec StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Discorde | Flux RSS