Accueil Entreprise Stockage défini par logiciel : mettre les avantages des clouds à grande échelle à la disposition du plus grand nombre

Stockage défini par logiciel : mettre les avantages des clouds à grande échelle à la disposition du plus grand nombre

by Auteur invité

L'informatique a considérablement changé, en particulier au cours des dix dernières années. Selon IDC, l'essor des applications Web et mobiles et la banalisation des outils de création de contenu ont multiplié par au moins 30 la consommation et la création de contenu sur les terminaux. En tant que telles, les entreprises cherchent aujourd'hui à tirer le meilleur parti des pétaoctets de données qu'elles stockent désormais couramment. Les clouds véritablement en libre-service, fonctionnant au niveau des couches d'application et d'infrastructure, représentent désormais des entreprises de plusieurs milliards de dollars. Les réseaux de capteurs et autres interactions machine à machine promettent un autre saut exponentiel dans le mouvement et le stockage des données. Pourtant, malgré tous ces changements monumentaux dans l'utilisation des données et du contenu, en dehors des augmentations de capacité et de puissance de processeur, les architectures de stockage courantes sont restées pratiquement inchangées au cours des vingt dernières années. Nous essayons de calculer à l'échelle de plusieurs pétaoctets avec des architectures conçues pour des téraoctets.


Par Leo Leung, vice-président du marketing d'entreprise, Scalité

L'informatique a considérablement changé, en particulier au cours des dix dernières années. Selon IDC, l'essor des applications Web et mobiles et la banalisation des outils de création de contenu ont multiplié par au moins 30 la consommation et la création de contenu sur les terminaux. En tant que telles, les entreprises cherchent aujourd'hui à tirer le meilleur parti des pétaoctets de données qu'elles stockent désormais couramment. Les clouds véritablement en libre-service, fonctionnant au niveau des couches d'application et d'infrastructure, représentent désormais des entreprises de plusieurs milliards de dollars. Les réseaux de capteurs et autres interactions machine à machine promettent un autre saut exponentiel dans le mouvement et le stockage des données. Pourtant, malgré tous ces changements monumentaux dans l'utilisation des données et du contenu, en dehors des augmentations de capacité et de puissance de processeur, les architectures de stockage courantes sont restées pratiquement inchangées au cours des vingt dernières années. Nous essayons de calculer à l'échelle de plusieurs pétaoctets avec des architectures conçues pour des téraoctets.

Le stockage défini par logiciel (SDS) promet un modèle de stockage plus flexible où le stockage devient véritablement l'un des services parmi d'autres services informatiques. L'indépendance du matériel fait partie de cette architecture, car les données et les services doivent circuler plus librement lorsque les applications changent et que les systèmes augmentent et diminuent. Au lieu d'intégrer la fonctionnalité de gestion des données dans des appliances fermées propriétaires, SDS dissocie cette fonctionnalité de la fonctionnalité d'activation matérielle qui se concentre sur les données et s'étend naturellement sur le matériel. Comme d'autres modèles de banalisation de l'infrastructure au fil du temps (par exemple, les commutateurs logiciels), ce découplage expose également les marges gonflées (60 %) contenues dans les appliances de stockage aujourd'hui.

Étant donné que SDS sera souvent déployé à l'échelle de plusieurs pétaoctets, la disponibilité doit être extrêmement élevée et ne nécessiter aucune intervention sur les scénarios de défaillance connus. Les interfaces d'application doivent être compatibles avec les applications existantes et les nouvelles applications Web et mobiles. Les performances doivent être solides, évolutives de manière linéaire et adaptées aux charges de travail mixtes. Des services tels que la protection des données et la récupération des données doivent être conçus pour le même niveau de dynamisme et d'évolutivité.

Cela contraste fortement avec les architectures de stockage héritées, qui sont entièrement liées au matériel physique et intègrent des capacités de disponibilité, d'accès aux données, de performances, de gestion et de durabilité dans le cadre limité des appliances propriétaires. Ces architectures héritées sont conçues pour une échelle plus petite dans chacune des dimensions susmentionnées.

Le SAN est toujours une bonne approche pour un accès aux données à faible latence, mais il est médiocre à grande échelle

Le SAN a été conçu comme le moyen le plus simple d'interfacer avec le stockage sur un réseau local dédié. Il contrôle des blocs de données dans de petits volumes logiques, mais n'a aucun contexte sur ce que sont les données et dépend entièrement de l'application pour organiser, cataloguer et structurer les données. De par leur conception, les SAN sont limités en termes d'échelle, d'interfaces et de portée, et généralement plus coûteux en raison de l'infrastructure réseau dédiée.

Le fichier est toujours dominant et le NAS est un bourreau de travail, mais il est mis au défi à grande échelle

Le NAS a également été conçu comme un moyen d'interface avec le stockage en réseau local, mais fournit plus de structure sous la forme de systèmes de fichiers et de fichiers. Les systèmes de fichiers ont des limites naturelles basées sur les structures internes locales utilisées pour gérer la hiérarchie des fichiers et l'accès aux fichiers. En raison des informations contenues dans la hiérarchie des fichiers gérés, il existe une connaissance plus basique du contenu dans le système, mais il est entièrement localisé sur un contrôleur de stockage physique. De par leur conception également, les systèmes NAS sont limités en termes d'échelle et de portée. Les systèmes NAS en cluster étendent l'évolutivité de la technologie, mais ont également des limites naturelles liées aux contrôleurs physiques (numérotation par dizaines) et à la base de données centrale utilisée pour suivre la hiérarchie des fichiers et les fichiers.

Le stockage d'objets s'adresse à l'échelle, mais est très limité dans la prise en charge de la charge de travail

Le stockage d'objets est une technologie qui crée une abstraction supplémentaire, souvent au-dessus et à travers les systèmes de fichiers locaux. Cela signifie que les données du système sont gérées comme des objets (au lieu de blocs ou de fichiers) dans un espace de noms global, avec des identifiants uniques pour chaque objet. Cet espace de noms peut s'étendre sur des centaines de serveurs, permettant une mise à l'échelle plus facile de la capacité que les modèles SAN ou NAS. 

Cependant, les magasins d'objets sont fondamentalement limités dans la prise en charge des applications car ils nécessitent que les applications soient réécrites dans une version spécifique de l'API HTTP et les performances sont généralement limitées à des scénarios d'écriture unique, de lecture multiple (WORM) ou d'écriture unique, jamais lues. Ce manque de performances est dû aux architectures qui forcent le trafic à travers un ensemble limité de nœuds de métadonnées, ce qui ajoute parfois une surcharge à ces nœuds limités avec des services tels que le codage d'effacement.

Le stockage défini par logiciel est conçu de manière holistique pour une grande échelle

Le stockage défini par logiciel est une nouvelle approche qui dissocie complètement la fonctionnalité de stockage du matériel spécifique et permet ainsi un déploiement, une évolutivité, une accessibilité et un fonctionnement plus flexibles.

Le découplage de SDS permet au logiciel d'exploiter le matériel indépendamment, en adaptant la capacité, les performances et l'accessibilité indépendamment en fonction du cas d'utilisation. Ce type de personnalisation est impossible en dehors du stockage traditionnel haut de gamme, qui dispose de composants matériels spécialement conçus à cet effet, ce qui limite toujours la flexibilité et l'échelle totale.

Le découplage de la fonctionnalité de stockage du matériel facilite également l'identification des problèmes dans l'ensemble du système, au lieu d'avoir à dépanner des appliances qui combinent la gestion des exceptions matérielles et logicielles dans une pile à faible rapport signal/bruit.

Au-delà de la séparation de base du logiciel et du matériel, les services de stockage SDS tirent également parti du découplage en offrant des services de capacité, de disponibilité, de durabilité et d'accessibilité qui peuvent dépasser les frontières physiques. Un attribut commun de SDS est l'utilisation du stockage d'objets pour créer un espace de noms presque illimité d'objets uniques. Cela transcende les unités de gestion des numéros d'unité logique (LUN) et des systèmes de fichiers, qui ont des limites d'échelle fondamentales par conception. Cela permet à un système SDS d'évoluer simplement en ajoutant plus de capacité physique sans ajouter de nouvelles unités de gestion.

La disponibilité des systèmes SDS peut également être largement supérieure, en tirant parti de l'espace réseau privé entre les nœuds SDS. Au lieu de la disposition limitée des contrôleurs actifs/passifs de la plupart des systèmes SAN et NAS, ou de la disposition en cluster des NAS évolutifs, les systèmes SDS peuvent continuer à s'adapter aux milliers d'adresses au sein d'un domaine. De plus, les systèmes SDS peuvent également tirer parti d'algorithmes de routage avancés pour garantir une réponse même dans des topologies à grande échelle et face à de multiples scénarios de panne. Cela va bien au-delà des simples structures commutées ou des chaînes en guirlande du stockage traditionnel où une baie entière peut tomber en panne en raison d'une simple erreur de câblage.

La durabilité des systèmes de stockage traditionnels est conçue pour prendre en charge la panne occasionnelle d'un ou deux disques, avec un remplacement presque immédiat requis. Dans un système à l'échelle du pétaoctet, le nombre de disques commence par centaines et atteint souvent des milliers. Même avec un temps moyen entre les pannes (MTBF) élevé, plusieurs disques seront toujours en panne. Les systèmes SDS sont conçus pour s'attendre à de nombreuses défaillances et à de nombreux domaines de défaillance différents. Ils tirent naturellement parti de la capacité et du traitement distribués pour les schémas de protection distribués et les reconstructions extrêmement rapides. Cela est nécessaire à l'échelle par rapport au schéma à double contrôleur des architectures évolutives, qui présentent de graves goulots d'étranglement lors des reconstructions de disque ou d'autres services de stockage.

L'accessibilité était une préoccupation mineure dans les systèmes de stockage traditionnels. Les serveurs d'applications ou les mainframes se trouvaient sur des réseaux locaux spécifiques au stockage avec quelques protocoles matures. Les réseaux Ethernet partagés et les accès mixtes publics et privés sont désormais la norme. Les systèmes SDS doivent prendre en charge un ensemble d'exigences beaucoup plus large. De l'accès Web à l'accès Ethernet, des ressources de stockage basées sur le réseau au déploiement en tant que ressource locale sur le serveur d'applications, SDS doit toutes les prendre en charge. 

Comme indiqué tout au long de cet article, le stockage traditionnel est hautement spécialisé, ce qui entraîne de nombreux silos de fonctionnalités et de données dans une grande entreprise typique. Ceci est non seulement très inefficace d'un point de vue opérationnel, mais ne génère aucune économie d'échelle et limite considérablement les possibilités de partage et de réutilisation des données.

SDS est conçu pour répondre à la majorité des exigences d'intégration d'applications, avec des protocoles variant de persistants à sans état, de simples à hautement interactifs et sémantiquement riches. Cela permet un environnement à usage général, où le stockage peut être un service général pour les applications, qu'elles aient des fichiers petits ou volumineux, des exigences de protection différentes et des besoins de protocole différents. Cela effondre les frontières actuelles entre NAS, objet et stockage sur bande, débloquant l'effet de levier dont les acteurs hyperscale bénéficient depuis des années et mettant à jour les services de stockage pour un monde où la connectivité s'est étendue à des milliards de terminaux.

En résumé, les applications et les exigences ont radicalement changé. Avec 90 % de toutes les données créées au cours des deux dernières années seulement ; nous sommes carrément dans l'ère du pétaoctet, avec les exaoctets juste au coin de la rue. La douleur de l'échelle du pétaoctet et la quête d'une meilleure valeur des données sont devenues le catalyseur pour envisager de nouvelles approches alors que les approches traditionnelles vieilles de plusieurs décennies atteignent leurs limites et sont dépassées.

Discutez de cette histoire

A propos de l'auteure

Vous pouvez suivre Leo Leung sur Twitter ou consultez son site Web à l'adresse attentestechnologiques.org.