Aujourd'hui, lors de l'AWS Global Summit, Alluxio a annoncé la dernière version de sa technologie d'orchestration de données, Alluxio 2.0. La dernière version est livrée avec de nouvelles innovations pour les ingénieurs de données et est destinée à l'analyse multi-cloud et à l'IA.
Aujourd'hui, lors de l'AWS Global Summit, Alluxio a annoncé la dernière version de sa technologie d'orchestration de données, Alluxio 2.0. La dernière version est livrée avec de nouvelles innovations pour les ingénieurs de données et est destinée à l'analyse multi-cloud et à l'IA.

Comme nous l'avons initialement indiqué, Alluxio déclare qu'il s'agit du premier système au monde qui unifie les données à la vitesse de la mémoire. La « vitesse de la mémoire » permettrait aux entreprises d'accéder rapidement aux données sur des systèmes de stockage disparates, ce qui signifie qu'elles peuvent gérer leurs données plus efficacement, découvrir plus rapidement des informations précieuses et faciliter leur adoption du cloud hybride. Actuellement, Alluxio exécute des charges de travail critiques pour des entreprises telles qu'Alibaba, Baidu, Barclay's Bank, CERN, ESRI, Huawei, Intel et Juniper.
Le monde évolue vers des charges de travail intensives de calcul basées sur le cloud. Cette nouvelle orientation signifie que le calcul doit évoluer indépendamment du stockage de manière élastique. Bien qu'il y ait plusieurs avantages à cela du point de vue des performances, cela introduit des maux de tête potentiels pour les ingénieurs de données. Alluxio vise à résoudre ce problème en ajoutant une couche d'abstraction qui apporte la localité des données, l'accessibilité des données et l'élasticité des données pour calculer à travers les silos de données, les zones, les régions et même les nuages.
Les fonctionnalités et capacités incluent :
- Innovation d'orchestration de données pour le multicloud :
- Gestion des données basée sur des politiques
- Alluxio 2.0 inclut une nouvelle fonctionnalité qui permet aux ingénieurs de données d'automatiser le déplacement des données entre les systèmes de stockage en fonction de politiques prédéfinies, de manière automatisée et continue. Cela signifie qu'au fur et à mesure que les données sont créées et que les données chaudes, chaudes et froides sont gérées, Alluxio peut automatiser la hiérarchisation des données sur n'importe quel nombre de systèmes de stockage sur site et sur tous les clouds.
- Les équipes de plate-forme de données peuvent désormais réduire les coûts de stockage en gérant automatiquement uniquement les données les plus importantes dans des systèmes de stockage coûteux et en déplaçant d'autres données vers des alternatives de stockage moins chères.
- Amélioration de l'administration des politiques d'accès aux données : en plus des politiques précises au niveau des fichiers, les utilisateurs peuvent désormais configurer des politiques à n'importe quel niveau de répertoire et de dossier pour rationaliser l'accès aux données ainsi que les performances des charges de travail. Celles-ci incluent la définition de comportements pour des ensembles de données individuels sur diverses fonctions de base telles que l'écriture de données ou la synchronisation de données avec des systèmes de stockage sous Alluxio.
- Déplacement efficace des données entre le stockage cloud via le service de données : le nouveau service de données permet un déplacement très efficace des données, y compris entre les magasins cloud comme AWS S3 et Google GCS, rendant les opérations coûteuses sur le stockage d'objets transparentes au cadre de calcul.
- Gestion des données basée sur des politiques
- Accès aux données optimisé pour le calcul pour Cloud Analytics :
- Partitionnement de cluster axé sur le calcul : les utilisateurs peuvent désormais partitionner un seul Alluxio en fonction de n'importe quelle dimension, afin que les ensembles de données de chaque infrastructure ou charge de travail ne soient pas contaminés par l'autre. L'utilisation la plus courante comprend le partitionnement du cluster par framework Spark, Presto, etc. De plus, cela permet de réduire les coûts de transfert de données, en contraignant les données à rester dans une zone ou une région spécifique.
- Intégration avec des sources de données externes via REST : les utilisateurs peuvent désormais importer des données, même à partir de sources de données Web, à agréger dans Alluxio pour effectuer leurs analyses. Tout emplacement Web contenant des fichiers peut être simplifié pointé vers Alluxio pour être extrait selon les besoins en fonction de la requête ou de l'exécution du modèle.
- D'autres fonctionnalités incluent :
- Services de données hautement distribués - 2.0 introduit le service de données Alluxio, un service en cluster distribué, qui effectue des opérations de données telles que la réplication, la persistance, pour permettre des performances élevées et une échelle massive.
- Réplication adaptative pour une localisation accrue des données - Nouvelle fonctionnalité permettant de configurer une plage pour le nombre de copies de données stockées dans Alluxio qui sont automatiquement gérées.
- Haute disponibilité avec journal intégré - Un nouveau mode de tolérance aux pannes et de haute disponibilité pour les métadonnées de fichiers et d'objets appelé le journal intégré qui utilise l'algorithme de consensus RAFT et est indépendant de tout autre système de stockage externe. Ceci est particulièrement utile pour l'abstraction du stockage d'objets.
- API Alluxio POSIX - La fonctionnalité FUSE d'Alluxio active une API compatible POSIX afin que des frameworks tels que Tensorflow, Caffe et d'autres modèles basés sur Python puissent accéder directement aux données de n'importe quel système de stockage via Alluxio en utilisant l'accès traditionnel au système de fichiers.
- Assistance AmazonAWS :
- Intégration du service AWS Elastic Map Reduce (EMR) : à mesure que les utilisateurs migrent vers les services cloud pour déployer des charges de travail analytiques et d'IA, des services comme AWS EMR sont de plus en plus utilisés. Alluxio peut désormais être amorcé de manière transparente dans un cluster AWS EMR, ce qui le rend disponible en tant que couche de données dans EMR pour les frameworks Spark, Presto et Hive. Les utilisateurs disposent désormais d'une alternative hautes performances pour mettre en cache les données de S3 ou les données distantes tout en réduisant les copies de données conservées dans EMR.
Disponibilité
Alluxio 2.0 Community et Enterprise Edition sont désormais disponibles.
Discutez de cette histoire
Inscrivez-vous à la newsletter StorageReview
