Fungible change la façon dont les plates-formes de stockage sont conçues en supprimant les limitations des architectures de stockage existantes avec la sortie du cluster de stockage Fungible, nœud de stockage hautes performances FSC 1600. Le cluster de stockage fongible offre une solution de stockage désagrégé NVMe/TCP hautes performances et à faible latence, entièrement transparente pour les applications de haut niveau. Optimisé par le Fungible DPU™, le Fungible Storage Cluster (FSC) est une plate-forme de stockage XNUMX % Flash désagrégée hautes performances, sécurisée et évolutive.
Fungible change la façon dont les plates-formes de stockage sont conçues en supprimant les limitations des architectures de stockage existantes avec la sortie du cluster de stockage Fungible, nœud de stockage hautes performances FSC 1600. Le cluster de stockage fongible offre une solution de stockage désagrégé NVMe/TCP hautes performances et à faible latence, entièrement transparente pour les applications de haut niveau. Optimisé par le Fungible DPU™, le Fungible Storage Cluster (FSC) est une plate-forme de stockage XNUMX % Flash désagrégée hautes performances, sécurisée et évolutive.
Matrice flash fongible FS1600
Une unité de traitement de données (DPU) est essentiellement un système sur puce. En règle générale, un DPU est composé d'un microprocesseur multicœur, d'une interface réseau et de moteurs d'accélération qui déchargent les tâches centrées sur les données telles que les fonctions de mise en réseau, de stockage, de virtualisation, de sécurité et d'analyse. Les DPU et les SmartNIC continuent de gagner en popularité dans les centres de données des entreprises et des fournisseurs de cloud.
Votre partenaire Fongible FSC1600 Grappe de stockage
Le FS1600 est alimenté par deux unités de traitement de données fongibles. Innovation Fungible unique, le DPU représente une nouvelle classe de microprocesseurs conçus dès le départ pour offrir des performances et une efficacité inégalées dans l'exécution des services d'infrastructure.
Composants internes fongibles du FS1600
Alors que la plupart des plates-formes de stockage sont basées sur x86, le FS1600 est enraciné dans la technologie fondamentale Fungible DPU. Conçu spécifiquement pour exécuter des charges de travail centrées sur les données plus efficacement que les processeurs, le DPU permet au FS1600 d'offrir des performances plus élevées. Le FS1600 offre un taux de lecture aléatoire de 13 M IOPS, des performances de lecture de blocs bruts (4 Ko), un débit de 75 Go/s par nœud et des latences de lecture de +10 μs pour des performances beaucoup plus efficaces que les systèmes de stockage en attachement direct (DAS), offrant un 96.5 % de pourcentage d'efficacité des performances (PEP).
Les accélérateurs matériels DPU incluent la compression, le codage d'effacement, le chiffrement, l'expression régulière, l'inspection approfondie des paquets et le DMA, fonctionnant à un débit de ligne de 800 Gb/s. Avec le codage d'effacement, si un nœud tombe en panne, les données sont reconstruites à l'aide de la parité et des blocs de données d'autres nœuds, tandis que l'hôte fournit un chemin alternatif pour accéder aux données via le multi-chemin. Le FS1600, compatible avec NVMe/TCP et le logiciel de gestion via l'interface de stockage de conteneurs (CSI) pour Kubernetes et Openstack pour les machines virtuelles, peut remplacer les systèmes de stockage existants. Il n'y a aucune exigence pour les agents spéciaux qui utilisent les ressources du processeur hôte ; seul un pilote NVMe/TCP standard est requis. Et les applications existantes ne nécessitent aucune modification.
Modèles DPU S1 et F1
Il existe deux modèles de DPU Fungible : le DPU S1 et le DPU F1. La famille de processeurs Fungible exploite la même co-conception matérielle et logicielle et partage le même modèle de programmation. Cependant, alors que le DPU F1 est conçu pour les appliances autonomes hautes performances telles que les serveurs de stockage, de sécurité, d'IA et d'analyse, le DPU S1 maximise les performances dans l'encombrement et l'enveloppe de puissance d'un adaptateur PCIe standard.
Le DPU Fungible S1 est optimisé pour combiner des calculs centrés sur les données dans les nœuds de serveur et déplacer efficacement les données entre les nœuds. Les calculs centrés sur les données se caractérisent par un traitement avec état des flux de données à des débits élevés, généralement par la mise en réseau, la sécurité et les piles de stockage.
Ports arrière fongibles FS1600
Le DPU S1 facilite l'échange de données entre les nœuds de serveur grâce à sa technologie TrueFabric™. TrueFabric est un protocole de structure IP sur Ethernet à grande échelle fournissant une bande passante transversale totale du réseau avec une faible latence moyenne et finale, une qualité de service de bout en bout, une connectivité sans congestion et une sécurité entre les nœuds de serveur. Le protocole TrueFabric est entièrement conforme aux normes et interopérable avec TCP/IP sur Ethernet, garantissant que le réseau Spine-Leaf du centre de données peut être construit avec des commutateurs Ethernet standards prêts à l'emploi.
FunOS
Le plan de données des DPU S1 et F1 exécute FunOS™, un système d'exploitation spécialisé écrit dans des langages de programmation de haut niveau (ANSI-C). FunOS exécute les piles de mise en réseau, de stockage, de sécurité, de virtualisation et d'analyse. Le plan de contrôle exécute un système d'exploitation standard (par exemple, Linux) et contient des agents qui permettent à un cluster de DPU S1 et F1 d'être géré, contrôlé et surveillé par un ensemble d'API REST. Ces API REST peuvent être intégrées dans des systèmes d'orchestration standard ou tiers tels que les plugins Kubernetes CSI, OpenStack, OpenShift, etc.
En combinant ces fonctionnalités clés en une seule solution, la famille de processeurs Fungible DPU permet une hyper-désagrégation et une mise en commun des ressources de calcul et de stockage, offrant une infrastructure composable hautes performances et massivement évolutive pour les centres de données de nouvelle génération !
Qu'est-ce qui compose un cluster
Le FSC™ comprend un cluster de deux nœuds cibles de stockage Fungible FS1600 ou plus et de trois nœuds Fungible Composer. Le logiciel Fungible Composer gère le plan de contrôle, une solution de gestion centralisée qui configure, gère, orchestre, contrôle et déploie le cluster de stockage Fungible. Les nœuds Composer fournissent des services tels que le stockage, la gestion du réseau, la télémétrie, la gestion des nœuds pour la collecte de journaux et une passerelle API fournissant un accès externe aux services fournis par le Fungible Composer.
Le cluster de stockage fongible offre une solution de stockage désagrégé NVMe/TCP hautes performances et à faible latence, entièrement transparente pour les applications de haut niveau. Chaque FS1600 prend en charge jusqu'à 24 SSD U.2 NVMe/TCP, et les performances évoluent linéairement d'aussi peu que 70 To à plusieurs Po.
Cas d'usage
Stockage cloud natif pour l'hyper désagrégation: Le FSC offre aux fournisseurs de cloud une alternative au stockage conventionnel. En désagrégeant le stockage, le FSC permet une mise à l'échelle indépendante du calcul et du stockage, une utilisation accrue, une référence SKU de serveur réduite, une complexité de gestion réduite et une agilité accrue.
Intelligence Artificielle / Apprentissage Automatique : Les charges de travail IA/ML modernes nécessitent généralement un parallélisme massif des performances, une faible latence et une grande capacité. Le FSC, associé à des systèmes de fichiers parallèles hautement évolutifs, élimine les goulots d'étranglement du stockage pour atteindre des performances, une latence et une efficacité sans précédent pour ces charges de travail modernes.
Bases de données hautes performances natives du cloud: De nombreuses bases de données évolutives hautes performances d'aujourd'hui déploient DAS pour répondre aux exigences de latence. Ces bases de données offrent généralement une durabilité grâce à des schémas de redondance en cluster tels que des jeux de répliques ou des configurations primaire-secondaire. Si un serveur tombe en panne, les données sont conservées sur un autre serveur. Le FSC préserve les latences de type DAS tout en offrant une meilleure utilisation du stockage et une redondance en cluster, mais avec une surcharge de capacité inférieure.
Gestion informatique simplifiée
En plus de tous les avantages en termes de performances qui accompagnent les DPU FS1600 et Fungible, il existe également une approche de gestion simplifiée. Fungible fournit un outil de gestion pour les centres de données sécurisés multi-locataires via un seul panneau de verre. Le tableau de bord Fungible Composer rendra la journée d'un administrateur informatique plus productive et fournira les informations nécessaires pour gérer efficacement les fonctions quotidiennes du centre de données.
Compositeur fongible
Le tableau de bord Fungible Composer est simple à utiliser et contient de nombreux détails pour le suivi, la gestion, la configuration et la surveillance des performances. L'onglet supérieur indiquera le système connecté, avec un affichage complet des détails du cluster, des IOPS, des détails de stockage, ainsi que de toutes les alarmes nécessitant une attention.
Les icônes sur le côté gauche de l'écran offrent un accès immédiat à des outils de gestion spécifiques.
En fonction des détails fournis lors du déploiement des périphériques fongibles, le tableau des hôtes donnera à l'administrateur une vue rapide des hôtes connectés avec des options pour accéder à un hôte spécifique.
Pour les données de performances, en sélectionnant l'icône d'analyse, l'écran se remplira avec des détails sur les performances du cluster, donnant un aperçu rapide des IOPS, de la bande passante et de la latence.
Le détail du volume fournit un aperçu rapide de la santé de chaque volume. De là, vous pouvez accéder aux volumes individuels pour plus de détails.
Détails du déploiement
1 x fongible FSC1600
- 8 connexions 100GbE
- 24 appareils NVME de 3.84 To
4 Dell R740xd
- 1 x fongible FC200
- 1 connexion 100GbE
- 1 x NVIDIA ConnectX-5
- 1 connexion 100GbE
- 2 processeurs Intel Xeon Gold 6130 à 2.10 GHz
- 1 DRAM de 256 Go
Volumes
- 192 volumes RAW de 100G au total
- 16 volumes RAW 4K par hôte
- 16 volumes RAW 8K par hôte
- 16 volumes RAW 16K par hôte
Processus de test
La préparation des tests comprenait le préconditionnement de tous les volumes avec une charge de travail d'écriture pour les remplir avant de lancer les charges de travail de test. Les volumes ont été dimensionnés pour s'aligner sur la taille de bloc de la charge de travail appliquée. Pour les tests, des volumes 4K, 8K et 16K ont été utilisés pour les charges de travail aléatoires 4K, aléatoires 8K et séquentielles 64K, respectivement. Nous avons exploité le protocole NVMe sur TCP et avec un seul nœud, le stockage a été testé sans schéma de protection.
Chaque itération FIO entre les DPU fongibles ou les cartes réseau 100GbE a été équilibrée pour offrir un profil de latence similaire. La charge de travail de la carte réseau 100GbE a ensuite été augmentée pour améliorer les performances, ce qui a entraîné une latence et une utilisation du processeur plus importantes.
Au cours de la phase de test initiale, les tâches FIO étaient liées au nœud NUMA où les cartes étaient installées. Le DPU ou le NIC a été permuté et situé dans le même emplacement PCIe entre chaque test. Aucun réglage spécial en dehors de la définition du profil BIOS du serveur sur Performance n'était nécessaire au niveau du serveur. Pour chaque loadgen, nous avons installé Ubuntu 20.04.2 Live Server.
Fongible FS1600 Résumé des résultats de performance
Fongible FC200 IOPS
Charge de travail | Hôte 1 | Hôte 2 | Hôte 3 | Hôte 4 |
4k lit | 2019K | 2015K | 2016K | 2012K |
4k écrit | 2244K | 2020K | 2280K | 2203K |
64 lit | 167K | 166K | 166K | 166K |
64k écrit | 161K | 168K | 164K | 186K |
8k 70r/30w | 1118k / 479k | 1105k / 474k | 1075k / 461k | 1117k / 479k |
Bande passante fongible FC200
Charge de travail | Hôte 1 | Hôte 2 | Hôte 3 | Hôte 4 |
4k lit | 7886 Mio/s | 7871 Mio/s | 7873 Mio/s | 7858 Mio/s |
4k écrit | 8766 Mio/s | 7890 Mio/s | 8905 Mio/s | 8606 Mio/s |
64 lit | 9.80 Gio/s | 10.1 Gio/s | 10.2 Gio/s | 10.1 Gio/s |
64k écrit | 8732 Mio/s | 10.2 Gio/s | 11.3 Gio/s | 11.4 Gio/s |
8k 70r/30w | 8732 Mo/3743 Mo/s | 8632 3699 Mio/XNUMX XNUMX Mio/s | 8395 3598 Mio/XNUMX XNUMX Mio/s | 8729 Mo/3741 Mo/s |
IOPS de carte réseau 100 GbE
Charge de travail | Hôte 1 | Hôte 1 en rampe | Hôte 2 | Hôte 3 | Hôte 4 |
4k lit | 980K | 2019K | 1108K | 1102K | 1120K |
4k écrit | 968K | 2776K | 494K | 1025K | 1011K |
64 lit | 140K | 118K | 125K | 141K | 140K |
64k écrit | 72.5K | 179K | 40.1K | 100K | 47.0K |
8k 70r/30w | 498k / 213k | 1147k / 491k | 597k / 256k | 567k / 243k | 595k / 255k |
Bande passante de la carte réseau 100 GbE
Charge de travail | Hôte 1 | Hôte 1 en rampe | Hôte 2 | Hôte 3 | Hôte 4 |
4K Lire |
3828 Mio/s | 7887 Mio/s | 4330 Mio/s | 4303 Mio/s | 4374 Mio/s |
4K Écrire |
3783 Mio/s | 10.6 Gio/s | 1931 Mio/s | 4005 Mio/s | 3950 Mio/s |
64K Lire | 8761 Mio/s | 7269 Mio/s | 7804 Mio/s | 8832 Mio/s | 8753 Mio/s |
64K Écrire |
4529 Mio/s | 10.9 Gio/s | 2505 Mio/s | 6251 Mio/s | 3000 Mio/s |
8K 70R/30W | 3889 1667 Mio/XNUMX XNUMX Mio/s | 8958 3839 Mio/XNUMX XNUMX Mio/s | 4663 1998 Mio/XNUMX XNUMX Mio/s | 4427 1897 Mio/XNUMX XNUMX Mio/s | 4646 1991 Mio/XNUMX XNUMX Mio/s |
Votre partenaire Fongible FS1600 est un interprète
Nous savions en entrant dans cette revue que le Fungible FS1600 était rapide ; cela ne faisait aucun doute. Bien que les cartes individuelles de chaque hôte soient saturées, y compris le DPU et la carte réseau, la baie avait encore des performances à revendre. L'objectif principal était de comparer les cartes réseau et les DPU pour les charges de travail NVMe/TCP utilisant la même baie de stockage avec des scénarios de test similaires. Les DPU ont apporté des avantages incroyables au marché du stockage. Ils peuvent décharger l'activité du processeur, le libérant pour gérer d'autres tâches telles que les charges de travail des applications utilisant ces E/S ou cette bande passante. En nous concentrant sur un seul hôte, nous voyons ces avantages.
DPU fongible
Au départ, si vous maintenez la latence moyenne de chaque charge de travail similaire, vous pouvez voir que le DPU peut générer environ deux fois plus de performances que la carte réseau. Ici, nous avons mesuré 2.02 millions d'IOPS 4K en lecture aléatoire à partir du DPU fongible, avec une latence moyenne de 0.474 ms. En examinant l'utilisation du processeur en temps réel pendant cette charge de travail, nous pouvons voir que la charge de travail est contenue dans les cœurs de processeur spécifiés dans la charge de travail FIO.
fio –group_reporting –time_based –runtime=10m –rw=randread –bs=4k –iodepth=5 –numjobs=12 –ioengine=libaio –direct=1 –prio=0 –cpus_allowed_policy=split –cpus_allowed=25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63, 0 –randrepeat=XNUMX
Carte réseau 100GbE
Ensuite, nous sommes passés à la carte réseau 100GbE, capable de gérer 980 0.39 IOPS avec une latence moyenne de XNUMX ms. La profondeur d'E/S et le nombre de travaux ont été réduits par rapport au DPU pour contrôler la latence, mais en regardant l'utilisation du processeur, vous voyez rapidement où les avantages du DPU entrent en jeu. Alors que la carte réseau s'est vu attribuer les mêmes cœurs de processeur dans le travail FIO , il avait une utilisation du système beaucoup plus large. Il existe un compromis entre l'utilisation du processeur pour les processus back-end (cartes réseau, adaptateurs, etc.) dans un serveur de production et les processus front-end tels que les charges de travail des applications. Ici, nous voyons le pilote NIC consommer des cycles CPU tandis que le DPU reste intériorisé.
fio –group_reporting –time_based –runtime=10m –rw=randread –bs=4k –iodepth=4 –numjobs=6 –ioengine=libaio –direct=1 –prio=0 –cpus_allowed_policy=split –cpus_allowed=25,27,29,31,33,35,37,39,41,43,45,47,49,51,53,55,57,59,61,63, 0 –randrepeat=XNUMX
NIC 100GbE en rampe
Enfin, nous sommes passés à la charge de travail optimisée de la carte réseau 100 GbE, qui pourrait atteindre le même niveau de performances que le DPU, soit environ 2.02 millions d'IOPS. Le coût de cette vitesse plus élevée, cependant, est la latence, qui a augmenté de manière significative à 2.6 ms et une latence de pointe plus élevée. Cela provenait de la mise à l'échelle de l'iodepth de 4 à 16 et du nombre de tâches de 6 à 20. Bien que l'accent puisse être mis sur l'augmentation de la latence, en regardant l'utilisation du processeur, vous pouvez voir que presque toutes les ressources système sont concentrées sur l'activité d'E/S, ne laissant pas grand-chose pour les autres processus. Pour les entreprises qui tentent de rendre leurs déploiements de serveurs plus denses et efficaces, il est facile de voir que toutes les E/S ne se valent pas et que les DPU modifient rapidement le marché du stockage.
fio –group_reporting –time_based –runtime=10m –rw=randread –bs=4k –iodepth=16 –numjobs=20 –ioengine=libaio –direct=1 –prio=0 –cpus_allowed_policy=split –cpus_allowed=14-63 –randrepeat= 0
Mot de la fin
Nous travaillons avec le Fungible FS1600 et leurs DPU depuis plusieurs semaines maintenant. Bien que la baie elle-même ne nécessite aucun câblage ou changement sophistiqué, nous voulions être approfondis dans l'analyse pour comprendre en profondeur l'impact des DPU. Ce n'est pas que les DPU eux-mêmes soient nouveaux, mais ils deviennent enfin disponibles dans le commerce dans des solutions d'entreprise, pas seulement dans des projets scientifiques. Et pour être clair, les implémentations DPU ne sont pas toutes identiques, il est donc essentiel de comprendre les implications de l'infrastructure et des performances dans les décisions de conception.
Dans ce monde DPU, Fungible se distingue comme tout à fait unique. Ils ont recherché une solution personnalisée lorsque l'entreprise a démarré en 2015, prenant des liquidités importantes pour construire l'entreprise fin 2016. C'est à peu près à ce moment-là que Mellanox a annoncé sa première version d'un DPU, baptisé BlueField. Bien que l'on puisse affirmer que Fungible aurait bien fait d'adopter BlueField, suivre sa propre voie s'est traduit par un avantage substantiel en matière de technologie et de leadership. Fungible a un contrôle total sur sa pile et peut facilement exploiter les DPU à la fois au niveau du client et de la cible. Ou pas, la décision appartient aux clients. Mais lors de nos tests, nous voyons des avantages significatifs à utiliser Fungible de bout en bout.
L'arrivée de Fungible avec les DPU exploités dans la baie de stockage et l'hôte complète un tableau qui offre un énorme avantage en termes de performances. Les DPU déchargent des ressources qui seraient autrement confiées au processeur système, ce qui présente un combo intéressant lorsqu'il est utilisé des deux côtés de l'équation. Lorsque vous êtes en mesure d'exploiter le Fungible FC200 à la place d'une carte réseau traditionnelle, vous constatez d'énormes gains significatifs avec la vitesse d'E/S ainsi qu'une utilisation réduite du processeur. En regardant uniquement notre transfert de lecture aléatoire 4K, le FC200 était capable de piloter plus de 2 millions d'IOPS à 0.474 ms de latence, tandis que la carte réseau pouvait faire environ 1 million d'IOPS à 0.39 ms. La montée en puissance de la carte réseau pour piloter 2 millions d'IOPS était possible, mais à un coût important en termes de latence et de ressources système.
DPU fongible FC200
Les DPU en tant que classe ont un énorme potentiel lorsqu'il s'agit de déverrouiller les performances natives disponibles dans le stockage flash. Bien que ce soit déjà une affirmation vraie aujourd'hui, les calculs deviennent encore plus favorables pour les DPU à mesure que des technologies telles que les SSD Gen5 et des interconnexions plus rapides arrivent sur le marché. Payer la prime x86 pour gérer les voies PCIe n'a tout simplement pas de sens lorsqu'il s'agit d'applications qui peuvent tirer parti de ces composants et les architectures héritées ne sont tout simplement pas aussi évolutives.
Fungible dispose d'un matériel et de logiciels convaincants avec le nœud de stockage FS1600 et les cartes accélératrices. Ils ont aussi récemment jeté leur dévolu sur désagrégation des GPU, offrant aux clients une pile plus complète pour les charges de travail HPC et IA. Il y aura plusieurs gagnants dans l'espace DPU qui émerge rapidement, mais Fungible est certainement à surveiller. Les organisations qui ont le plus besoin de leur stockage doivent absolument essayer un FS1600.
S'engager avec StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | Flux RSS