Nous, dans la communauté informatique, sommes souvent obsédés par les chevaux de parade - les appareils ou systèmes les plus rapides et/ou les plus puissants - parce que nous aimons ces grands et petits nombres qu'ils présentent. La réalité, cependant, est que la plupart des utilisateurs n'ont tout simplement pas besoin du pouvoir ostentatoire des chevaux de concours. Ils ont besoin bêtes de somme, des systèmes capables de gérer des charges de travail réelles au quotidien à un prix abordable. Nous avons passé pas mal de temps à étudier les offres d'infrastructure hyperconvergée (HCI) de DataON, et nous avons même donné le DataON HCI-224 avec SSD Intel® Optane™ notre choix de l'éditeur récompense l'année dernière. Dans cet article, nous examinerons un autre cluster à deux nœuds HCI-224. Cependant, celui-ci dispose d'un mélange unique de stockage : SSD Intel Optane front-end Intel® SSD D5-P4326 15.36 To avec QLC 3D NAND, créant un système qui optimise la capacité, les performances et les coûts.
Avant de plonger dans ce cluster, cependant, nous allons d'abord expliquer pourquoi DataON a opté pour QLC pour son niveau de capacité de stockage, et fournir un examen de Microsoft Azure Stack HCI, DataON et clusters HCI à deux nœuds.
SSD Intel® série D5-P4326
L'utilisation du SSD Intel D5-P4326 basé sur QLC pour le stockage de capacité dans ce cluster HCI est un choix logique, car il offre des performances solides, fiables et économiques. Nous avons certainement vu des SSD plus rapides, mais le SSD D5-P4326 trouve le bon équilibre entre performances et coût, avec une capacité massive de 15.36 To par disque. Cette combinaison est due à son architecture sous-jacente. Grâce à la technologie Intel® QLC 3D NAND, Intel est en mesure de réduire le coût de cet appareil tout en augmentant sa capacité.


Microsoft Azure Stack HCI
En bref, Microsoft Azure Stack HCI est une implémentation sur site de Microsoft Azure Cloud Services. Fondamentalement, Microsoft a intégré sa technologie HCI existante dans la famille Azure Stack afin que ses clients puissent exécuter des applications virtualisées sur site avec un accès direct aux services de gestion Azure tels que la sauvegarde et la reprise après sinistre.
Azure Stack HCI ne doit pas être confondu avec Azure ou Azure Stack Hub. Alors qu'Azure est un service de cloud public, Azure Stack Hub et Azure Stack HCI sont des solutions sur site. De plus, Azure Stack Hub exécute Azure OS avec Azure Services et est une solution IaaS et PaaS. Azure Stack HCI, d'autre part, exécute le système d'exploitation Windows Server avec Azure Services et vous permet d'exécuter des charges de travail virtualisées de la même manière que vous en avez l'habitude, avec l'avantage supplémentaire de pouvoir vous connecter au cloud Azure pour des services supplémentaires. Il s'agit d'une énorme différence qui permet aux administrateurs informatiques d'utiliser les mêmes outils et la même pile de gestion sur Azure Stack HCI qu'ils utilisent avec Azure.


Le tableau de bord principal de WAC donne un aperçu de l'activité du processeur, de la mémoire, du réseau et du disque pour les systèmes surveillés. Sur le côté gauche de l'écran, WAC comprend également un certain nombre d'outils de gestion et de navigation du système, notamment les certificats, les appareils, les événements, les fichiers, les utilisateurs et groupes locaux, le pare-feu, les processus, le registre, les rôles et fonctionnalités, les services et le stockage.

DataON HCI
Bien qu'Azure Stack HCI utilise des composants matériels de base, ces éléments doivent être conçus pour fonctionner ensemble afin de fournir des résultats optimaux. À certains égards, il est plus facile de concevoir des systèmes hautes performances que des systèmes performants. Avec des systèmes hautes performances, vous pouvez sélectionner les meilleurs composants et ignorer les coûts. Mais avec des bêtes de somme, vous devez évaluer le rapport coût/performance des composants, puis les régler pour optimiser leurs performances. Il faut tout autant, sinon plus, d'efforts d'ingénierie pour fournir un système axé sur la valeur, et ce système l'ingénierie est l'endroit où nous continuons d'être impressionnés par DataON.

Clusters HCI à 2 nœuds
Nous avons récemment fait une article sur les clusters de nœuds Microsoft Azure Stack HCI 2 (2NC). Vous trouverez ci-dessous un résumé de cet article. Nous avons constaté qu'un 2NC pourrait, pour de nombreux cas d'utilisation, fournir la résilience nécessaire à une organisation et que les 2NC sont moins complexes et coûteux qu'un cluster traditionnel à trois ou quatre nœuds. DataON a été l'un des premiers fournisseurs à reconnaître la valeur et à adopter l'intégration des 2NC. Mais les 2NC ne sont pas nouveaux pour DataON, car en septembre 2017, DataON a annoncé les deux premiers disponibles dans le commerce Kepler-47 HCI pour les systèmes Storage Spaces Direct Windows Server 2016 (désormais Azure Stack HCI).
L'implémentation 2NC de DataON prend en charge une panne de disque et une panne de serveur en même temps. Pour ce faire, il utilise RAID 5 + 1 pour assurer la résilience de la parité et la refléter sur l'autre serveur. Microsoft appelle cette capacité « résilience imbriquée » et a ajouté cette capacité à Storage Spaces Direct dans Windows Server 2019. Encore une fois, 2NC n'est pas le bon choix technologique pour tout le monde, mais ils peuvent fournir une solution fiable et rentable à de nombreuses organisations.
Construire et concevoir
Le cluster Azure Stack HCI avec lequel nous travaillons ici a été construit sur la plate-forme NVMe 224 % flash DataON HCI-2. Ces serveurs avaient une taille de 24U avec 1 baies NVMe à l'avant, offrant de nombreuses extensions à l'arrière pour les composants basés sur PCIe. L'étiquetage était élevé contrairement aux caddies de lecteur noir mat, ce qui permettait de repérer facilement des lecteurs spécifiques en cas de remplacement nécessaire. Tout était étiqueté, ce qui n'est pas si rare, mais l'étendue de l'étiquetage était extraordinaire. Notre déploiement avait chaque nœud étiqueté (2 et XNUMX), ainsi que plusieurs autres éléments, facilitant le déploiement et la gestion des systèmes DataON dans le centre de données.
Les nœuds de ce test comprenaient le double 2nd Processeurs de génération Intel® Xeon® Scalable Gold 6248 2.5 GHz, 20 cœurs, 28 Mo de cache, ainsi que huit RDIMM Samsung 32 Go DDR4 2933 MHz enregistrés ECC (256 Go au total par nœud) et deux disques de démarrage Intel S4510 480 Go SATA M.2.
Pour le stockage, chaque nœud était livré avec quatre disques Intel Optane SSD DC P4800X NVMe 750 Go 2.5 pouces (utilisés pour la mise en cache) et quatre disques Intel SSD D5-P4326 15.36 To 2.5 pouces QLC (niveau de stockage de capacité).
Les nœuds ont été connectés les uns aux autres via des cartes Mellanox ConnectX-4 EN double port QSFP28 40/56 GbE à l'aide de câbles en cuivre passifs 3M Mellanox LinkX ETH 40GbE, 40Gb/s, QSFP.
De toute évidence, DataON a passé beaucoup de temps et réfléchi à la configuration et à la sélection des composants de ce système pour équilibrer les performances et les coûts. Nous étions très intéressés de voir comment les SSD Intel SSD D5-P4326 fonctionneraient en tant que niveau de stockage. En combinant les SSD Intel Optane et les SSD Intel QLC 3D NAND, les SSD D5-P4326 devraient fournir un stockage flash hautes performances et économique, qui était autrefois le domaine des disques durs lents mais volumineux.

Tests
Pour avoir une idée de la façon dont un petit cluster comme celui-ci peut fonctionner dans un cas d'utilisation périphérique, nous avons configuré plusieurs tests Microsoft SQL Server. L'objectif était d'examiner les performances complètes du cluster pour s'assurer que DataON pouvait utiliser correctement la technologie Intel Optane et les SSD Intel QLC. Deuxièmement, nous voulions examiner les capacités d'un seul nœud, pour avoir une idée de la façon dont cette solution gère la perte d'un nœud, que ce soit pour les mises à jour planifiées ou en cas de panne plus grave.
Notre plan de test s'est appuyé sur Benchmark Factory de Quest en utilisant le profil TPC-C comme générateur de charge pour les machines virtuelles SQL Server que nous avons déployées. Nous avons configuré huit machines virtuelles (quatre par nœud), ce qui offrait un bon équilibre entre l'activité CPU et disque pour le cluster. Les générateurs de charge de travail étaient hébergés sur un système en dehors de cet environnement et connectés à ce cluster via un réseau 10GbE.
Configuration des tests SQL Server (par machine virtuelle)
- Windows Server 2019
- Empreinte de stockage : 800 Go alloués, 620 Go utilisés
- 8 vCPU
- 60 Go de RAM (55 Go en configuration en mode échec)
- SQL Server 2019
- Taille de la base de données : échelle 1,500 XNUMX
- Charge de client virtuel : 15,000 XNUMX
- Mémoire tampon : 48 Go
- Durée du test : 3 heures
- 15 minutes de préconditionnement
- Période d'échantillonnage de 45 minutes
Dans nos tests, nous nous sommes concentrés sur les performances de latence, le niveau de performance des transactions restant constant avec Benchmark Factory.



Tout au long de ces tests, nous avons clairement vu l'avantage d'avoir les SSD Optane dans ce mix. Ils ont pris le gros des écritures, libérant les SSD QLC pour des lectures réactives en tant que niveau de capacité haute vitesse. Même si nous avons doublé la charge de travail à huit machines virtuelles SQL Server frappant ce cluster HCI, la latence n'a augmenté que légèrement, ce qui montre que cette configuration est bien adaptée aux charges de travail qui peuvent éclater de temps à autre.
Bien que les performances dans un environnement pleinement opérationnel soient importantes, une autre considération est la manière dont les charges de travail fonctionneront si un nœud du cluster se déconnecte ou si des charges de travail doivent être migrées pour la maintenance du système. Pour tester ce scénario, nous avons conservé notre charge complète de 8 VM et les avons migrées vers un seul nœud. Dans cette configuration, nous avons mesuré une latence moyenne de seulement 4.5 ms, ce qui était mieux que les deux nœuds en ligne. Cela provient en partie de la suppression de la surcharge de stockage dans le fonctionnement à nœud unique.
Conclusion
Pour ce projet, nous avons exécuté une série de tests SQL sur le système pour illustrer les charges de travail de performance que l'on trouve couramment dans les cas d'utilisation Edge et SMB. Notre objectif était de comprendre avec quelle efficacité Microsoft Azure Stack HCI dans ce cluster DataON a pu tirer parti du matériel pour obtenir les résultats souhaités. Plus précisément, cela signifie fournir une solution qui offre une combinaison rare de performances et de valeur.
Nous pouvons confirmer grâce à nos tests que la sélection de composants de DataON a effectivement réussi à créer une solution Azure Stack HCI SDS rentable qui fonctionne extrêmement bien. Cela est en partie dû à leur choix d'utiliser le SSD Intel D5-P4326 pour le stockage de capacité, qui tire efficacement parti des SSD Intel Optane pour la hiérarchisation.
Il s'agit d'une notion essentielle, car les SSD QLC fournissent une capacité massive et dense au cluster, tout en offrant les avantages du TCO qui accompagnent le stockage flash. Pour enfoncer le clou, les disques QLC permettent une capacité de 15.36 To par baie de disque 2.5 pouces. Il faudrait 8 disques durs de 2 To en RAID 0 pour correspondre à la capacité, ou passer à un châssis de 3.5 pouces pour profiter de disques durs plus grands, mais encore plus lents. Dans tous les cas, la baisse des performances du lecteur Intel QLC vers les disques durs est plus que considérable ; c'est une différence exponentielle en ce qui concerne la réactivité des applications.
Même si nous aimerions que toutes les lectures et écritures proviennent des SSD Optane (car ce sont les supports les plus performants dans cette configuration), il y aura parfois un échec. Dans ce cas, les performances du SSD QLC écraseront les disques durs, protégeant le cluster HCI des irrégularités de performances courantes dans les topologies qui combinent des disques flash et des disques durs. En fait, nous avons vu des performances si équilibrées ici qu'à l'avenir, les entreprises en général devront peut-être repenser la conception du disque dur/flash et se pencher davantage vers la conception QLC/Optane pour tirer le meilleur parti du HCI.
L'autre préoccupation majeure concernant les clusters à 2 nœuds est la performance dans un état dégradé. Nous l'avons testé en faisant échouer un nœud et en donnant toute la charge de travail SQL à un seul nœud. Dans ce cas, SQL était plus réactif et fonctionnait un peu mieux que dans 2 nœuds, principalement en raison de la surcharge réduite des communications nœud à nœud. Bien sûr, il n'est pas recommandé de rouler longtemps dans un état dégradé comme celui-ci, mais il est rassurant de savoir que cela peut être fait sans sacrifier les performances.
Dans l'ensemble, le cluster HCI-224 HCI avec des SSD D5-P4326 QLC était simple à déployer, facile à utiliser et suffisamment puissant pour une large gamme de charges de travail. Son prix le rend également accessible à un large éventail d'utilisateurs. De plus, ce système a été certifié pour Microsoft Windows Server 2019 et validé en tant que solution Intel Select.
Ce rapport est parrainé par DataON. Tous les points de vue et opinions exprimés dans ce rapport sont basés sur notre vision impartiale du ou des produits à l'étude.




Amazon