Até agora nós temos mergulhou profundamente no Microsoft Azure Stack HCI, a implementação local do serviço de nuvem Azure da Microsoft. O Azure Stack HCI pode ser visto como o melhor tipo de plataforma dos dois mundos. Ele tem todas as ferramentas de gerenciamento do Azure, como Azure Monitor, Central de Segurança do Azure, Gerenciamento de Atualização do Azure, Adaptador de Rede do Azure e Azure Site Recovery, enquanto hospeda os dados no local e atende a determinados regulamentos. O Azure Stack HCI é dividido em três partes: arquitetura definida por software, serviços do Azure e hardware.
Até agora nós temos mergulhou profundamente no Microsoft Azure Stack HCI, a implementação local do serviço de nuvem Azure da Microsoft. O Azure Stack HCI pode ser visto como o melhor tipo de plataforma dos dois mundos. Ele tem todas as ferramentas de gerenciamento do Azure, como Azure Monitor, Central de Segurança do Azure, Gerenciamento de Atualização do Azure, Adaptador de Rede do Azure e Azure Site Recovery, enquanto hospeda os dados no local e atende a determinados regulamentos. O Azure Stack HCI é dividido em três partes: arquitetura definida por software, serviços do Azure e hardware.
Escolher o hardware certo é importante, conforme detalhamos em nosso artigo, “A importância do hardware no Microsoft Azure Stack HCI.” A primeira etapa para implantar o Azure Stack HCI seria encontrar um fornecedor de hardware certificado, neste caso, DataON. A DataON tem uma forte parceria com a Microsoft e a Intel há vários anos e concretiza essa parceria no layout de hardware para Azure Stack HCI em uma configuração Intel Select. Uma faceta interessante da parceria com a Intel é a capacidade de aproveitar o PMEM da empresa (e, claro, seus processadores mais recentes) com o Azure Stack HCI.
Em muitos casos, as soluções DataON HCI Intel Select são configuradas e enviadas em seu próprio rack, prontas para implantação imediata. Esse método de entrega é particularmente útil na borda, onde a infraestrutura de TI existente é limitada ou inexistente. No laboratório StorageReview, implantamos os quatro nós de armazenamento e computação, controlador de domínio e comutadores conforme o diagrama abaixo.
Construir e projetar
O cluster Microsoft Azure Stack HCI que analisamos é criado na plataforma DataON HCI-224 All Flash NVMe. Esses servidores têm tamanho de 2U com baias de 24 NVMe na frente, oferecendo bastante expansão na parte traseira para componentes baseados em PCIe. A rotulagem é alta em contraste com os caddies de unidade em preto fosco, facilitando a localização de unidades específicas se chegar a hora de trocá-las. Tudo é rotulado, o que não é incomum, mas a extensão da rotulagem é. Nossa implantação tem cada nó rotulado (1 a 4), bem como vários outros itens que facilitam a implantação e o gerenciamento no datacenter.
Nossa configuração veio equipada com 48 SSDs NVMe, ou 12 por nó. Isso incluiu quatro SSDs Intel Optane P375X de 4800 GB e oito SSDs Intel P4510 de 2 TB.
Na parte de trás, temos duas NICs Mellanox Connect-X 100 de porta dupla 5G, fornecendo uma conexão totalmente redundante por meio de dois switches Mellanox 100G (SN2100) para tráfego de rede de cluster. Não são mostradas em nossas fotografias de estúdio todas as conexões com identificação completa em cada extremidade do cabo de rede apropriado para permitir cabeamento sem erros no estágio de implantação.
Antes disso, nunca tivemos uma solução com esse nível de documentação no rótulo. A Microsoft e a DataON tornam a implantação do Azure Stack um processo indolor para que os clientes possam entrar em operação imediatamente. Cada cabo é codificado por cores para o uso específico e rotulado para onde cada extremidade vai. Combinado com a folha personalizada que a DataON fornece aos clientes, quase garante uma implantação sem erros. Em nossa implantação, o sistema foi pré-configurado com endereços IP antes do envio, com os endereços IP para gerenciamento e rotulados como IPMI.
Gestão e Usabilidade
Para compradores que executam uma loja Hyper-V operando no Windows Server, o Microsoft Azure Stack HCI será uma transição fácil. Muitas das mesmas ferramentas de gerenciamento estão em vigor, muitas delas oferecendo um fluxo de trabalho mais integrado e simples. Em nosso processo de revisão, aproveitamos o Windows Failover Cluster Manager para gerenciar o DataOn HCI Cluster, bem como o Windows Admin Center para monitorar as cargas de trabalho e ver o desempenho delas.
Examinando mais do nível do nó primeiro por meio de uma sessão da Área de Trabalho Remota da Microsoft (RDP) registrada em um dos nós, examinamos o Windows Failover Cluster Manager. Isso fornece recursos de gerenciamento em nível de nó, bem como visibilidade em nível de cluster. Esse tipo de acesso seria mais voltado para a implantação inicial, onde o monitoramento diário ocorreria a partir do Windows Admin Center.
Primeiro, clicamos em nosso cluster específico e obtemos informações gerais sobre ele, a capacidade de configurá-lo e uma olhada nos recursos. Isso fornece uma visão resumida do cluster selecionado, permitindo que você veja onde estão os problemas e comece a explorar áreas específicas.
Em seguida, são as funções de failover. Aqui podemos ver todas as VMs do Hyper-V em execução no cluster. São mostradas as várias VMs do vmfleet que usamos para testar o estresse do cluster.
As redes nos permitem ver quais redes de cluster estão disponíveis e o status de cada uma. A seleção de uma rede de cluster permite que você veja a placa de rede subjacente associada a ela, bem como seu endereço IP.
Na opção de armazenamento, há Discos, pools e compartimentos. Para Discos, pode-se clicar em discos virtuais e obter informações como status, onde está atribuído, o nó proprietário, o número do disco, estilo de partição e capacidade. Os usuários também podem se aprofundar um pouco mais, com ainda mais informações apresentadas, como ID, nome e descrição do pool, bem como ID, nome e descrição do disco virtual, integridade e status operacional e resiliência.
Os pools são semelhantes, com as informações de determinados pools de armazenamento, como status, integridade, nó proprietário, estados operacionais e capacidade geral, bem como espaço livre e usado.
Em Nodes, pode-se ver facilmente todos os nodes no cluster e seus status.
À direita, pode-se alternar para discos de failover e ver o disco individual para um determinado nó na parte inferior.
Na mesma barra lateral, também é possível ver a rede de um determinado nó.
Embora o Gerenciador de Cluster de Failover do Windows seja um aparato de gerenciamento mais "detalhista", ele exige que os usuários se conectem por meio da Área de Trabalho Remota do Windows a um servidor em si (ou outro servidor conectado a esse cluster) para trabalhar com ele. Embora esse estilo de gerenciamento seja bom para muitos usos, a Microsoft facilitou as coisas com uma nova plataforma chamada Windows Admin Center. Ao contrário do Failover Cluster Manager, o Windows Admin Center é totalmente baseado em navegador da Web, facilitando a conexão de qualquer computador ou tablet no local de trabalho. Ele também oferece uma aparência moderna e esteticamente agradável, tornando o monitoramento do dia-a-dia uma tarefa mais agradável. Ele oferece uma visão de muitas das mesmas informações, com um foco mais forte no monitoramento de atividades que o Failover Cluster Manager não oferece na mesma extensão.
Depois que o Windows Admin Center estiver associado a um cluster, você poderá detalhar áreas específicas para exibir e gerenciar operações. Aqui vemos informações gerais de desempenho de computação do cluster, que acompanham os recursos gerais que as VMs estão utilizando.
Embora o Windows Admin Center seja ótimo para visualizar atividades, você ainda pode interagir com VMs em seu cluster. Abaixo, estamos ativando várias VMs vmfleet.
Os usuários também podem detalhar informações sobre VMs específicas.
Em funções, obtemos uma visão ligeiramente diferente das funções, mas a maioria das mesmas informações importantes.
Nas configurações, os usuários podem baixar, instalar e atualizar extensões para o Azure.
Por meio do Windows Admin Center, também podemos acessar o Hyper-Converged Cluster Manager para examinar mais de perto a computação e o armazenamento. Abrimos o Dashboard que contém informações gerais como número de servidores, drives, VMs, volumes, bem como o uso de CPU, memória e armazenamento. Na parte inferior do painel está o desempenho do cluster que é dividido em um período de tempo específico, IOPS e latência.
Na computação, os administradores podem detalhar os próprios servidores para gerenciamento, incluindo a remoção do servidor do cluster. Aqui, há informações gerais sobre o servidor usado, como tempo de atividade, localização, domínio, fabricante, modelo, número de série, nome do sistema operacional, versão e número da compilação. Além disso, os usuários podem observar o desempenho específico do servidor.
Clicar na guia Volumes leva os usuários a um resumo de todos os volumes no cluster. A integridade dos volumes é codificada por cores: verde para saudável, vermelho para crítico e amarelo para aviso. O desempenho também é rastreado para todos os volumes, divididos por período de tempo e em IOPS, latência e taxa de transferência.
O detalhamento em um único volume fornece propriedades específicas do volume, incluindo status, sistema de arquivos, caminho, reconhecimento de domínio de falha, tamanho total, tamanho usado, resiliência e área de cobertura. Existem recursos opcionais (desduplicação e compactação, bem como somas de verificação de integridade) que podem ser ativados ou desativados aqui. A capacidade é mostrada graficamente, mostrando usado versus disponível. E, novamente, vemos o desempenho.
Na guia Unidades, obtemos um resumo de todas as unidades do sistema. Aqui vemos o número total de unidades e se há alertas com o mesmo código de cores dos volumes. Também podemos ver a capacidade: usada, disponível e reserva.
Clicando no Inventário, obtemos uma lista de todas as unidades e vários detalhes. Os detalhes incluem o status da unidade, seu modelo, o tamanho da capacidade, o tipo, para que ela é usada e a quantidade de armazenamento usada.
Podemos detalhar uma única unidade e ver propriedades como status, localização, tamanho, tipo, usado para, fabricante, modelo, número de série, versão do firmware e o pool de armazenamento em que está. Podemos ver a quantidade de capacidade usada versus disponível para a unidade individual e seu desempenho em IOPS, latência e taxa de transferência.
Abaixo do desempenho, também podemos ver a latência do drive e as estatísticas de erro.
Desempenho
O desempenho dentro do ecossistema Microsoft Azure Stack sempre foi ótimo, um ponto forte que surgiu desde os dias dos espaços de armazenamento. Com isso em mente, analisamos algumas cargas de trabalho de benchmarking comuns nesta revisão para permitir que os usuários vejam como essa plataforma se compara a outras soluções de HCI no mercado. Com isso em mente, usamos cargas de trabalho para enfatizar tamanhos aleatórios de pequenos blocos, bem como transferências de blocos grandes para mostrar o potencial que essa solução da Microsoft pode oferecer. Em nossa análise do Azure Stack HCI, aproveitamos o vmfleet para benchmarks de desempenho, enquanto no VMware ou no Linux bare-metal, usamos o vdbench.
Para o desempenho aqui, testamos o sistema com espelho de 2 vias e espelho de 3 vias. O espelho refere-se ao método de proteção de dados (duas cópias ou três cópias). Obviamente, com mais cópias, os usuários perderão alguma capacidade. Do ponto de vista do desempenho, o 3-way deve levar a melhores leituras por meio do aumento do paralelismo e o 2-way é melhor para o desempenho de gravação com um terço a menos de tráfego de rede.
Para nosso teste aleatório de 4K, o espelho de 2 vias obteve uma taxa de transferência de 2,204,296 IOPS lida em uma latência média de 247 µs e uma taxa de transferência de gravação de 564,601 IOPS em uma latência média de 3.69 ms. O 3-way obteve uma taxa de transferência de leitura de 2,302,610 IOPS com uma latência média de 170 µs e para gravação, foi uma taxa de transferência de 338,538 IOPS com uma latência média de 9.12 ms. Para colocar um pouco disso em perspectiva, a oferta vSAN da VMware usando dois SSDs Optane e quatro SSDs de capacidade NVMe por nó mediu 521K IOPS 4K lidos em seu pico e 202K IOPS gravados.
Em seguida, examinamos nosso benchmark sequencial de 32K. Para leituras, vimos o 2-way atingir 42.59 GB/s e o 3-way atingir 39.48 GB/s. Para gravações, o HCI nos deu 13.8 GB/s para 2 vias e 7.19 GB/s para 3 vias.
Continuando com nosso trabalho sequencial, passamos para nossos testes de 64K. Aqui, o 2-way atinge 39.5 GB/s de leitura e 15.24 GB/s de gravação e o 3-way atinge 46.47 GB/s de leitura e 7.72 GB/s de gravação. Em comparação com o vSAN, as diferenças de largura de banda de leitura não chegam nem perto, onde a largura de banda em seus testes atingiu pouco mais de 5.3 GB/s com um tamanho de bloco de 64 K. A largura de banda de gravação teve uma diferença semelhante, onde o vSAN atingiu o máximo de 2.55 GB/s.
Nosso próximo benchmark é o SQL com desempenho misto de leitura/gravação. Aqui, o 2-way teve uma taxa de transferência de 1,959,921 IOPS em uma latência média de 324µs. O 3-way atingiu 1,929,030 IOPS com uma latência média de 185µs. A carga de trabalho SQL é outra área em que o Azure Stack HCI é capaz de mostrar sua força, medindo pouco menos de 2 milhões de IOPS, enquanto o VMware vSAN no mesmo perfil de carga de trabalho media 321 mil IOPS.
Com o SQL 90-10, o 2-way atingiu 1,745,560 IOPS com latência média de 411µs e o 3-way teve 1,547,388 IOPS e 285µs de latência.
Para SQL 80-20, o 2-way teve uma taxa de transferência de 1,530,319 IOPS a 581 µs de latência. O 3-way atingiu 1,175,469 IOPS e 681µs de latência.
SPECs
O próximo é nosso benchmark SPECsfs 2014 SP2 - um novo teste para nós aqui. O SPECsfs é um conjunto de referência que mede a taxa de transferência e o tempo de resposta do servidor de arquivos. O benchmark nos fornece um método padronizado para comparar o desempenho em diferentes plataformas de fornecedores. O benchmark opera definindo uma escala e incrementando até que a latência do ponto seja muito grande para as especificações do benchmark. Aqui, vemos a escala que pode ser feita até que 11ms seja violado, bem como a largura de banda que o servidor atinge quando falha no número de latência.
Veremos primeiro a latência aqui, pois ela esclarecerá por que a largura de banda parou onde parou na segunda parte. A escala e suas latências para 2 vias e 3 vias estão na tabela abaixo:
Latência SPECsfs (ms) | ||
---|---|---|
Escala | DataON HCI-224 espelho de 2 vias | DataON HCI-224 espelho de 3 vias |
100 | 0.243 | 0.262 |
200 | 0.329 | 0.371 |
300 | 0.466 | 0.499 |
400 | 0.636 | 0.699 |
500 | 0.753 | 0.896 |
600 | 0.953 | 1.083 |
700 | 1.113 | 1.314 |
800 | 1.326 | 1.557 |
900 | 1.501 | 1.826 |
1000 | 1.88 | 2.167 |
1100 | 2.061 | 2.807 |
1200 | 2.323 | 4.64 |
1300 | 2.749 | 8.557 |
1400 | 5.47 | 10.449 |
1500 | 8.616 | 11.285 (falha) |
1600 | 10.485 | 11.414 (falha) |
1700 | 11.069 | |
1800 | 11.697 (falha) | |
1900 | 12.51 (falha) |
Como se pode ver, ambas as configurações começaram perto de 250µs, o 2-way ligeiramente abaixo e permanecendo assim o tempo todo. Em uma escala de 1500, o 3-way falhou indo para 11.285ms, dando a ele um intervalo de 262µs a 10.45ms. O 2-way falhou em uma escala de 1800 atingindo 11.7ms, dando a ele um intervalo de 243µs a 11.07ms.
A tabela a seguir mostra a largura de banda para cada configuração em cada compilação, com a falha listada acima na latência.
Largura de banda SPECsfs (KB/s) | ||
Escala | DataON HCI-224 espelho de 2 vias | DataON HCI-224 espelho de 3 vias |
100 | 300897 | 300880 |
200 | 600372 | 600857 |
300 | 901672 | 902964 |
400 | 1202779 | 1203106 |
500 | 1504492 | 1503394 |
600 | 1805952 | 1806455 |
700 | 2105973 | 2108432 |
800 | 2408183 | 2406171 |
900 | 2710895 | 2707106 |
1000 | 3007499 | 3009280 |
1100 | 3308648 | 3308168 |
1200 | 3608244 | 3610219 |
1300 | 3910414 | 3888303 |
1400 | 4212976 | 4026720 |
1500 | 4513454 | 4000079 (falha) |
1600 | 4587183 | 4229678 (falha) |
1700 | 4621067 | |
1800 | 4630352 (falha) | |
1900 | 4569824 (falha) |
Para largura de banda, ambas as configurações funcionaram lado a lado com intervalos de 300 MB/s até que o 3-way falhou a latência com sua largura de banda de passagem final de 4.02 GB/s, e o 2-way tendo uma largura de banda de passagem final de 4.62 GB/ s.
Conclusão
Já faz algum tempo desde que nos aprofundamos tanto em qualquer coisa na pilha centrada em armazenamento da Microsoft; e cara, estamos felizes por estar de volta. Com a renomeada solução Microsoft Azure Stack HCI, a Microsoft fez algo tão básico e fundamental que é fácil subestimar. A Microsoft tornou sua solução HCI extremamente simples de operar sem sobrepor nada para diminuir o desempenho. Conforme visto em nossos números, o cluster DataON que testamos apresentou números tremendos, os mais rápidos que vimos em um cluster HCI de 4 nós de mercado intermediário. Para ser justo, também não estamos testando o melhor e mais recente hardware da DataON. Embora essa configuração claramente não seja desleixada, completa com SSDs Intel Optane DC, a DataON oferece soluções mais rápidas que aproveitam as CPUs Intel Xeon de 2ª geração, memória persistente e rede mais rápida. O fato de haver ainda mais desempenho disponível em uma solução Azure Stack HCI é empolgante, mas também é importante lembrar que a solução também pode ser reduzida para implantações tão pequenas quanto IHC de dois nós que pode ser configurado sem switch para uma solução de ponta ou SMB de baixo custo.
Analisando os números de desempenho, o cluster Microsoft Azure Stack HCI foi capaz de oferecer uma quantidade incrível de E/S e largura de banda. No domínio dos quatro cantos, medimos mais de 2.3 milhões de IOPS 4K de leitura aleatória com uma configuração de espelho de 3 vias e 338 mil IOPS de gravação aleatória de 4K. Se você precisar de maior desempenho de gravação, uma configuração de espelhamento bidirecional foi capaz de aumentar as velocidades de gravação aleatória de 2K para 4k IOPs. Olhando para a largura de banda, porém, é onde o Microsoft Azure Stack realmente brilha. Em nossa carga de trabalho de transferência sequencial de blocos de 564K, o espelho de 64 vias mediu 2 GB/s de leitura e 39.5 GB/s de gravação, enquanto o espelho de 15.24 vias mediu 3 GB/s de leitura e 46.47 GB/s de gravação. Isso excede em muito o que medimos em clusters HCI anteriores.
No geral, a solução Azure Stack HCI da Microsoft provou ser simples de implantar, fácil de gerenciar e excepcionalmente eficiente, tudo o que você deseja. A DataON, como parceira da solução, destacou-se em fornecer uma construção pronta para uso, oferecendo hardware integrado às especificações com instruções claras que são vendidas em uma configuração que pode ser instalada e executada rapidamente. Os clientes podem até pular a fiação em muitos casos, então tudo se resume à necessidade específica. De qualquer forma, porém, o Azure Stack HCI combinado com Intel Optane, SSDs Intel NVMe e rede Mellanox 100G provou ser uma força a ser reconhecida.
Inscreva-se no boletim informativo StorageReview