Home EmpreendimentoNa nuvem Obtendo dados para a nuvem mais rapidamente com dispositivos AWS Snowball Edge

Obtendo dados para a nuvem mais rapidamente com dispositivos AWS Snowball Edge

by Brian Beeler
AWS Snowball Edge

Recentemente, concluímos um projeto no estilo de análise de dados que nos deixou com um arquivo de saída de 100 TB. Embora tenhamos amplo armazenamento em todo o nosso laboratório, manter um arquivo de 100 TB para sempre apresenta um conjunto único de desafios. Além disso, realmente não “precisamos” do arquivo, mas preferimos preservá-lo, se possível. A nuvem é obviamente adequada para essa necessidade, mas o tempo para transferir tantos dados pela rede é imenso, então optamos por experimentar os dispositivos AWS Snowball Edge. O objetivo – levar nossos dados do laboratório em Cincinnati para um balde S3 na região us-east-2 da AWS o mais rápido possível.

Recentemente, concluímos um projeto no estilo de análise de dados que nos deixou com um arquivo de saída de 100 TB. Embora tenhamos amplo armazenamento em todo o nosso laboratório, manter um arquivo de 100 TB para sempre apresenta um conjunto único de desafios. Além disso, realmente não “precisamos” do arquivo, mas preferimos preservá-lo, se possível. A nuvem é obviamente adequada para essa necessidade, mas o tempo para transferir tantos dados pela rede é imenso, então optamos por experimentar os dispositivos AWS Snowball Edge. O objetivo – levar nossos dados do laboratório em Cincinnati para um balde S3 na região us-east-2 da AWS o mais rápido possível.

AWS Snowball Edge

O que são dispositivos AWS Snowball Edge?

Antes de nos aprofundarmos na tarefa de migração de dados, uma breve cartilha sobre os dispositivos AWS Snowball Edge é necessária. A família AWS Snow é uma coleção de serviços criados para fins específicos. Esses serviços executam cargas de trabalho com uso intensivo de computação enquanto armazenam dados em locais de borda para conectividade de rede negada, interrompida, intermitente ou limitada (DDIL) e para transferir grandes quantidades de dados de ambientes locais e robustos ou móveis. Os dispositivos AWS Snowball Edge são robustos, portáteis e seguros e oferecem funções otimizadas para armazenamento ou otimizadas para computação. Esses dispositivos são projetados para ajudar os clientes a se mover (para a AWS) ou processar grandes quantidades de dados com segurança e eficiência, mesmo em locais remotos ou desconectados.

Cabos do AWS Snowball Edge

Os dispositivos Snowball Edge vêm em duas versões: o Snowball Edge Storage Optimized, que estamos usando aqui, e o Snowball Edge Compute Optimized. A versão otimizada para armazenamento foi projetada para casos de uso de armazenamento e transferência de dados e vem com até 80 TB de capacidade de armazenamento. A versão Compute Optimized destina-se a processamento de dados e casos de uso de computação e vem com até 104 CPUs virtuais e 416 GB de RAM. Existe até uma opção para um sistema otimizado para computação incluir uma GPU. Para aqueles com uma necessidade de dados mais modesta, há também uma pequena e ultraportátil família Snow, apelidada de AWS Snowcone.

Opções de configuração do AWS Snowball Edge

Ambas as versões do Snowball Edge possuem recursos de segurança integrados, como compartimentos invioláveis, criptografia de 256 bits e chips Trusted Platform Module (TPM) para garantir a integridade e a confidencialidade dos dados. Além disso, os dispositivos Snowball Edge podem ser configurados para executar funções AWS Lambda, instâncias Amazon EC2 e outros serviços AWS na borda, permitindo que os clientes realizem processamento e análise de dados no local antes de transferir os dados para a AWS.

Para nosso caso de uso, os dispositivos Snowball Edge fornecem uma maneira rápida, segura e flexível para os clientes transferirem e processarem grandes quantidades de dados em vários ambientes, incluindo locais remotos ou desconectados.

exibição de borda de bola de neve aws

Processo de pedido do AWS Snowball

Para profissionais experientes da AWS, o processo de pedido do Snowball é direto. Mesmo para neófitos como eu, consegui seguir as etapas com um empurrãozinho útil de nossos amigos da AWS que nos treinaram durante o processo.

aws snowball pedido passo 1

A etapa 1 é dar um nome ao seu trabalho e escolher o tipo de trabalho para o seu dispositivo Snow. Nossa tarefa era simplesmente transferir dados para o S3, mas os dispositivos Snow também podem exportar dados do S3. Eles também podem ser usados ​​como soluções pontuais para oferecer computação local, armazenamento e GPU para um ponto de presença.

storagereview aws snowball pedido passo 2

O passo 2 continua a ser simples, com a seleção do dispositivo Snow. No nosso caso, selecionamos a unidade Snowball Edge Storage Optimized, com 80 TB disponíveis. Existem várias opções de definição de preço para o AWS Snowball. Há uma opção de preço para uso por dia ou o AWS Snowball oferece descontos significativos (até 62%) para uso de 1 ano e compromissos de uso de 3 anos. Com essas ofertas de longo prazo, você paga antecipadamente para usar o(s) dispositivo(s) Snowball com desconto e evita o pagamento de taxas de serviço adicionais ou diárias até o término do período pré-pago. Você pode se inscrever para um preço inicial comprometido no console do AWS Snow Family ao solicitar um dispositivo Snowball.

Por fim, escolha as instâncias do EC2 e os buckets do S3 necessários para importação. Esta era uma conta nova, então criamos um novo bucket S3. Também não precisávamos de nenhum EC2 para isso, mas acabamos fazendo sideload de uma instância do EC2 mais tarde para um pouco de diversão.

A Etapa 3 oferece alguns recursos adicionais, como um AWS IoT Greengrass opcional para Snow e uma opção para gerenciamento de dispositivos remotos.

storagereview aws snowball pedido passo 4

A Etapa 4 abrange as preferências de segurança, envio e notificação. Aqui usamos a criptografia padrão e criamos a função de serviço sugerida para permitir que a AWS manipule os dados. A partir daí, é só adicionar seu endereço e selecionar a entrega em um ou dois dias. Você também pode adicionar notificações por e-mail aqui, embora o console AWS mostre todo o progresso à medida que o trabalho funciona no sistema.

storagereview aws snowball pedido passo 5

A última etapa é validar todas as informações inseridas e enviar. Isso cria o trabalho e, em seguida, o processo de atendimento da AWS começa. Passamos pelo processo com a AWS bem devagar, querendo entender todas as opções. Mesmo em nosso ritmo casual, todo o processo levou cerca de 10 minutos. Um caminho mais agressivo tornaria o pedido de um dispositivo Snow de 2 a 3 minutos no máximo.

storagereview aws snowball solicitando trabalho de clone

Na época, pensamos que precisaríamos de dois dispositivos Snowball Edge. Em retrospecto, precisávamos apenas de um. O processo para clonar esse trabalho também é muito simples e são necessários apenas mais alguns cliques para registrar alguns Snowballs para conjuntos de dados maiores.

aws bola de neve entregue

A partir daqui, é um jogo de espera enquanto o processo de atendimento funciona por meio do sistema. Como esta era uma conta totalmente nova, deparamos com alguns sinalizadores ao solicitar dois dispositivos Snowball Edge imediatamente. Mas para contas com atividade, não deve haver tais verificações. Os Snowballs apareceram em apenas alguns dias e partimos para preparar nossos dados para transporte.

Uma coisa a considerar com o Snowball é o preço. Há uma taxa de trabalho, que inclui dez dias de permanência da unidade no local. Há, é claro, taxas de nuvem no S3 assim que os dados chegam lá também. Embora o preço do Snowball não seja complicado, ele varia de acordo com o sistema selecionado, o tempo necessário e a região em que você está. Em nosso caso, a taxa de trabalho foi de $ 300 por Snowball, e mesmo isso pode reduzido drasticamente com contratos de longo prazo. Você pode, no entanto, ter uma ideia dos preços do Snowball; AWS tem uma tabela que coloca tudo para fora.

Preparação de dados

Começamos com um arquivo de texto de 100 TB, mas qualquer pessoa com experiência em S3 saberá que isso é um problema. O S3 tem um limite de tamanho de objeto de 5 TB, o que significa que precisávamos fazer algo sobre nosso único arquivo não compatível. Nossa resposta foi cortá-lo e ver se conseguíamos obter algum benefício de compressão ao mesmo tempo. A esperança era que pudéssemos chegar a uma única unidade Snowball, que chega a 80 TB utilizáveis. Enquanto esperávamos a chegada do Snowball Edge, começamos a preparar os dados.

Recriação do processo

Usamos nosso favorito aplicativo para trabalhar com números grandes, y-cruncher, que inclui um utilitário de visualização, divisão e compactação de dígitos. Devido à limitação de tamanho do objeto do S3, optamos por dividir todos os 100 trilhões de dígitos do Pi em 200 arquivos. Após a compactação, isso nos deu um tamanho de arquivo de aproximadamente 191 GB, cada um contendo 500,000,000,000 (500 bilhões) de dígitos.

Configuração do AWS Snowball

Com os dados preparados e o dispositivo Snowball em mãos, ligamos a primeira unidade para colocá-lo online. Configurar o Snowball é muito simples, dando-lhe poder e acesso à rede; optamos pela porta 10GbE. Muitos optarão por usar o CLI para fazer a interface com o Snowball, que provavelmente é o método preferido. Ainda assim, por causa do visual e desejando a experiência de um ponto de vista profissional que não seja da AWS, optamos pelo AWS OpsHub para Snow Family.

AWS OpsHub para família Snow é uma ferramenta amigável que ajuda os clientes a gerenciar seus dispositivos Snow Family e serviços locais da AWS. Os usuários podem desbloquear e configurar dispositivos, transferir arquivos, iniciar e gerenciar instâncias e monitorar métricas de dispositivos por meio de uma interface gráfica do usuário, que fornece uma visão unificada dos serviços da AWS em execução nos dispositivos. O AWS OpsHub automatiza tarefas operacionais e foi projetado para acomodar usuários com diferentes níveis de especialização técnica, facilitando o gerenciamento de um grande número de dispositivos Snow Family.

AWS OpsHub para família Snow

Com o endereço IP da tela LCD e o código de desbloqueio e arquivo de manifesto do seu console AWS, você pode desbloquear e acessar o Snowball Edge. Isso pode levar alguns minutos enquanto a AWS valida as credenciais, descriptografa o conteúdo e lida com algumas outras tarefas de manutenção.

Painel do AWS OpsHub

Depois de fazer login, você é transportado para um painel visual com as informações relevantes do dispositivo e os serviços ativados. Neste ponto, estamos online, conectados à rede e prontos para mover nossos dados.

Transferência de dados para o AWS Snowball

Com o Snowball Edge configurado, na rede e o OpsHub conectado, é hora de mover nossos 200 arquivos de 200 GB. Embora a maioria use a interface CLI para esse processo e se beneficie de uma experiência mais otimizada no tempo, optamos pela simplicidade. Usando o OpsHub no Windows, simplesmente selecionamos a pasta com nossos dados Pi dentro e deixamos os dados irem. Levamos cerca de quatro dias para que os arquivos chegassem ao Snowball.

Interfaces do AWS Snowball Edge

Depois que a transferência de dados foi concluída, desligamos a unidade e, nesse ponto, a tela de tinta eletrônica mudou para o endereço de ingestão. No nosso caso, isso significava Columbus, Ohio, a casa de us-east-2. Aliás, uma vez nas mãos do remetente, as credenciais de acesso também saem do console da Web, protegendo os dados durante o trajeto.

A AWS rastreia o status do Snowball

Uma vez entregue com a UPS, a interface da Web da AWS atualiza o status do trabalho com o número de rastreamento e o progresso do Snowball de trânsito, classificação, recebimento da AWS e importação para o S3. Demorou alguns dias para o Snowball chegar a Columbus e dois dias para a importação ser concluída.

Bucket S3 com ingestão concluída

Depois que o processo foi confirmado como concluído, criamos um visual no S3 para garantir que todos os dados parecessem ser importados corretamente. Para dar aos clientes uma tranquilidade mais formal, a AWS também fornece um relatório de auditoria para todo o processo, juntamente com quaisquer exceções.

Log de sucesso da importação do AWS Snowball Edge

Em nosso log, podemos ver os 200 arquivos concluídos sem falhas. A AWS também registra os destaques conforme o Snowball Edge e seus dados são movidos pelo sistema.

Considerações Finais

Os dispositivos AWS Snowball Edge não são novos; A AWS foi pioneira quando se tratou de fornecer a seus clientes uma maneira segura de acelerar a transferência de dados off-line ou armazenamento remoto para a nuvem. Se tivéssemos tentado copiar nossos dados para o S3 pela rede, provavelmente ainda estaríamos esperando a conclusão desse trabalho e incapazes de fazer muito mais produtivo, pois nosso tubo de Internet estava bloqueado. Para nós, a unidade Snowball Edge Storage Optimized era exatamente o que precisávamos para colocar nossos dados na nuvem o mais rápido possível.

exibição de borda de bola de neve aws ativada

Isso não é sem custo. Embora os clientes de longo prazo possam obter melhores preços, nosso custo direto para os Snowballs foi de cerca de US$ 700. Isso não é ruim, porém, considerando que pedimos um extra por engano e não nos movemos tão rapidamente para enviar as unidades de volta para a AWS. Não houve taxa para ingerir os dados no S3, e o custo contínuo do S3 é determinado pela taxa do seu contrato com a AWS.

Deve-se notar que usamos o Snowball Edge da maneira mais básica. Os dispositivos Snowball com Compute, especialmente aqueles com GPUs, oferecem muito mais potencial para casos de uso mais intensivos. Os interessados ​​devem sintonizar nosso recente Podcast de neve da AWS. Em última análise, os dispositivos Snow são apenas uma versão mais diminuta da AWS com um limite de armazenamento e computação. Mas, como vimos, eles são muito flexíveis, extremamente fáceis de implantar e fornecem dados de forma confiável onde eles precisam estar. Para qualquer pessoa que esteja considerando dispositivos AWS Snow, é altamente recomendável experimentá-los.

Guia do AWS Snowball Edge

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Discord | RSS feed