Início EmpreendimentoAI Pesquisa científica na borda – armazenamento de alta capacidade permite insights acelerados por IA

Pesquisa científica na borda – armazenamento de alta capacidade permite insights acelerados por IA

by Jordan Ranous

Os SSDs Solidigm P5336 abrem novas fronteiras de pesquisa ao oferecer suporte aos requisitos de uso intensivo de dados de IA e algoritmos de aprendizado de máquina na borda.

Numa era em que a investigação científica avança rapidamente até aos limites das nossas capacidades tecnológicas, a importância do armazenamento de alta capacidade tornou-se cada vez mais proeminente. Armados com um poderoso equipamento de captura de objetos do céu profundo, um conjunto de SSDs QLC Solidigm P5336 de 61.44 TB e nosso novo servidor robusto favorito Dell PowerEdge XR7620, exploramos a necessidade de armazenamento robusto e econômico para gerenciar os requisitos de dados em rápida expansão de pesquisa científica acelerada por IA baseada na borda.

Captura de dados de borda

Nos últimos anos, a computação científica e de dados passou por uma mudança monumental, passando de modelos de computação tradicionais e centralizados para o domínio mais dinâmico da computação de ponta. Esta mudança não é apenas uma mudança nas preferências de computação, mas uma resposta às necessidades e complexidades crescentes da exploração moderna de processamento de dados.

Na sua essência, a edge computing refere-se ao processamento de dados perto do local onde são gerados, em vez de depender de um armazém centralizado de processamento de dados. Esta mudança é cada vez mais relevante em domínios onde o processamento de dados e a tomada de decisões em tempo real são cruciais. A edge computing é atraente na pesquisa científica, especialmente em disciplinas que exigem rápida coleta e análise de dados.

Os fatores que impulsionam a computação de ponta

Vários fatores impulsionam a mudança em direção à computação de ponta na pesquisa científica. Em primeiro lugar, o grande volume de dados gerados pelas experiências científicas modernas é impressionante. Os métodos tradicionais de processamento de dados, que envolvem a transmissão de grandes conjuntos de dados para um servidor central para análise, estão se tornando impraticáveis ​​e demorados.

Em segundo lugar, a necessidade de análise em tempo real é mais pronunciada do que nunca. Em muitos cenários de pesquisa, o tempo necessário para transferir os dados para processamento pode torná-los desatualizados, tornando essencial a análise imediata no local.

Por último, tecnologias de recolha de dados mais sofisticadas exigiram o desenvolvimento de capacidades de processamento de dados igualmente sofisticadas. A edge computing responde a esta necessidade aproximando capacidades computacionais poderosas das fontes de dados, aumentando assim a eficiência e a eficácia da investigação científica.

A pesquisa científica, nosso foco de computação de ponta neste artigo, está particularmente interessada em manter o máximo possível de dados brutos coletados por sensores modernos e sofisticados. O monitoramento e a análise em tempo real dos dados capturados usando aceleradores como o NVIDIA L4 na borda fornecem resumos. Ainda assim, não há substituto para a captura e preservação de todos os dados para análises futuras e mais profundas. É aqui que o ultradenso SSDs Solidigm QLC entre.

A Cilada

A astrofotografia, a prática de capturar imagens de corpos celestes e grandes áreas do céu noturno, é um excelente exemplo de campo que se beneficia significativamente da computação de ponta. Tradicionalmente, a astrofotografia é uma disciplina de paciência, exigindo longos tempos de exposição e pós-processamento significativo de imagens para extrair dados significativos. No passado, olhávamos acelerando o processo com um cluster NUC. Agora é hora de levar isso para o próximo nível.

O servidor de borda

Usamos o robusto Dell Power Edge XR7620 como a plataforma de servidor principal na borda. Esses servidores otimizados têm profundidade curta, soquete duplo em um formato compacto e oferecem soluções focadas em aceleração. Ao contrário dos servidores de borda típicos, o servidor XR7620 aborda o rápido amadurecimento de IA/ML com suporte para as cargas de trabalho mais exigentes, incluindo automação industrial, vídeo, análise de ponto de venda, inferência de IA e agregação de dispositivos de ponto de borda.

Especificações principais do Dell PowerEdge XR7620

Para uma lista completa de especificações, confira nossa análise completa aqui: Dell Power Edge XR7620.

Característica Especificações técnicas
Subcontratante Dois processadores escaláveis ​​Intel® Xeon® de 4ª geração com até 32 núcleos por processador
Memória 16 slots DDR5 DIMM, suporta RDIMM de 1 TB no máximo, velocidades de até 4800 MT/s. Suporta apenas DIMMs ECC DDR5 registrados
Baias Compartimentos frontais: até 4 unidades SSD SAS/SATA/NVMe de 2.5 polegadas, máximo de 61.44 TB, até 8 unidades diretas E3.S NVMe, máximo de 51.2 TB

Este servidor Dell PowerEdge não é apenas uma peça de tecnologia qualquer. Ele foi construído para resistir às condições mais adversas que a natureza tem a oferecer. Pense nas temperaturas abaixo de zero, nos ventos uivantes e no isolamento que faz a palavra “remoto” parecer um eufemismo. Mas, apesar das probabilidades, provou ser capaz e inflexível, alimentando a investigação com o poder dos seus processadores de última geração e uma capacidade monstruosa de análise de dados.

Ter um servidor robusto elimina a pressão de mantê-lo seguro e aquecido. Não é apenas a encenação; também é essencial que o servidor possa suportar o barulho da movimentação de um local seguro para um local frio e isolado no meio do nada.

O telescópio

Para este teste, escolhemos um local ao longo dos Grandes Lagos, no coração de uma região selvagem remota, longe do brilho invasivo das luzes da cidade. A peça central do nosso equipamento astrofotográfico é o telescópio Celestron Nexstar de 11 polegadas. Com uma abertura F/1.9 e uma distância focal de 540 mm, este telescópio é ideal para astrofotografia em condições de pouca luz, oferecendo detalhes notáveis ​​para a exploração do céu profundo. Na profunda quietude da natureza selvagem, este telescópio permanece como uma sentinela, com a lente apontada para o céu, pronta para capturar o espetáculo celestial.

A câmera única

Anexada ao Nexstar está a câmera colorida ZWO ASI6200MC Pro One Shot. Projetada com o único propósito de astrofotografia, esta câmera pode renderizar imagens de objetos astronômicos em alta resolução e ricas em cores. A escolha de uma câmera colorida one-shot simplifica o processo de imagem, capturando imagens coloridas em uma única exposição sem a necessidade de filtros adicionais. Esse recurso é inestimável em regiões remotas, onde a simplicidade e a eficiência são fundamentais.

Especificação Detalhe
Sensor CMOS SONY IMX455
Tamanho Full Frame
Resolução 62 megapixels 9576×6388
Tamanho do Pixel 3.76μm
Padrão Bayer RGB
Buffer DDR3 256MB
Interface USB3.0 / USB2.0

A ZWO ASI6200MC Pro é uma câmera astrofotográfica projetada especificamente, equipada com um sensor CMOS SONY IMX455, oferecendo uma impressionante resolução de 62 megapixels em um sensor full-frame. Possui um tamanho de pixel de 3.76μm, permitindo capturas celestiais detalhadas e expansivas com uma taxa de quadros máxima de 3.51FPS em resolução total.

A câmera possui um sistema de resfriamento integrado – um refrigerador térmico elétrico regulado de dois estágios – para diminuir a temperatura do sensor e garantir o desempenho ideal, mantendo uma temperatura de 30°C a 35°C abaixo dos níveis ambientais, reduzindo o ruído eletrônico para imagens mais precisas. . Com recursos como obturador de rolamento, ampla faixa de exposição e buffer DDR256 substancial de 3 MB, esta câmera foi projetada para fornecer imagens de qualidade excepcional para astrônomos amadores e profissionais.

Manter uma conexão de dados confiável em regiões remotas não é tão desafiador hoje com o Starlink. Este serviço de Internet via satélite fornece conectividade de dados de alta velocidade, essencial para transmitir dados e receber atualizações em tempo real, mas com limitação considerável de largura de banda para enviar conjuntos massivos de dados de volta ao laboratório.

O armazenamento de alta capacidade

Preservar cada subquadro na astrofotografia é vital para os pesquisadores, pois revela uma riqueza de informações essenciais para o avanço do conhecimento astronômico. Cada subquadro pode capturar variações e nuances incrementais nos fenômenos celestes, o que é crucial para análise e compreensão detalhadas. Esta prática melhora a qualidade da imagem através da redução de ruído e garante a confiabilidade dos dados, fornecendo redundância para verificação e auxiliando na correção de erros e calibração.

Especificação Solidigm D5-P5336 7.68 TB
Capacidade 7.68TB
Leitura / Gravação Sequencial Até 6.8 GB/s de leitura/1.8 GB/s de gravação
Leitura aleatória de 4K/gravação de 16K IOPS Até 770 mil IOPS de leitura/17.9 mil IOPS de gravação
Gravações de unidade por dia (DWPD) 0.42 DWPD com 16K R/W
Garantia 5 Anos

Além disso, empregamos o uso da unidade Solidigm D61.44-P5 de 5336 TB

Especificação Solidigm D5-P5336 61.44 TB
Capacidade 61.44TB
Leitura / Gravação Sequencial Até 7 GB/s de leitura/3 GB/s de gravação
Leitura aleatória de 4K/gravação de 16K IOPS Até 1 milhão de leitura de IOPS / gravação de 42.6 mil IOPS
Gravações de unidade por dia (DWPD) 0.58 DWPD com 16K R/W
Garantia 5 Anos

Nosso principal interesse é ter um conjunto de dados abrangente que permita a aplicação de técnicas computacionais avançadas, como aprendizado de máquina e IA, para descobrir padrões e insights que podem ser perdidos na análise manual ou nos métodos tradicionais. Manter essas subestruturas também prepara a pesquisa para o futuro, permitindo o reprocessamento com tecnologias em evolução. É também um registro histórico de estudos de longo prazo e esforços colaborativos, tornando-o um recurso inestimável.

Abordagem inovadora da StorageReview

Fomos além dos limites que abrangem a computação de ponta e sua importância, e não apenas para mercados típicos, como casos de uso industrial e de varejo. Levar nosso kit a locais remotos e documentar todas as fases da captura e compilação de imagens astrofotográficas nos ajuda a entender como a IA nos beneficia em muitos aspectos diferentes da vida. Você pode se lembrar do nosso Análise do Extreme Edge do ano passado, onde montamos nosso equipamento no deserto para capturar o céu noturno sem nos preocupar com a luz artificial afetando nossas imagens.

Na tentativa de ultrapassar os limites da astrofotografia, especialmente nos limites onde o armazenamento de alta capacidade e a eficiência computacional são fundamentais, uma nova abordagem à desconvolução de imagens está a revolucionar a nossa capacidade de capturar o cosmos com uma clareza sem precedentes. Para atingir esse objetivo, introduzimos uma arquitetura inovadora de rede neural convolucional (CNN) que reduz significativamente os artefatos tradicionalmente associados aos processos de desconvolução de imagens.

O principal desafio da astrofotografia reside no combate às distorções introduzidas pela interferência atmosférica, aos erros de montagem e orientação e às limitações do equipamento de observação. A óptica adaptativa mitigou esses problemas, mas seu alto custo e complexidade deixam muitos observatórios em apuros. A desconvolução de imagens, o processo de estimar e reverter os efeitos da função de dispersão de pontos (PSF) para esclarecer imagens, é uma ferramenta crítica no arsenal do astrônomo. No entanto, algoritmos tradicionais como Richardson-Lucy e desconvolução estatística frequentemente introduzem artefatos adicionais, prejudicando a fidelidade da imagem.

Conheça a solução inovadora proposta em colaboração com Vikramaditya R. Chandra: uma arquitetura CNN personalizada projetada explicitamente para restauração de imagens astronômicas. Esta arquitetura não apenas estima o PSF com notável precisão, mas também aplica um algoritmo de deconvolução Richardson-Lucy aprimorado por técnicas de aprendizagem profunda para minimizar a introdução de artefatos. Nossa pesquisa demonstra um desempenho superior em relação às metodologias existentes, treinando este modelo em imagens que capturamos e do Hubble Legacy Archive, apresentando um caminho claro para imagens astronômicas livres de artefatos.

No centro desta arquitetura está uma abordagem de fase dupla: inicialmente, uma rede neural convolucional estima o PSF, que é então usado em um algoritmo de Richardson-Lucy modificado para desconvolver a imagem. A segunda fase emprega outra CNN profunda, treinada para identificar e eliminar artefatos residuais, garantindo que a imagem de saída permaneça tão fiel quanto possível ao objeto astronômico original. Isso é conseguido sem o uso de técnicas de simplificação excessiva, como o desfoque gaussiano, que também pode introduzir efeitos indesejados, como “toque”.

A importância deste modelo vai além de suas aplicações imediatas na astrofotografia. Para a computação de ponta, onde o poder de processamento e a capacidade de armazenamento são escassos, a eficiência e a eficácia desta nova arquitetura CNN prometem uma nova era de imagens de alta fidelidade. A capacidade de processar e armazenar grandes quantidades de dados ópticos na borda abre novas possibilidades de pesquisa, permitindo análises em tempo real e tomada de decisões em campanhas de observação em toda a indústria.

Imagens legadas do Hubble, desfoque artificial (esquerda), vs. processamento CNN (direita)

O avanço nas técnicas de desconvolução realizadas em nosso laboratório marca um momento crucial na geração de imagens de todos os tipos. Ao alavancar de forma inovadora a aprendizagem profunda, estamos prestes a desbloquear o potencial adicional de uma imagem digital, aqui demonstrado pela captura do universo com clareza e precisão anteriormente reservadas apenas para as configurações mais sofisticadas. Estamos treinando esse modelo em nosso laboratório há algum tempo, então fique atento para um relatório completo em breve.

O que isso significa para a astrofotografia

O avanço de uma nova arquitetura de rede neural convolucional (CNN) para restauração de imagens astronômicas em relação às técnicas tradicionais de desconvolução marca um desenvolvimento fundamental na astrofotografia. Ao contrário dos métodos convencionais, que muitas vezes introduzem artefatos como ruído e imagens fantasmas, a abordagem da CNN minimiza esses problemas, garantindo imagens celestes mais claras e precisas.

Esta técnica aumenta a clareza da imagem e permite a extração de dados mais precisos de observações astronômicas. Ao aproveitar o aprendizado profundo, melhoramos significativamente a fidelidade da astrofotografia, abrindo caminho para insights mais profundos sobre o cosmos com comprometimento mínimo no processamento de imagens.

Dois casos de uso de inferência em pesquisa científica acelerada por IA baseada em Edge

Os métodos de tratamento e processamento de dados desempenham um papel fundamental na investigação científica, particularmente em domínios que exigem extensa captura e análise de dados, como a astrofotografia. Decidimos analisar dois casos de uso comuns de inferência que utilizam soluções de armazenamento Solidigm de alta capacidade e infraestrutura computacional avançada fornecida pela Dell para gerenciar e interpretar os vastos conjuntos de dados gerados na borda.

Caso 1: Abordagem Sneaker Net

A abordagem Sneaker Net é um método consagrado de transferência de dados que envolve a captura de dados localmente em dispositivos de armazenamento de alta capacidade e, em seguida, o transporte físico desses meios de armazenamento para um data center central ou instalação de processamento. Este método lembra os primeiros dias da computação, onde os dados eram movidos manualmente devido à falta ou lentidão das conexões de rede. Na investigação científica acelerada por IA baseada na borda, esta abordagem pode ser benéfica em cenários onde a transmissão de dados em tempo real é dificultada por limitações de largura de banda ou conectividade à Internet não fiável.

O principal benefício da abordagem Sneaker Net reside na sua simplicidade e confiabilidade. SSDs de alta capacidade podem armazenar grandes quantidades de dados, garantindo que grandes conjuntos de dados possam ser transportados com segurança sem conectividade contínua com a Internet. Este método é especialmente vantajoso em ambientes remotos ou desafiadores onde a astrofotografia ocorre com frequência, como áreas remotas e selvagens, longe dos serviços convencionais de Internet.

Contudo, a abordagem Sneaker Net também tem limitações significativas. O mais óbvio é o atraso no processamento e análise de dados, uma vez que o transporte físico leva tempo, impedindo potenciais insights que poderiam ser derivados dos dados. Também existe um risco maior de perda ou danos de dados durante o transporte. Além disso, este método não aproveita o potencial de análise e tomada de decisões em tempo real que a edge computing pode proporcionar, perdendo potencialmente insights e intervenções oportunas.

Caso 2: Inferência de Borda

A inferência de borda representa uma abordagem mais moderna para o tratamento de dados em pesquisa científica, particularmente adequada às necessidades de projetos acelerados por IA. Este processo envolve a captura de dados em campo e a utilização de um servidor de borda equipado com NVIDIA L4, para executar inferência de primeira passagem. Este método permite a análise imediata dos dados à medida que são gerados, permitindo a tomada de decisões em tempo real e ajustes rápidos nas estratégias de captura de dados com base em descobertas preliminares.

Os servidores de borda são projetados para operar em condições desafiadoras frequentemente encontradas em pesquisas de campo, fornecendo o poder computacional necessário para IA e algoritmos de aprendizado de máquina diretamente na fonte de dados. Esta capacidade é crucial para tarefas que requerem análise imediata de dados, como a identificação de fenómenos astronómicos específicos em vastos conjuntos de dados capturados durante sessões de astrofotografia.

As vantagens da inferência de arestas são múltiplas. Reduz significativamente a latência no processamento de dados, permitindo insights e ajustes instantâneos. Esta análise em tempo real pode melhorar a qualidade e a relevância dos dados recolhidos, tornando os esforços de investigação mais eficientes e eficazes. A inferência de borda também reduz a necessidade de transmissão de dados, conservando a largura de banda para comunicações essenciais.

No entanto, a inferência de arestas também apresenta desafios. A configuração inicial e a manutenção da infraestrutura de edge computing podem ser complexas e dispendiosas, exigindo investimentos significativos em hardware e software. Há também a necessidade de conhecimento especializado para gerenciar e operar sistemas de computação de ponta de maneira eficaz.

Além disso, embora a inferência de borda reduza as necessidades de transmissão de dados, ainda requer um método para armazenamento de dados a longo prazo e análise adicional, necessitando de uma abordagem híbrida que combine processamento local com análise central de dados. Graças ao aprimoramento das tecnologias de computação, armazenamento e GPU, esses desafios estão se tornando menos problemáticos.

Tanto a abordagem Sneaker Net quanto a inferência de borda oferecem métodos valiosos para gerenciar os vastos conjuntos de dados gerados em pesquisas científicas aceleradas por IA baseadas em borda. A escolha entre estes métodos depende dos requisitos específicos do projeto de pesquisa, incluindo a necessidade de análise em tempo real, a disponibilidade de recursos computacionais no campo e as considerações logísticas de transporte de dados. À medida que a tecnologia avança, o potencial para soluções inovadoras para estes desafios promete aumentar ainda mais a eficiência e a eficácia da investigação científica na periferia.

Condições ambientais extremas

Em nosso compromisso constante de ampliar os limites da tecnologia e compreender seus limites, embarcamos em uma jornada de testes exclusiva com o servidor Dell PowerEdge XR7620 e os SSDs Solidigm QLC. Vale ressaltar que aventurar-se fora dos parâmetros operacionais especificados de qualquer tecnologia não é recomendado e pode anular garantias ou, pior, levar à falha do equipamento. Porém, por uma questão de curiosidade científica e para compreender verdadeiramente a robustez do nosso equipamento, procedemos com cautela.

Nossos testes para este projeto foram conduzidos no rigoroso inverno, com temperaturas caindo para -15°C ou menos em meio a uma tempestade de neve implacável. Essas condições estão muito além do ambiente operacional normal para a maioria dos equipamentos eletrônicos, especialmente hardware de servidor sofisticado e SSDs projetados para tarefas com uso intensivo de dados. O objetivo foi avaliar o desempenho e a confiabilidade do servidor e do armazenamento diante do frio e da umidade extremos que tais condições climáticas apresentam.

Notavelmente, tanto o servidor quanto os SSDs funcionaram sem problemas. Não houve efeitos adversos em sua operação, nem corrupção de dados, nem mau funcionamento de hardware. Este desempenho excepcional sob tais condições de teste diz muito sobre a qualidade de construção e resiliência destes dispositivos. O Dell PowerEdge XR7620, com seu design robusto, e os SSDs Solidigm, com sua tecnologia avançada, provaram ser capazes de resistir aos estresses ambientais que vão muito além dos limites aconchegantes de um data center.

Embora demonstre a durabilidade e a confiabilidade do equipamento, este teste não deve ser visto como um endosso à operação do seu hardware fora das especificações recomendadas. Foi um experimento controlado projetado para explorar os limites do que esses dispositivos podem suportar. Nossas descobertas reafirmam a importância de escolher hardware durável e de alta qualidade para aplicações críticas, especialmente em cenários de computação de ponta, onde as condições podem ser imprevisíveis e longe do ideal.

Pensamentos de Encerramento

Estamos apaixonados pelos SSDs empresariais de alta capacidade desde que o QLC NAND chegou ao mercado de uma forma significativa. A maioria das cargas de trabalho não exige tanta gravação quanto a indústria acredita; isso é ainda mais verdadeiro em relação à coleta de dados na periferia. A coleta de dados de borda e os casos de uso de inferência apresentam um conjunto de desafios totalmente diferente.

Assim como o caso de uso de astrofotografia que articulamos aqui, eles geralmente são limitados de alguma forma em comparação com o que seria encontrado no data center. Tal como acontece com o nosso esforço de investigação e IA de ponta, o servidor Dell tem apenas quatro compartimentos, pelo que a necessidade de maximizar esses compartimentos para capturar os nossos dados é crítica. Semelhante a outros usos de borda que examinamos, como condução autônoma, a capacidade de capturar mais dados sem parar é vital.

A conclusão de nossa exploração das aplicações exclusivas de SSDs empresariais de alta capacidade, especialmente da tecnologia QLC NAND, ressalta uma mudança fundamental na forma como abordamos a coleta e o processamento de dados na borda. Os SSDs que utilizamos em nossos testes destacam-se como particularmente interessantes devido às suas métricas de capacidade e desempenho, permitindo novas possibilidades de pesquisa que antes eram limitadas pelas capacidades de armazenamento.

Nossa jornada pelas complexidades da coleta de dados de borda e casos de uso de inferência, encapsulados pelo projeto de astrofotografia, revela uma compreensão diferenciada das necessidades de armazenamento além do data center. Em projetos como este, onde cada byte de dado capturado, um fragmento do cosmos, tem valor. Entre as restrições climáticas e de tempo, o luxo de conjuntos de armazenamento expansivos e racks e mais racks de equipamentos nem sempre está disponível.

Este cenário não é exclusivo da astrofotografia, mas é refletido em várias aplicações de computação de ponta e disciplinas de pesquisa. Aqui, capturar e analisar grandes quantidades de dados em tempo real é fundamental. Para muitas indústrias, interromper o descarregamento de dados é um luxo que não pode ser concedido nem justificado. Os SSDs resolvem esse dilema com suas capacidades de armazenamento expansivas. Permitem longos períodos de recolha de dados sem paragens frequentes para descarregar dados, garantindo assim a continuidade e integridade do processo de investigação.

Esses SSDs de alta capacidade abrem novas fronteiras de pesquisa ao oferecer suporte aos requisitos de uso intensivo de dados de IA e algoritmos de aprendizado de máquina diretamente na borda. Esta capacidade é crucial para processamento e inferência de dados em tempo real, permitindo insights e ações imediatas com base nos dados coletados. Seja refinando os parâmetros para captura de dados com base em análises preliminares ou aplicando algoritmos complexos para filtrar o ruído celestial para descobertas astronômicas, o papel desses SSDs não pode ser exagerado.

Os SSDs Solidigm não são apenas soluções de armazenamento, mas facilitadores de inovação. Representam um salto em frente na abordagem aos desafios únicos da computação de ponta, facilitando esforços de investigação que ultrapassam os limites do que é possível. A importância de soluções de armazenamento robustas, eficientes e de alta capacidade só aumentará à medida que continuarmos a explorar a vastidão do espaço e as complexidades do nosso mundo através de investigação científica acelerada por IA baseada na borda. Estas tecnologias não apoiam apenas as atuais necessidades de investigação; eles antecipam o futuro, estabelecendo as bases para futuras descobertas.

Solidigm IA

Este relatório é patrocinado pela Solidigm. Todas as visões e opiniões expressas neste relatório são baseadas em nossa visão imparcial do(s) produto(s) em consideração.

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed