Início EmpreendimentoAI Quantum Myriad: arquitetura moderna para qualquer carga de trabalho, especialmente IA

Quantum Myriad: arquitetura moderna para qualquer carga de trabalho, especialmente IA

by Brian Beeler

Quantum Myriad é uma plataforma SDS moderna e flexível, capaz de lidar com uma ampla variedade de cargas de trabalho, incluindo tarefas exigentes de IA.

Em 2023, a Quantum lançou uma abordagem nova e moderna de armazenamento definido por software com Myriad. Concluímos um mergulhe profundamente na miríade no final do ano passado e ficamos impressionados com sua arquitetura extremamente capaz e resiliente. O conjunto diversificado de recursos e a flexibilidade de protocolo da Myriad expandem o escopo de seus casos de uso além das necessidades corporativas de compartilhamento de arquivos. E não há aplicação com mais demanda no momento do que a IA.

miríade quântica de nós apertados

A IA está transformando fundamentalmente o cenário empresarial, trazendo novos insights para a tomada de decisões, automatizando processos complexos e criando novas maneiras para as empresas interagirem com os clientes e gerenciarem as operações. Aqui estão algumas áreas principais onde a IA está causando impacto:

Automação: a IA automatiza tarefas rotineiras e propensas a erros, como entrada de dados e suporte ao cliente com chatbots, e até encontra maneiras de otimizar processos complexos, como o gerenciamento da cadeia de suprimentos. Isso economiza tempo e permite que as pessoas se concentrem em tarefas mais criativas ou estratégicas.

Análise de Dados: ele vasculha enormes pilhas de dados para encontrar padrões e insights mais rápido do que qualquer ser humano conseguiria. Isso ajuda as empresas a tomar decisões mais inteligentes, prever tendências de mercado e compreender melhor seus clientes.

personalização: as empresas usam IA para adaptar seus serviços e marketing a clientes individuais, como mecanismos de recomendação que aprendem o que um usuário gosta conforme visto no Netflix ou no Spotify.

Segurança aprimorada: A IA é um grande ator na segurança cibernética, ajudando a detectar e responder a ameaças instantaneamente. Está sempre em guarda, procurando por qualquer coisa suspeita.

Inovação: A IA impulsiona a inovação ajudando a desenvolver novos produtos e serviços — desde medicamentos a novos materiais — simulando todos os aspectos do design, aparência e manutenção de um produto. Pode até prever resultados antes dos testes físicos de medicamentos.

Os desafios da escalabilidade e flexibilidade

Os sistemas de armazenamento legados muitas vezes não conseguem escalar de forma eficiente, uma capacidade crucial para aplicações de IA que geram e processam grandes volumes de dados. O armazenamento tradicional pode exigir tempo de inatividade significativo ou atualizações complexas e configuração e alocação de rede para aumentar a capacidade. Isso não é viável em ambientes dinâmicos de IA, que exigem escalabilidade rápida, tempo de inatividade zero e implantação de modelo sem perda de desempenho.

Cargas de trabalho de IA também exigem alto rendimento e baixa latência simultaneamente. Os sistemas legados, geralmente equipados com unidades mecânicas e redes desatualizadas, não conseguem atender a esses requisitos de velocidade, levando a gargalos que impedem as operações de IA. A IA moderna se beneficia dramaticamente de tecnologias mais rápidas, como NVMe e aceleração de GPU, e estas são muitas vezes incompatíveis com sistemas mais antigos.

Os aplicativos de IA exigem acesso e análise de dados em tempo real de fontes variadas. O armazenamento legado, muitas vezes isolado, dificulta a integração e a movimentação de dados, limitando a análise de dados e o aprendizado de máquina eficazes. As ferramentas de gerenciamento legadas também enfrentam dificuldades com a governança de dados complexa e a classificação automatizada em níveis necessária para a IA.

A manutenção e as atualizações do armazenamento legado também são caras e ineficientes para as demandas de IA, incluindo altos custos operacionais de energia, refrigeração e espaço. A modernização de sistemas antigos para suportar novas tecnologias é economicamente insustentável.

A IA prospera com recursos modernos de armazenamento, como classificação automatizada por níveis, análises em tempo real e medidas de segurança robustas, como criptografia. Os sistemas legados não possuem essas capacidades críticas, que são essenciais para proteger os dados de IA e atender aos padrões regulatórios.

A modernização das infraestruturas de gestão e armazenamento de dados é vital para aproveitar o potencial transformador da IA. As soluções de armazenamento de próxima geração projetadas para complexidades de IA podem melhorar significativamente o desempenho, a escalabilidade e a eficiência de custos, promovendo aplicações e modelos de negócios inovadores.

Conheça a Miríade Quântica

O Quantum Myriad é uma solução de armazenamento totalmente flash definida por software e de alto desempenho, projetada para atender às demandas de aplicativos modernos, especialmente aqueles que exigem alto rendimento e baixa latência. Isto é especialmente verdadeiro para IA, ciência de dados, efeitos visuais e animação. A arquitetura nativa da nuvem da Myriad oferece flexibilidade, facilidade de implantação e respostas automáticas às mudanças do sistema, seja no local ou em um ambiente de nuvem pública como a AWS.

O design da Myriad se concentra em fornecer baixa latência consistente e alta largura de banda. Essas qualidades são absolutamente essenciais para aplicações que exigem processamento de dados extremamente rápido e desempenho em tempo real.

A arquitetura do Myriad é altamente flexível e acomoda facilmente implantações pequenas e grandes. É fácil começar com um sistema pequeno e depois desenvolver um cluster Myriad. À medida que você adiciona mais nós, ele aumenta linearmente, mantendo a eficiência e o equilíbrio.

Gerenciar clusters com Myriad é simples. Ele vem com recursos como expansões de armazenamento sem clique e um portal de gerenciamento fácil de usar, que ajudam a reduzir a necessidade de atenção administrativa constante. O Myriad cobre a integridade dos dados com um armazenamento transacional de chave-valor espalhado por seus nós e a correção de erros é gerenciada em todos os nós de armazenamento disponíveis.

Myriad vem com suporte de rede impressionante. Com suporte para RDMA sobre Ethernet Convergente (RoCE) e integração com implantações de rede existentes por meio de roteamento BGP, os dados podem fluir facilmente para dentro e para fora do cluster Myriad enquanto aproveitam os recursos avançados de rede.

O Myriad foi projetado para ser fácil de usar e requer etapas mínimas para configurar e executar ou adicionar locais de compartilhamento extras. Isso o torna perfeito para empresas que precisam se adaptar rapidamente às mudanças nas necessidades de armazenamento, especialmente porque a solução é executada em servidores padrão e prontos para uso. Além disso, se você está de olho na nuvem, o Myriad funciona bem com plataformas como AWS para que você possa ir além da configuração local.

Configuração Quantum Myriad conforme testada

O Quantum Myriad testado era uma configuração básica de cinco nós. Cada nó foi equipado com dez SSDs de 15 TB, totalizando uma quantidade significativa de armazenamento de acesso rápido em todo o cluster. Essa configuração básica permitiu uma capacidade substancial de armazenamento de dados, mantendo a velocidade necessária para operações de alta E/S e recuperação rápida de dados – tudo essencial para processamento em tempo real e cálculos de IA. Os nós de armazenamento são especificados e configurados pela SuperMicro e as unidades NVMe estão prontamente disponíveis na Samsung.

Conforme testado, usamos uma plataforma Myriad configurada em um cluster de 5 nós, cada um com as seguintes especificações principais:

  • Nó de armazenamento Quantum Myriad N1010 com uma única CPU AMD EPYC de 64 núcleos
  • 10 x 15.36 TB NVMe TLC
  • 2 x portas Ethernet 100GbE de porta dupla

Parte integrante do Myriad são os nós do balanceador de carga implantados em um par redundante conectado entre todos os nós de armazenamento. Eles são essenciais para gerenciar o tráfego de dados de e para os nós de armazenamento. O par de balanceadores de carga garante que o tráfego da rede seja distribuído uniformemente entre os nós de armazenamento, evitando que qualquer nó único se torne um gargalo. Onde o acesso e o processamento simultâneo de dados são necessários, isso é extremamente importante em ambientes onde a velocidade e a confiabilidade do acesso aos dados podem impactar significativamente o desempenho geral do sistema.

O uso de vários nós e balanceadores de carga aumenta o desempenho e aumenta a confiabilidade e a tolerância a falhas do sistema. Distribuir o armazenamento e a carga da rede permite que o sistema continue operando com eficiência mesmo se um nó encontrar problemas. Essa configuração é essencial para manter o tempo de atividade e garantir a integridade dos dados em aplicativos comerciais críticos.

A configuração básica foi projetada para ser flexível e pode ser ampliada adicionando mais nós de armazenamento conforme necessário. Você pode expandir sua capacidade de armazenamento incorporando nós adicionais, usando unidades NVMe mais densas ou ambos. Por exemplo, você pode adicionar um novo nó de armazenamento equipado com unidades de 30 TB a um sistema que atualmente usa unidades de 15 TB ou pode atualizar para módulos de unidade mais densos dentro do espaço existente. Essa escalabilidade é essencial para empresas que esperam ver um crescimento em suas necessidades de dados ou experimentar padrões variáveis ​​de uso de dados.

Servidores de geração de carga GPU Comino

Para exercitar o sistema Myriad e gerar nossos benchmarks, usamos um par de sistemas Comino Grando. Os sistemas Comino Grando são configurações de alto desempenho com refrigeração líquida projetadas especificamente para maximizar a eficiência e estabilidade da GPU sob carga. Eles são particularmente adequados para tarefas computacionais intensas, como aquelas encontradas em IA, análise de dados e aplicativos com uso intensivo de gráficos. Aqui está um resumo dos principais aspectos que configuramos para este teste:

Grande Servidor Estação de trabalho Grando
CPU Threadripper Pro W5995WX Threadripper Pro 3975WX
Carneiro RAM 512GB RAM 512GB
GPU 2X NVIDIA A100 2X NVIDIA A100
NIC 4x NVIDIA ConnectX 6 200G EN/IB 4x NVIDIA ConnectX 6 200G EN/IB
PSU 4 fontes de alimentação de 1600 W 3x fonte de alimentação 1000 SFX-L
Armazenamento 2 TB NVMe 2 TB NVMe

O Comino Grando utiliza um sofisticado sistema de refrigeração líquida para o processador e GPUs, que inclui conexões sem gotejamento e um grande bloco de distribuição de água que gerencia eficientemente o fluxo do líquido refrigerante para manter o desempenho mesmo sob cargas extenuantes. Esta configuração melhora o desempenho e minimiza o ruído.

Com o nvidia-smi top -mp O comando exibe o mapeamento de GPU e NIC em nosso sistema e os caminhos que os dados devem seguir. Aqui está a lenda:

X = Eu 
SYS = Conexão que atravessa PCIe, bem como a interconexão SMP entre nós NUMA (por exemplo, QPI/UPI) 
NODE = Conexão que atravessa PCIe, bem como a interconexão entre PCIe Host Bridges dentro de um nó NUMA 
PHB = Conexão passando por PCIe e também por PCIe Host Bridge (normalmente a CPU) 
PXB = Conexão atravessando várias pontes PCIe (sem atravessar o PCIe Host Bridge) 
PIX = Conexão atravessando em a maioria uma única ponte PCIe

A partir daqui, podemos dizer que não gostaríamos de usar GPU1 com NIC4 e NIC5 para obter desempenho ideal, embora isso desempenhe um papel limitado em nossos testes sintéticos.

Testes de IA quântica

Conduzimos uma análise técnica para avaliar o desempenho do cluster de armazenamento Quantum Myriad e seu impacto nas cargas de trabalho de IA do mundo real. Nossa análise se concentrou na capacidade do cluster de otimizar a utilização de recursos e escalar de forma eficaz. Ao longo destes testes, empregamos estações de trabalho em rack Comino de última geração equipadas com NICs NVIDIA ConnectX-6 200GbE e duas GPUs NVIDIA A100. Estes são cruciais porque representam um ambiente de testes robusto semelhante ao que pode ser empregado em projetos de IA em grande escala.

Aproveitamos um script de shell simples para ajudar a criar scripts de teste GDS e analisar a saída. Arte ASCII para pontos de estilo

O objetivo principal desses testes foi avaliar a capacidade do cluster Quantum Myriad de lidar com operações intensivas de IO e quão bem ele pode acomodar o rendimento de GPUs de alta capacidade, que são essenciais para cálculos de IA. Dado que as cargas de trabalho de IA dependem fortemente do rápido processamento de conjuntos de dados, a capacidade de uma solução de armazenamento fornecer dados em velocidades que correspondam às capacidades de processamento da GPU impacta diretamente a eficiência e o desempenho geral do sistema.

Nossa principal ferramenta de teste aqui foi GPUDirect Storage I/O (GDSIO) da NVIDIA. GPUDirect é uma tecnologia essencial projetada para aprimorar a eficiência de transferência de dados entre sistemas de armazenamento e GPUs, simplificando fluxos de trabalho essenciais em computação de alto desempenho, inteligência artificial e análise de big data.

Essa tecnologia permite acesso direto à memória (DMA) do armazenamento diretamente para a memória da GPU, ignorando a CPU. Isso elimina cópias desnecessárias de dados, o que reduz a latência e melhora o rendimento. GDSIO é a implementação sintética do GPUDirect e é particularmente representativo de aplicações que requerem processamento rápido de grandes conjuntos de dados. Isso inclui treinamento de modelo de aprendizado de máquina ou análise de dados em tempo real. Ele também fornece feedback de criação de perfil e ajuste para infraestrutura de armazenamento e rede.

No contexto de benchmarking de armazenamento, o GDSIO desempenha um papel crucial na avaliação precisa do desempenho de soluções de armazenamento em ambientes que utilizam intensamente GPUs. Ao fornecer um caminho mais direto para transferência de dados, o GDSIO permite benchmarking para medir o verdadeiro potencial dos sistemas de armazenamento no suporte a aplicativos acelerados por GPU.

Configuração de compartilhamento AI

Ao fazer login no Myriad, o usuário recebe um painel que mostra uma visão geral de alto nível do desempenho e das especificações atuais do cluster. Os usuários podem visualizar facilmente dados de telemetria como IOPS, taxa de transferência, latência e uso.

Passar o mouse sobre qualquer um dos gráficos fornece informações de desempenho altamente detalhadas.

Olhando para a tela Sistema de arquivos, os pontos de montagem atualmente configurados para compartilhamentos podem ser visualizados intuitivamente.

A página Nós é interessante, pois mostra o mapa físico do cluster, controlador e balanceadores de carga, junto com a atividade da porta e drives NVMe.

Clicar em qualquer uma das unidades mostra o status relatado pelo host.

Indo para Compartilhamentos, os usuários podem configurar facilmente os compartilhamentos conforme necessário e obter instruções para montá-los em vários sistemas operacionais.

Trabalhamos com a Quantum para configurar um compartilhamento NFS dedicado para nossos testes. Estes foram montados em /mnt/myriad/

Isso foi conseguido usando a interface de usuário amigável do Myriad, que oferece uma configuração simples de apontar e clicar. Durante o período de testes, a opção SMB estava em Acesso Antecipado, enquanto o NFS continuou sendo o protocolo preferido para nossas máquinas de carga de trabalho baseadas em Linux.

Nosso ponto de montagem NFS foi configurado para 500 TB de espaço, mas você pode usar o que precisar expandindo o sistema de arquivos. Você pode provisionar armazenamento em excesso livremente, sem penalidades e sem limites rígidos de dimensionamento. Isso se torna muito interessante quando você considera a compactação de dados do Myriad, que essencialmente reduz o espaço ocupado pelos dados nos SSDs NVMe.

Com um ponto de montagem por host, cada GPU possui sua própria subpasta, usando sua própria NIC para evitar uma limitação do NFSv4.

Resultados e análises da Quantum Myriad AI

Primeiro, vamos dar uma olhada no desempenho geral de uma de nossas execuções de loadgen. Esta amostra da perspectiva de armazenamento de uma GPU representa o desempenho que pudemos ver em todos os nós/GPUs.

Tipo de E/S Tamanho de E/S (KiB) Taxa de transferência (GiB/s) Latência média (usecs) Operações
RANDWRITE 1024 2.57 10,087.74 78,820
Randread 1024 6.92 2,277.86 209,319
RANDWRITE 4096 3.44 18,193.14 56,616
Randread 4096 3.64 6,481.70 73,715
RANDWRITE 4 0.03 2,307.57 237,512
Randread 4 0.12 497.05 941,971
ESCREVA 1024 2.79 5,609.64 94,017
LER 1024 3.11 5,021.91 95,556
ESCREVA 4096 2.77 22,551.26 31,716
LER 4096 3.50 17,875.32 31,871
ESCREVA 4 0.08 812.93 580,169
LER 4 0.12 507.34 926,909

Os resultados dos testes revelam insights significativos sobre o desempenho da Myriad em diversas operações e tamanhos de IO. Algumas de nossas descobertas incluem:

  • Desempenho de blocos pequenos e grandes: Os testes mostram uma diferença marcante na taxa de transferência e na latência ao lidar com tamanhos de bloco pequenos (4 KiB) e grandes (1024 KiB e 4096 KiB). Por exemplo, operações RANDREAD de blocos grandes a 4096 KiB demonstraram o maior rendimento de aproximadamente 9.64 GiB/s, com uma latência média relativamente mais baixa de 6,481.70 microssegundos. Isso indica excelente desempenho para tarefas de processamento de dados em larga escala, comuns no treinamento de modelos de aprendizado de máquina, onde grandes conjuntos de dados são acessados ​​com frequência.
  • Capacidade de saturação de GPU: O rendimento alcançado durante testes de blocos grandes, especialmente para operações RANDREAD, sugere que o cluster de armazenamento Myriad é bastante capaz de apoiar as GPUs NVIDIA A100 em cargas de trabalho do tipo recuperação de inferência e de descarregar pontos de verificação para um local central durante cargas de trabalho de treinamento. Dado que o A100 pode lidar com grandes quantidades de dados para aprendizagem profunda, as altas taxas de transferência são essenciais para garantir que estas GPUs não fiquem ociosas à espera de dados, maximizando assim a eficiência computacional.
  • Manuseio de tamanho de bloco baixo: Por outro lado, ao examinar operações com blocos de 4 KiB, observamos um aumento dramático na contagem e na latência das operações, com uma queda significativa na taxa de transferência. Este cenário é fundamental para compreender o desempenho em ambientes onde ocorrem diversas transações de arquivos pequenos, como em sistemas de processamento de transações on-line ou bancos de dados que lidam com inúmeras consultas pequenas.

Mas espere, tem mais!

Focando nos testes de 4K, as coisas tomaram um rumo interessante à medida que carregamos o Myriad com mais GPUs. Devido às limitações do protocolo de montagem, conforme descoberto nas execuções iniciais durante a fase de descoberta, o Myriad estava se comportando conforme planejado, mas com uma reviravolta surpreendente. À medida que carregamos o Myriad em todas as GPUs simultaneamente, graças a alguns hacks de script, os resultados foram impressionantes. A Myriad forneceu essencialmente o mesmo desempenho para todos os nós simultaneamente.

Tamanho do arquivo 4K

Aqui está uma compilação de cinco execuções simultâneas da carga de trabalho 4K:

Node Tipo de E/S Taxa de transferência (MiB/seg) Latência média (usecs) Operações
1 Randread 125.73 497.05 941,971
2 Randread 121.29 506.67 907,642
3 Randread 128.37 474.73 906,847
4 Randread 122.93 487.88 966,441
Leitura aleatória total 498.31 491.58 3,722,901
1 RANDWRITE 27.08 2,307.57 237,512
2 RANDWRITE 26.88 2,285.62 231,625
3 RANDWRITE 26.10 2,406.89 228,983
4 RANDWRITE 28.27 2,341.65 245,172
Gravação Aleatória Total 108.34 2,335.43 943,292
1 LER 123.19 507.34 926,909
2 LER 125.69 511.23 900,136
3 LER 123.90 502.04 945,949
4 LER 123.77 502.36 948,850
Leitura total 496.54 505.74 3,721,844
1 ESCREVA 76.87 812.93 580,169
2 ESCREVA 80.17 839.88 551,311
3 ESCREVA 78.62 783.24 556,060
4 ESCREVA 73.40 811.62 597,226
Gravação total 309.06 811.92 2,284,766

Tamanho do arquivo de 4 MB

Node Tipo de E/S Taxa de transferência (GiB/s) Latência média (usecs) Operações
1 Randread 3.44 6,481.70 73,715
2 Randread 3.97 6802.17 75,689
3 Randread 3.83 6498.16 73,277
4 Randread 3.50 6,589.43 70,443
Leitura aleatória total 14.75 6,593 293,124
1 RANDWRITE 3.44 18,193.14 56,616
2 RANDWRITE 3.4048 19090.38 54,725
3 RANDWRITE 3.4349 18125.25 56,277
4 RANDWRITE 3.5084 17018.30 54,397
Gravação Aleatória Total 13.78 18,107 222,015
1 LER 3.50 17,875.32 31,871
2 LER 3.4388 17110.93 31,119
3 LER 3.5133 18124.53 31,096
4 LER 3.3035 17755.53 31,257
Leitura total 13.75 17,717 125,343
1 ESCREVA 2.77 22,551.26 31,716
2 ESCREVA 2.8845 23674.69 33,017
3 ESCREVA 2.7008 22661.31 30,971
4 ESCREVA 2.7719 22798.83 29,519
Gravação total 11.13 22,922 125,223

A arquitetura de armazenamento exclusiva do Quantum Myriad oferece acessibilidade dupla que beneficia tanto as operações da GPU quanto as atividades simultâneas do usuário sem perda de desempenho. Isso é particularmente eficaz em ambientes de alta demanda, onde são necessários acesso e processamento simultâneos de dados, semelhante a uma comunidade de usuários de IA e servidores de aprendizado de máquina e acesso de analistas de usuários finais. Ao oferecer suporte à acessibilidade de grandes blocos de dados para GPUs junto com outras operações do usuário, o Myriad garante a utilização eficiente de recursos e evita gargalos. Isto é crucial para manter altas velocidades operacionais e precisão de dados em aplicações como análise em tempo real e treinamento de modelos de IA.

É importante notar aqui que o truque do Quantum Myriad é sua capacidade de lidar habilmente com vários fluxos de dados até as limitações do NFSv4, que podem ser facilmente atingidas sob cargas intensas de GPU. Os sofisticados recursos de gerenciamento de dados do sistema evitam que esses limites afetem o desempenho geral da plataforma Myriad, garantindo que tarefas de GPU de alta demanda não atrasem outras operações na mesma rede. Esse recurso é particularmente benéfico para setores que exigem recursos robustos de processamento de dados sem sacrificar o desempenho de tarefas simultâneas, oferecendo suporte a um fluxo de trabalho contínuo para todos os usuários.

Implicações e escalabilidade no mundo real

O Quantum Myriad tem potencial para trabalhar facilmente com aplicativos do mundo real e cenários de escalabilidade. Sua capacidade de lidar com grandes tamanhos de blocos com alto rendimento e baixa latência beneficia cargas de trabalho de IA, incluindo o treinamento de modelos de aprendizagem profunda onde grandes conjuntos de dados são processados ​​em lotes. O alto rendimento garante a alimentação de dados nas GPUs sem demora, o que é crucial para manter a alta utilização e o aprendizado eficiente.

Outra característica essencial é a escalabilidade. O desempenho do cluster de armazenamento Quantum Myriad em nossos testes sugere que ele pode suportar com eficiência configurações maiores. À medida que o número de dispositivos conectados (por exemplo, GPUs adicionais ou outras unidades de computação de alto desempenho) aumenta, o sistema de armazenamento parece ser capaz de manter altos níveis de entrega de dados sem se tornar um gargalo.

O desempenho do cluster de armazenamento Quantum Myriad durante operações RANDREAD de blocos grandes foi especialmente notável durante nossos testes. Esse recurso é fundamental ao considerar as necessidades das estruturas modernas de IA e aprendizado de máquina.

O teste RANDREAD, com seu rendimento significativo, demonstra a capacidade da Myriad de recuperar grandes volumes de dados de forma rápida e eficiente. Isto se torna particularmente importante no contexto de cargas de trabalho de inferência, onde a velocidade com que os dados podem ser acessados ​​impacta diretamente o desempenho dos modelos de IA em ambientes de produção. As tarefas de inferência, que muitas vezes exigem acesso rápido a grandes conjuntos de dados para a tomada de decisões em tempo real, beneficiam-se imensamente dos recursos de recuperação de dados em alta velocidade exibidos pelo cluster Myriad. Por exemplo, em aplicações como reconhecimento de imagem em tempo real ou mecanismos de decisão complexos que conduzem sistemas automatizados, a capacidade de extrair grandes blocos de dados com latência mínima garante que os mecanismos de inferência possam operar com eficiência máxima sem perder tempo com os dados.

Durante a fase de testes, o Myriad demonstrou robustez no tratamento de dados de pontos de verificação durante cargas de trabalho de treinamento, o que é tão importante quanto o desempenho do cluster durante operações de gravação. O treinamento de modelos modernos de IA, especialmente redes de aprendizagem profunda, envolve processos iterativos onde os pontos de verificação são cruciais. Esses pontos de verificação, que representam o estado do modelo em uma iteração específica, precisam ser salvos periodicamente para garantir que o progresso não seja perdido e que os modelos possam ser efetivamente ajustados sem retreinamento do zero. O Myriad descarrega com eficiência grandes operações de gravação no cluster de armazenamento, reduzindo o tempo de E/S e permitindo que as GPUs se concentrem na computação em vez de na manipulação de dados.

A arquitetura da Myriad garante que, à medida que as demandas de dados aumentam, seja devido ao aumento do tamanho dos conjuntos de dados ou aos requisitos de treinamento de modelos mais complexos, o sistema pode ser dimensionado adequadamente, sem criar gargalos, tempo de inatividade ou perda de conectividade do usuário. Esta escalabilidade é essencial numa era em que as cargas de trabalho de IA e de aprendizagem automática estão a evoluir rapidamente, exigindo soluções de armazenamento que acompanhem as exigências atuais e sejam preparadas para o futuro contra os avanços futuros na investigação e desenvolvimento de IA.

Conclusão

O cluster de armazenamento Quantum Myriad apresenta desempenho excepcional no gerenciamento de diversas e exigentes operações de E/S. É uma solução versátil para cargas de trabalho empresariais tradicionais e aplicações de IA de ponta. Graças ao seu alto rendimento e baixa latência, os recursos do Myriad vão além das tarefas tradicionais de armazenamento de dados que são cruciais para manter operações tranquilas e recuperação eficiente de dados.

Além desses usos convencionais, as características robustas de desempenho do Myriad o tornam um candidato ideal para as demandas mais intensas dos fluxos de trabalho de IA. Aqui, o cluster se destaca em cenários que exigem acesso rápido a dados e processamento de alta velocidade, vitais para o treinamento de modelos sofisticados de aprendizado de máquina e para a execução de redes neurais complexas. A capacidade de ler e gravar rapidamente grandes volumes de dados compartilhados pode aumentar a utilização da GPU e garantir que os cálculos de IA possam ser realizados sem demora.

Este teste abrangente do cluster Myriad serve como uma referência crucial para a compreensão de sua escalabilidade e desempenho em ambientes que combinam necessidades tradicionais de TI e de negócios com as altas demandas de pesquisa e desenvolvimento de IA. Os resultados destacam a capacidade técnica da Myriad e o seu potencial para facilitar aplicações de IA de alto risco e projetos de aprendizagem automática, sublinhando a sua adaptabilidade e eficiência num amplo espectro de tarefas computacionais. Tais capacidades confirmam o papel da Myriad como uma tecnologia fundamental que apoia as empresas à medida que elas navegam pelas necessidades atuais e pelos cenários tecnológicos futuros.

Página do produto Quantum Myriad

Este relatório é patrocinado pela Quantum. Todas as visões e opiniões expressas neste relatório baseiam-se na nossa visão imparcial do(s) produto(s) em consideração.

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed