Início EmpreendimentoAI SSDs KIOXIA E1.S tornam os fluxos de trabalho de IA mais eficientes

SSDs KIOXIA E1.S tornam os fluxos de trabalho de IA mais eficientes

by Jordan Ranous

Embora haja um entusiasmo significativo em torno de servidores GPU densos para IA, e com razão, a realidade é que a maioria dos projetos de treinamento de IA começa em estações de trabalho. Embora agora possamos agrupar até quatro GPUs NVIDIA A6000 Ada em uma única estação de trabalho, o mais desafiador é obter armazenamento robusto nessas caixas de IA. Pensamos sobre esse problema e elaboramos um plano para fornecer da melhor forma algumas estações de trabalho de IA com armazenamento de alta velocidade. Trabalhamos com a Supermicro e a KIOXIA para preencher um servidor com 24 SSDs XD7.68P de 7 TB para criar um servidor de armazenamento de 1U incrivelmente capaz com um truque de inferência na manga.

Embora haja um entusiasmo significativo em torno de servidores GPU densos para IA, e com razão, a realidade é que a maioria dos projetos de treinamento de IA começa em estações de trabalho. Embora agora possamos agrupar até quatro GPUs NVIDIA A6000 Ada em uma única estação de trabalho, o mais desafiador é obter armazenamento robusto nessas caixas de IA. Pensamos sobre esse problema e elaboramos um plano para fornecer da melhor forma algumas estações de trabalho de IA com armazenamento de alta velocidade. Trabalhamos com a Supermicro e a KIOXIA para preencher um servidor com 24 SSDs NVMe de data center da série XD7.68P de 7 TB para criar um servidor de armazenamento de 1U incrivelmente capaz com um truque de inferência na manga.

Sabemos o que você está pensando: como você pretende conectar os pontos entre uma plataforma de servidor repleta de SSDs E1.S, estações de trabalho que treinam modelos de IA e inferência no mesmo servidor de armazenamento? Permita um pouco de liberdade para explicar.

As estações de trabalho de IA não precisam ficar embaixo de uma mesa

Com algumas exceções, estações de trabalho de IA de alta potência com GPUs caras provavelmente não deveriam ser distribuídas na borda ou mesmo dentro de um prédio de escritórios. Os problemas são muitos. Principalmente, esses endpoints correm alto risco de ameaças à segurança e vazamento de dados e, mais importante, sofrem de subutilização. A maioria dos profissionais de IA não consegue acessar a grande quantidade de dados necessários para treinar seus modelos devido a configurações inadequadas de LAN.

Se, por outro lado, colocássemos estas poderosas estações de trabalho no data center, obteríamos agora vários benefícios. Primeiro, a segurança física é resolvida e as preocupações de acesso remoto podem ser mitigadas com thin clients ou acesso que apenas envia pixels em vez de dados pela rede. Neste cenário, os dados residem no servidor e não na estação de trabalho. Em segundo lugar, o backup desses sistemas no data center é mais rápido, se não mais fácil. Terceiro, com o provisionamento inteligente, podemos aumentar a utilização em toda a empresa, partilhando estes sistemas com uma força de trabalho distribuída de IA. Por último, estar no data center nos dá acesso ao ativo de IA mais precioso: os dados.

Fornecemos um trio de estações de trabalho Lenovo que tínhamos no laboratório para este trabalho. Cada um é configurado de maneira um pouco diferente, aproveitando as GPUs AMD e NVIDIA, proporcionando flexibilidade, pois alguns modelos podem ter melhor desempenho em aceleradores diferentes. Cada sistema possui uma placa NVIDIA ConnectX-6 100GbE instalada, o que é fundamental para garantir que esses sistemas tenham acesso rápido ao armazenamento. Cada sistema se conecta a um switch Dell Z9100 100 GbE, ao qual o serviço de armazenamento também está conectado.

Parte Estação de trabalho 1 Estação de trabalho 2 Estação de trabalho 3
Modelo Lenovo P620 Lenovo P620 Lenovo P5
CPU AMD Ryzen Threadripper PRO 5995WX AMD Ryzen Threadripper PRO 3995WX Intel Xeon w7-2495X
Memória 128GB DDR4 3200 32GB DDR4 3200 32GB DDR5 4800Mhz
GPU AMD Radeon PRO W7900 Nvidia RTX A6000 Nvidia RTX A4500

Armazenamento rápido de IA com SSDs da série KIOXIA XD7P

Com o ambiente de teste da estação de trabalho de IA classificado, voltamo-nos para o servidor de armazenamento. Neste caso, estamos usando um Superservidor de armazenamento Supermicro SSG-121E-NES24R. Este servidor 1U possui processadores duplos Intel Xeon Platinum 8450H com 28 núcleos e 56 threads com uma frequência base de 2.00 GHz. Os processadores 8450H podem atingir uma frequência turbo máxima de 3.50 GHz, apresentando um cache de 75 MB e um TDP de 250 W. Os 512 GB de RAM DDR5 ocupam um espaço de RAM relativamente modesto. O servidor usa a mesma NIC NVIDIA ConnectX-6 100GbE que as estações de trabalho para conectividade. Também instalamos uma GPU NVIDIA A2 para inferência.

No que diz respeito ao armazenamento, a KIOXIA nos enviou 24 SSDs NVMe para data center da série XD7P. Os SSDs E7.S da série KIOXIA XD1P são projetados especificamente para atender às necessidades de aplicativos de hiperescala encontrados em data centers modernos, especialmente em relação ao desempenho, eficiência de energia e requisitos térmicos, conforme descrito pela especificação Open Compute Project (OCP) Datacenter NVMe SSD.

Esses SSDs estão disponíveis em variações E9.5.S de 15 mm e 1 mm de espessura, com o último apresentando um dissipador de calor para melhorar a dissipação de calor. A arquitetura proprietária do XD7P da KIOXIA, que compreende seu controlador, firmware e 5th-gen BiCS FLASH™ contribui para a eficiência, confiabilidade e desempenho geral. A nova série é oferecida em capacidades que variam de 1.92 TB a 7.68 TB para atender às diversas demandas de armazenamento.

Alguns recursos principais incluem proteção contra perda de energia (PLP) e proteção de dados ponta a ponta, que são essenciais para manter a integridade dos dados em cenários que envolvem perda inesperada de energia. Além disso, a disponibilidade da tecnologia de unidade com criptografia automática (SED) adiciona uma camada extra de segurança de dados.

Em relação ao desempenho, os SSDs da série KIOXIA XD7P oferecem números potenciais impressionantes em diferentes capacidades. Com velocidades de leitura sequencial sustentadas de até 7,200 MB/s e velocidades de gravação sequencial de até 4,800 MB/s para capacidades maiores, esses SSDs foram projetados para lidar com tarefas com uso intensivo de dados de maneira eficiente. Além disso, as velocidades sustentadas de leitura e gravação aleatórias de até 1,650 mil IOPS e 200 mil IOPS, respectivamente, os tornam adequados para cargas de trabalho que exigem operações de alta E/S.

O XD7P aproveita o formato E1.S para atingir um equilíbrio único entre desempenho e densidade. Isso posiciona as novas unidades como uma solução inovadora para armazenamento flash em data centers em nuvem e em hiperescala, atendendo aos requisitos em evolução desses ambientes exigentes. O tamanho padronizado e os dissipadores de calor integrados do XD7P fornecem um meio eficiente de acomodar nossos 24 drives montados na frente no SuperServer SSG-1E-NES121R de 24U, aumentando significativamente a densidade do servidor. Além disso, a capacidade de troca a quente do E1.S, juntamente com sua capacidade de lidar com cargas de trabalho de alto desempenho sem preocupações térmicas, posiciona-o como um substituto prático para o conector M.2 em data centers, com maior eficiência e desempenho para soluções de armazenamento como data centers. .

O XD7P suporta pistas PCIe Gen4 x4. A unidade funciona bem com backplanes Gen4 ou Gen5.

Especificações rápidas da série KIOXIA XD7P

Capacidade 7,680 GB 3,840 GB 1,920 GB 7,680 GB 3,840 GB 1,920 GB
Especificações básicas
Fator de Forma E1.S 15mm E1.S 9.5mm
Interface PCIe 5.0, NVMe 2.0
Tipo de Memória Flash BICS FLASH TLC
Desempenho (até)
Leitura sequencial sustentada de 128 KiB 7,200MB / s
Gravação sequencial sustentada de 128 KiB 4,800MB / s 3,100MB / s 4,800MB / s 3,100MB / s
Leitura aleatória sustentada de 4 KiB IOPS 1,550K IOPS 1,650K IOPS 1,500K IOPS 1,550K IOPS 1,650K IOPS 1,500K
Gravação aleatória sustentada de 4 KiB IOPS 200K IOPS 180K IOPS 95K IOPS 200K IOPS 180K IOPS 95K
Requisitos de potência
Tensão de alimentação 12 V ± 10%
Consumo de Energia (Ativo) 20 W tipo. 20 W tipo. 16 W tipo. 20 W tipo. 20 W tipo. 16 W tipo.
Consumo de Energia (Pronto) 5 W tipo.
Confiabilidade
MTTF 2,000,000 horas
DWPD 1

Desempenho do servidor de armazenamento com SSDs da série KIOXIA XD7P

Para entender melhor o desempenho dessa combinação, começamos testando o servidor de armazenamento com testes internos de desempenho. Ao observar o desempenho do servidor de armazenamento, focamos no desempenho bruto total em uma configuração JBOD no Ubuntu Linux para caracterizar do que o armazenamento é capaz.

Analisamos a taxa de transferência máxima com uma carga de trabalho aleatória de 4K e, em seguida, a largura de banda máxima com uma carga de trabalho sequencial de 64K. Esses testes foram executados aproveitando o VDbench em um ambiente Ubuntu 22.04.

Carga de trabalho Leia Escreva
64K sequencial, carga de 64 threads 158GB / s 64.1GB / s
4K aleatório, carga de 512 threads 4.09 milhões de IOPS, 16 GB/s 4.5 milhões de IOPS, 17.7 GB/s

Em nossa configuração experimental, decidimos usar os Espaços de Armazenamento do Windows em combinação com o protocolo SMB3 para aproveitar as unidades KIOXIA de alta velocidade. Ao aproveitar os Espaços de Armazenamento para criar um pool de armazenamento espelhado resiliente, conseguimos garantir a integridade dos dados e otimizar o desempenho de E/S.

Os recursos aprimorados do SMB3, como recursos multicanal e identificadores persistentes, permitem o streaming direto de grandes blocos de dados com alto rendimento para várias estações de trabalho GPU, contornando os gargalos tradicionais frequentemente associados à memória mais lenta e vinculada à CPU. Essa configuração teve a dupla vantagem de permitir a recuperação rápida de dados e, ao mesmo tempo, permitir que várias estações de trabalho acessassem e carregassem dados simultaneamente de e para nosso armazenamento compartilhado com tecnologia KIOXIA.

Embora nossos testes anteriores tenham medido o desempenho bruto dos SSDs da série KIOXIA XD7P sem um sistema de arquivos instalado, demos uma segunda olhada no desempenho no ambiente Windows Server 2022. Nesta configuração, com o disco virtual espelhado instalado em nosso grande pool de armazenamento, usamos o sistema de arquivos NTFS.

Para confirmar o forte desempenho de nosso volume espelhado, utilizamos o CrystalDiskMark localmente no servidor. Este teste foi configurado para medir o desempenho de leitura e gravação sequencial com tamanho de transferência de 1 MB, bem como velocidades de transferência aleatórias de 4K. Aqui, com uma pegada de arquivo de 64 GB, medimos 87.4 GB/s de leitura e mais de 18.4 GB/s de gravação.

Neste artigo, estamos analisando as capacidades gerais de toda a solução de IA, portanto, embora ter esse tipo de perfil de desempenho seja impressionante, a KIOXIA está claramente nos dando mais do que precisamos. Isso é bom, pois significa que poderíamos facilmente aumentar o número de estações de trabalho de IA ou atribuir tarefas adicionais ao servidor de armazenamento, seja limpar e limpar nossos dados ou algo totalmente diferente.

Alimentando estações de trabalho de IA com armazenamento abundante de alta velocidade

Com nossas estações de trabalho GPU localizadas no rack do laboratório, conectadas em rede com 100 GbE ao nosso servidor de arquivos 1U totalmente flash baseado em KIOXIA e com compartilhamentos configurados, partimos para testar isso na prática. Em nossa configuração de teste, optamos por um link básico único de 100 GbE de cada estação de trabalho para nosso switch Dell Z9100 100 GbE, que então se conectou de volta ao servidor de armazenamento com outro link de 100 GbE.

Aqui conseguimos medir impressionantes 11.4 GB/s de leitura e 11 GB/s de gravação de um compartilhamento de arquivos do Windows em nosso servidor de armazenamento KIOXIA.

Esse nível de desempenho e densidade através da conexão com as estações de trabalho de IA proporcionará um valor tremendo. Em vez de tentar preencher as estações de trabalho de IA com armazenamento local, podemos compartilhar armazenamento com ainda mais desempenho acima de 100 GbE, com capacidade mais ou menos ilimitada.

GenAI na prática - conjuntos de dados de treinamento LLM

Large Language Models (LLMs) são os garotos mais populares no setor de TI atualmente. Treiná-los e ajustá-los é uma tarefa gigantesca que requer conjuntos de dados monumentais e potência de GPU ainda maior para processá-los. Para carregar algumas estações de trabalho GPU e fazer alguns testes de estilo no mundo real, coletamos todos os envios de texto e comentários do Reddit de 2012 a 2021 com alguns ajustes, bem como o Conjunto de dados de treinamento Stanford Alpaca, ao Modelo LLaMa para múltiplas tentativas de ajuste fino. O objetivo foi avaliar a eficiência, precisão e viabilidade do modelo LLaMa quando submetido a conjuntos de dados do mundo real em grande escala.

Da plataforma Windows Server 2022, os 24 SSDs da série KIOXIA XD7P foram agrupados em um pool de 168 TB e depois em um volume espelhado de 83.7 TB. Esse volume foi então compartilhado pela rede de 100 GbE com um compartilhamento de arquivos para cada uma das três estações de trabalho para aproveitamento. O servidor de armazenamento Supermicro Superserver usado pode lidar com um tamanho de dados que preenche todo o volume de 84 TB sem afetar o desempenho. O tamanho de dados atual usado é de 5.6 TB, mas o volume pode suportar um tamanho muito maior.

Cada estação de trabalho GPU foi configurada de maneira ligeiramente diferente para fornecer um ambiente diversificado. Tratamos cada máquina como se fosse um desenvolvedor individual trabalhando com diferentes modelos em um conjunto de dados compartilhado e não distribuímos nenhum treinamento. A seleção do Windows neste contexto foi para emular um cenário inicial de pesquisa ou desenvolvimento.

Para contextualizar a escala de dados com os quais estamos lidando, nossos conjuntos de dados para este teste incluíam 16,372 arquivos para dados de treinamento LLM, consumindo 3.7 TB de espaço em disco, e outros 8,501 arquivos para dados de treinamento de imagem, ocupando 1.9 TB. No total, trabalhamos com 24,873 arquivos totalizando 5.6 TB. É importante observar que restringimos deliberadamente o tamanho dos nossos conjuntos de dados e não utilizamos toda a capacidade de armazenamento para esses experimentos; caso contrário, o processo de formação ou aperfeiçoamento teria sido proibitivo em termos de tempo para este projecto. Com esta configuração, todas as estações de trabalho puderam compartilhar os conjuntos de dados e salvar pontos de verificação e fragmentos no servidor para colaboração.

Arquivos Tamanho no disco
Dados de treinamento LLM 16,372 3.7TB
Dados de treinamento de imagem 8,501 1.9TB
Total 24,873 5.6TB

A pilha de software para ambos os nossos experimentos era uma configuração simples e contamos com o poder do Jibóia e subsistema Windows para Linux (WSL). O Anaconda fornece um ambiente robusto para gerenciar nossas bibliotecas e dependências de aprendizado de máquina baseadas em Python, permitindo uma configuração modular e facilmente replicável em nossas estações de trabalho GPU. WSL ajuda a preencher a lacuna entre os utilitários baseados em Windows e Linux, oferecendo a flexibilidade para executar ferramentas de orquestração e manipulação de dados específicas do Linux perfeitamente em nossas estações de trabalho Windows. Poderíamos executar scripts de shell para pré-processamento de dados e iniciar trabalhos de treinamento baseados em Python, tudo dentro de um fluxo de trabalho unificado. Parte do motivo pelo qual selecionamos essa rota não foi apenas a facilidade de configuração, mas também para nivelar o campo de jogo com nosso ambiente de GPU misto.

No processo de treinamento, algumas observações importantes foram feitas:

  1. Diversidade de dados: o amálgama de envios e comentários do Reddit, abrangendo quase uma década, apresentou ao modelo uma mistura eclética de tópicos, léxicos e contextos de conversação. Esta rica diversidade proporcionou uma plataforma abrangente para o modelo compreender e adaptar-se a várias nuances, sentimentos e mudanças culturais ao longo do tempo.
  2. Escalabilidade do modelo: Lidar com um volume tão imenso de dados foi um teste decisivo para a escalabilidade do modelo LLaMa. Descobrimos que à medida que as épocas de treinamento aumentaram, a capacidade do modelo de prever e gerar respostas relevantes melhorou consideravelmente, destacando o seu potencial para aplicações em larga escala. O overfitting foi uma preocupação depois de cerca de meia dúzia, mas não foi necessariamente uma preocupação para este teste, já que o objetivo era carregar mais nossas GPUs e compartilhamento de rede do que criar um modelo LLM geral.
  3. Otimização de recursos: Dada a monumental potência necessária da GPU, era crucial garantir a utilização eficiente dos recursos computacionais. Balanceamento de carga dinâmico, pontos de verificação periódicos e técnicas de aumento de dados em tempo real foram empregados para garantir o desempenho ideal.
  4. Potência de aprendizagem por transferência: o uso do conjunto de dados de treinamento Stanford Alpaca em conjunto com os dados do Reddit foi fundamental para avaliar as capacidades de aprendizagem por transferência do modelo. A estrutura inerente e a natureza acadêmica do conjunto de dados Alpaca, justapostas à natureza informal e variada dos dados do Reddit, representaram um desafio emocionante. Os resultados indicaram que o LLaMa poderia integrar perfeitamente o conhecimento de fontes díspares, tornando-o versátil e adaptável.
  5. Considerações Éticas: Embora o vasto conjunto de dados do Reddit ofereça um tesouro de informações, é essencial garantir que as informações de identificação pessoal sejam excluídas e que os dados sejam usados ​​de forma ética e responsável. Seria necessário implementar processos rigorosos de limpeza e anonimato de dados para a publicação do modelo, a fim de preservar a privacidade do usuário.

Este exercício destacou o papel fundamental que os drives de alta densidade da KIOXIA desempenharam no aumento da eficiência do nosso treinamento. Dado o tamanho colossal dos conjuntos de dados e a natureza iterativa do treinamento do modelo, a velocidade e a capacidade de armazenamento costumam ser gargalos em tais experimentos. Com as unidades KIOXIA, tivemos o luxo de armazenar múltiplas instâncias do conjunto de dados, pesos de modelos intermediários e dezenas de pontos de verificação ajustados. Suas rápidas velocidades de leitura e gravação facilitaram a recuperação rápida de dados, permitindo-nos processar múltiplas iterações do ajuste fino com diferentes hiperparâmetros em paralelo, conforme ilustrado abaixo.

Isso foi crucial em nossa busca para identificar um ponto de verificação de funcionamento ideal. Graças ao nosso servidor de armazenamento recém-construído com tecnologia KIOXIA, pudemos nos concentrar em refinar o modelo, ajustar parâmetros e avaliar resultados, em vez de ficarmos limitados por limitações de armazenamento. As unidades de alta densidade, portanto, não eram apenas uma solução de armazenamento, mas um ativo essencial que acelerou significativamente a nossa fase de experimentação. Isso permitiu uma exploração mais completa e eficiente do potencial do modelo LLaMa e nos permitiu desenvolver nossa própria rede neural convolucional (CNN).

Para os não iniciados, uma rede neural convolucional (CNN) é um tipo especializado de arquitetura de aprendizagem profunda usada predominantemente em processamento de imagens e tarefas de visão computacional. Sua característica distinta reside nas camadas convolucionais que aprendem de forma automática e adaptativa hierarquias espaciais de recursos a partir de imagens de entrada. Ao contrário das redes neurais tradicionais que dependem de camadas totalmente conectadas, as CNNs aproveitam a estrutura espacial dos dados aplicando filtros convolucionais, que processam os dados de entrada em pequenos pedaços ou campos receptivos. Isso resulta em uma rede que pode detectar padrões complexos, como bordas, texturas e estruturas mais complexas, construindo a partir de padrões mais simples. À medida que os dados avançam mais profundamente na rede, esses padrões se tornam mais abstratos, permitindo que as CNNs reconheçam e classifiquem hierarquicamente entidades visuais diversas e muitas vezes complicadas.

Através de múltiplas tentativas de ajuste fino, o modelo demonstrou a sua capacidade de processar conjuntos de dados massivos de forma eficiente e destacou o seu potencial para produzir resultados relevantes, sensíveis ao contexto e diferenciados. À medida que os LLMs continuam a ganhar força, tais experiências oferecem informações valiosas sobre as suas aplicações práticas e limitações, abrindo caminho para soluções de IA mais sofisticadas e centradas no utilizador no futuro.

Capacidades de inferência de servidor

A execução de operações de inferência no mesmo conjunto de dados oferece uma estrutura simplificada, simplificando as complexidades do gerenciamento de dados. Nosso servidor não é apenas uma ferramenta de armazenamento: ele está equipado para lidar com atividades relacionadas a inferências, incluindo ingestão e preparação de dados.

Para testar a inferência em conjuntos de dados maiores, selecionamos um conjunto de imagens astrofotográficas variando de aproximadamente 1Mb a 20Mb e rodamos uma nova CNN na qual estamos trabalhando contra elas. Em nosso cenário, o modelo é carregado na GPU e, em seguida, uma imagem ou série de imagens é carregada para processamento através da rede neural.

Este é um perfil de espaço de armazenamento mais amplo do que você encontraria em algo como uma classificação de objetos de visão computacional de uma câmera padronizada. Ainda assim, ilustrou a flexibilidade e consistência do desempenho da plataforma. No gráfico abaixo, que é classificado por tamanho e não pela ordem em que foi carregado (com exceção de alguns valores discrepantes), os tempos de leitura e write-back são dimensionados adequadamente.

É importante lembrar que este gráfico é classificado do menor para o maior para ilustrar o desempenho linear das unidades e do servidor. A execução real e o conjunto de dados foram randomizados, de modo que poderia ter havido um arquivo de 1 MB lido e gravado, seguido imediatamente por um arquivo de 20 MB. O tipo de processamento real não estava em uma ordem específica. Os tempos de leitura variaram de 10ms a 25ms, com valores discrepantes atingindo a faixa de 70ms+.

O gráfico abaixo ilustra a gravação de uma progressão linear semelhante com menos desvio e mostra as gravações dos mesmos arquivos variando de 12ms a 118ms.


Outra informação essencial a lembrar é que este gráfico é um agregado do rastreamento de três estações de trabalho GPU executando simultaneamente uma inferência para o mesmo conjunto de dados. As unidades KIOXIA foram capazes de fornecer e gravar impressionantes 10.5 GB em três estações de trabalho GPU executando inferência em um conjunto de dados aleatório de 1000 imagens, excluindo o processamento serializado que o modelo usa. Todo o processo levou apenas 59.62 segundos, ou 59 ms, para ler e gravar uma única imagem.

Várias opções podem melhorar a velocidade e a latência à medida que esse design é dimensionado para várias estações de trabalho ou servidores GPU. A implementação do armazenamento GPUDirect da NVIDIA, combinado com o protocolo RDMA (Remote Direct Memory Access), facilitaria a movimentação contínua de dados do armazenamento compartilhado de alta densidade diretamente para a memória da GPU. Essa abordagem contornaria efetivamente os gargalos da CPU e da memória do sistema. Ao aproveitar NVMe em vez de Fabrics e equipamentos de rede NVIDIA, grandes volumes de dados podem ser pré-carregados na memória da GPU quase em tempo real. Isto seria particularmente benéfico quando se lida com LLMs, dados os seus consideráveis ​​conjuntos de dados e exigências computacionais. Tal capacidade poderia eliminar a necessidade de armazenamento em cache de dados e permitiria que múltiplas estações de trabalho lessem e ingerissem dados do pool de armazenamento compartilhado simultaneamente.

Considerações Finais

Resolver o gargalo de E/S de modelos maiores é crucial para a evolução contínua do aprendizado de máquina, especialmente ao lidar com conjuntos de dados expansivos. Um compartilhamento de rede centralizado e de alta velocidade oferece uma vantagem tripla em relação ao armazenamento local tradicional.

  • Primeiro, ele simplifica as operações, eliminando a necessidade de migrar grandes conjuntos de dados para estações de trabalho individuais para treinamento. Isso combate diretamente os gargalos de E/S que podem prejudicar os projetos de aprendizado de máquina, especialmente aqueles que envolvem modelos de aprendizado profundo.
  • Em segundo lugar, ao optar por uma abordagem centralizada, você evita sobrecarregar as valiosas pistas PCIe da estação de trabalho com quantidades excessivas ou mesmo inatingíveis de armazenamento local. Graças à conexão de alta velocidade, isso poderia permitir que mais GPUs processassem dados em paralelo com mais eficiência, tornando as operações de aprendizado de máquina mais enxutas e ágeis.
  • Terceiro, o armazenamento centralizado traz inerentemente melhores medidas de segurança. Quando os dados são armazenados em um local único e seguro, fica mais fácil gerenciar controles de acesso e implementar protocolos de segurança, reduzindo o risco de violações de dados, ameaças físicas ou acesso não autorizado.

Além disso, a centralização dos dados garante maior consistência dos dados e uma camada adicional de redundância de dados. As estações de trabalho acessam os dados mais atualizados de uma única fonte, minimizando discrepâncias nos resultados devido a treinamento desatualizado ou inconsistente ou ajuste fino de dados ou pontos de verificação de modelo. Isso também simplifica o gerenciamento de dados e economiza espaço de armazenamento.

À medida que a escalabilidade, a eficiência e a segurança se tornam cada vez mais importantes no cenário em evolução hipersónica da IA ​​e da aprendizagem automática, a mudança para o armazenamento centralizado, denso e de alta velocidade fornecido por tecnologias como a plataforma KIOXIA E1.S apresenta um caso convincente. Isto é fundamental não apenas para melhorar o desempenho, mas também para uma transformação fundamental na forma como abordamos o gerenciamento de dados e o treinamento de modelos.

Folha de especificações do data center KIOXIA XD7P série E1.S NVMe

Este relatório é patrocinado pela KIOXIA America, Inc. Todas as visões e opiniões expressas neste relatório são baseadas em nossa visão imparcial do(s) produto(s) em consideração.

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed