Na era da IA generativa, foram criados mais dados do que nunca. Solidigm oferece uma solução para muitos desafios na moderna fábrica de IA.
Não é nenhum segredo que amamos a enorme densidade dos SSDs Solidigm 61.44 TB U.2 NVMe. Conduzimos vários testes de resistência e desempenho, fizemos descobertas científicas e elevamos os cálculos do recorde mundial a novos e extraordinários patamares. Portanto, com a mania da IA surgindo em um ritmo alucinante ao nosso redor, o próximo passo lógico era ver como os drives Solidigm NVMe se comparam no mundo dinâmico da AI 2024.
Compreendendo os benefícios da densidade extrema de armazenamento
Os SSDs QLC de 61.44 TB da Solidigm se destacam por sua notável capacidade de armazenamento, permitindo que os data centers agrupem mais armazenamento em menos unidades. Essa densidade extrema é especialmente vantajosa em servidores de IA, onde os conjuntos de dados crescem exponencialmente e soluções de armazenamento eficientes são fundamentais. Usando esses SSDs de alta capacidade, os data centers podem reduzir o número de unidades físicas, diminuir o espaço ocupado, reduzir o consumo de energia e simplificar a manutenção.

Vista frontal do Lenovo ThinkSystem SR675 V3 mostrando Solidigm SSD
Faixas PCIe limitadas em servidores GPU
Um dos principais desafios nos servidores GPU modernos é o número limitado de pistas PCIe disponíveis depois que as GPUs recebem sua parte. Críticas para cargas de trabalho de IA, as GPUs exigem largura de banda PCIe substancial, muitas vezes deixando faixas limitadas para outros componentes, incluindo dispositivos de armazenamento e rede. Esta restrição torna essencial otimizar o uso das pistas PCIe disponíveis. Os SSDs QLC de 61.44 TB da Solidigm oferecem uma solução, fornecendo enorme capacidade de armazenamento em uma única unidade, reduzindo a necessidade de várias unidades e conservando pistas PCIe para GPUs e outros componentes essenciais.
Vista interna superior do gabinete da unidade Lenovo ThinkSystem SR675 V3
Cargas de trabalho e requisitos de armazenamento de IA
As cargas de trabalho de IA podem ser amplamente categorizadas em três fases: preparação de dados, treinamento e ajuste fino e inferência. Cada fase tem requisitos de armazenamento exclusivos, e os SSDs de alta capacidade da Solidigm podem melhorar significativamente o desempenho e a eficiência nessas fases. A implantação de drives QLC de alta capacidade, como o Solidigm D5-P5336, beneficia todas as cargas de trabalho de IA. A maioria dos benefícios passa da preparação de dados ao treinamento e do ajuste fino à inferência.
Preparação de dados
A preparação de dados é a base de qualquer projeto de IA e envolve coleta, limpeza, transformação e aumento de dados. Esta fase requer armazenamento extensivo, pois os conjuntos de dados brutos podem ser enormes. Os SSDs QLC de 61.44 TB da Solidigm podem armazenar dados brutos expansivos sem comprometer o desempenho. Além disso, as altas velocidades de leitura e gravação sequencial desses SSDs garantem acesso rápido aos dados, acelerando o processo de preparação. Para preparação de dados, os SSDs Soidigm QLC de 61.44 TB atendem a todas as demandas descritas acima com benefícios como:
- Grande capacidade de armazenamento: Manipulação eficiente de grandes conjuntos de dados.
- Altas velocidades sequenciais: Acesso e processamento rápido de dados.
- Latência reduzida: Atrasos minimizados na recuperação de dados, melhorando a eficiência do fluxo de trabalho.
Treinamento e ajuste fino
O treinamento de modelos de IA é um processo intensivo que envolve alimentar extensos conjuntos de dados em redes neurais para ajustar pesos e tendências. Esta fase é computacionalmente exigente e requer altas IOPS (operações de entrada/saída por segundo) e armazenamento de baixa latência para acompanhar as rápidas trocas de dados entre o armazenamento e as GPUs. Os SSDs da Solidigm se destacam nesse quesito, oferecendo alto desempenho e durabilidade. A extrema densidade desses SSDs permite que conjuntos de dados mais extensos sejam usados no treinamento, levando potencialmente a modelos mais precisos. Para atender às demandas de treinamento e ajuste, os SSDs Solidigm oferecem o seguinte:
- Alto IOPS: Suporta trocas rápidas de dados essenciais para o treinamento.
- Durabilidade: Tecnologia QLC otimizada para cargas de trabalho pesadas de leitura/gravação, ideal para ciclos de treinamento repetidos.
- Escalabilidade: Expanda o armazenamento sem adicionar unidades físicas, mantendo o uso eficiente de pistas PCIe.
Inferência
Depois de treinados, os modelos de IA são implantados para fazer previsões ou decisões com base em novos dados, conhecidos como inferência. Esta fase geralmente requer acesso rápido a dados pré-processados e tratamento eficiente do aumento de solicitações de leitura. Os SSDs QLC de 61.44 TB da Solidigm fornecem o desempenho de leitura necessário e baixa latência para garantir que as operações de inferência sejam realizadas de maneira suave e rápida. Os SSDs Solidigm excedem o desempenho e a baixa latência, oferecendo os seguintes benefícios:
- Desempenho de leitura rápida: Garante acesso rápido aos dados para inferência em tempo real.
- Baixa latência: Crítico para aplicações que exigem respostas imediatas.
- Alta capacidade: Armazene dados de inferência extensos e resultados históricos com eficiência.
A tecnologia QLC oferece benefícios significativos para aplicativos de inferência, incluindo alta capacidade de armazenamento, eficiência de custos, velocidades de leitura rápidas, utilização eficiente de PCIe, durabilidade e maior eficiência do fluxo de trabalho. Essas vantagens melhoram coletivamente o desempenho, a escalabilidade e a economia das tarefas de inferência, tornando os drives QLC uma escolha ideal para implantações modernas de IA e aprendizado de máquina.
Por que é importante obter um grande armazenamento o mais próximo possível da GPU?
Para IA e aprendizado de máquina, a proximidade do armazenamento com a GPU pode impactar significativamente o desempenho. Projetar um data center de IA requer consideração cuidadosa de vários fatores para garantir funcionalidade e eficiência ideais. É por isso que é crucial ter um armazenamento extenso que esteja o mais próximo possível da GPU. Como exploramos recentemente, o acesso a uma solução considerável de armazenamento conectado à rede está começando a se transformar em uma ferramenta única, mas depender apenas dela pode nem sempre ser a escolha ideal.
Latência e largura de banda
O principal motivo para colocar amplo armazenamento próximo à GPU é minimizar a latência e maximizar a largura de banda. As cargas de trabalho de IA, especialmente durante o treinamento, envolvem transferências frequentes e massivas de dados entre o armazenamento e a GPU. A alta latência pode atrapalhar todo o processo, retardando o tempo de treinamento e reduzindo a eficiência.
Em cargas de trabalho de IA, onde a rápida disponibilidade de dados é crítica, a baixa latência garante que as GPUs recebam os dados prontamente, reduzindo os tempos de inatividade e melhorando a eficiência computacional geral. Durante a fase de treinamento, grandes volumes de dados precisam ser continuamente alimentados na GPU para processamento. Ao minimizar a latência, o DAS garante que as demandas de alta velocidade dos aplicativos de IA sejam atendidas, resultando em tempos de treinamento mais rápidos e fluxos de trabalho mais eficientes.
Visão interna das GPUs Lenovo ThinkSystem SR675 V3
Taxa de transferência de dados e desempenho de E/S
Os SSDs NVMe locais são excelentes no tratamento de um grande número de operações de entrada/saída por segundo (IOPS), o que é crucial para a natureza intensiva de leitura/gravação das cargas de trabalho de IA. Durante a fase de formação, os modelos de IA requerem acesso rápido a vastos repositórios de dados, necessitando de soluções de armazenamento que possam acompanhar a elevada procura de transações de dados.
Vista de ângulo superior das GPUs NVIDIA L40S
O Solidigm D5-P5336, projetado para cenários de alta capacidade e alto desempenho, oferece IOPS excepcionais, permitindo processos de gravação e recuperação de dados mais rápidos. Esse recurso garante que as GPUs permaneçam ocupadas com a computação em vez de esperar pelos dados, maximizando assim a eficiência e reduzindo o tempo de treinamento. O alto desempenho de IOPS dos SSDs NVMe locais os torna ideais para ambientes exigentes de aplicativos de IA, onde o acesso e o processamento rápidos de dados são essenciais para um desempenho ideal.
Gestão de dados
Embora em alguns cenários, ter amplo armazenamento conectado diretamente à GPU simplifique o gerenciamento de dados, isso adiciona uma camada necessária de gerenciamento de dados para preparar os dados no servidor GPU. Em um mundo perfeito, sua GPU está ocupada processando e sua CPU está indo para a rede para salvar pontos de verificação ou obter novos dados. As unidades Solidigm de 61.44 TB ajudam a reduzir o número de transações de dados necessárias. Você também pode considerar isso usando uma configuração de rede simplificada e sistemas de arquivos distribuídos. Essa abordagem direta pode agilizar os fluxos de trabalho e reduzir o potencial de erros ou atrasos relacionados aos dados.
Vista frontal do Lenovo ThinkSystem SR675 V3
Suponha que você esteja trabalhando em um único servidor, ajustando modelos que cabem em um punhado de GPUs conectadas localmente. Nesse caso, você tem a vantagem do armazenamento local, que é mais simples de configurar e gerenciar do que as soluções de armazenamento em rede. Configurar, administrar e manter o armazenamento conectado à rede pode ser complexo e demorado, muitas vezes exigindo conhecimento especializado e infraestrutura adicional. Por outro lado, soluções de armazenamento local, como SSDs NVMe, são mais simples de integrar nas configurações de servidores existentes.
Esquema Lenovo Think System SR675 V3
Essa simplicidade na configuração e manutenção permite que as equipes de TI se concentrem mais na otimização das cargas de trabalho de IA, em vez de lidar com as complexidades do gerenciamento de armazenamento de rede. Como resultado, a implantação e o gerenciamento de armazenamento para aplicativos de IA tornam-se mais simples e eficientes com SSDs NVMe locais.
Custo e escalabilidade
Embora as soluções NAS possam ser dimensionadas horizontalmente adicionando mais dispositivos de armazenamento, elas também acarretam custos relacionados à infraestrutura de rede e possíveis gargalos de desempenho. Por outro lado, investir em armazenamento local de alta capacidade pode proporcionar benefícios imediatos de desempenho sem atualizações extensas de rede.
As soluções de armazenamento local costumam ser mais econômicas do que os sistemas de armazenamento conectados à rede (NAS), porque eliminam a necessidade de hardware de rede caro e configurações complexas. A configuração e a manutenção do NAS envolvem investimentos significativos em equipamentos de rede, como switches e roteadores de alta velocidade, além de custos contínuos de gerenciamento e manutenção da rede.
SSDs locais de grande capacidade integrados diretamente no servidor são usados como área de teste, reduzindo a necessidade de infraestrutura adicional. Esta integração direta reduz os custos de hardware e simplifica o processo de configuração, tornando-o mais económico para organizações que procuram otimizar as suas cargas de trabalho de IA sem incorrer em despesas elevadas.
Para avaliar completamente o desempenho dos SSDs Solidigm 61.44 TB QLC em uma configuração de servidor de IA, avaliaremos uma matriz de quatro SSDs Solidigm P5336 de 61.44 TB instalados em um Lenovo ThinkSystem SR675 V3. Esta configuração de servidor também inclui um conjunto de quatro GPUs NVIDIA L40S. A ferramenta de benchmarking usada para esse fim é o GDSIO, um utilitário especializado projetado para medir o desempenho do armazenamento em ambientes de armazenamento direto por GPU (GDS). Analisamos duas configurações: uma GPU para desempenho de unidade única e uma GPU para quatro unidades configuradas para RAID0.
Vista superior do Lenovo ThinkSystem SR675 V3 com quatro GPUs L40S
Fique conosco. As seções a seguir abordam as especificidades dos testes e como eles imitam os diferentes estágios do pipeline de IA.
Parâmetros de teste
O processo de benchmarking envolve vários parâmetros de teste que simulam diferentes estágios do pipeline de IA. Esses parâmetros incluem io_sizes, threads e transfer_type, cada um escolhido para representar aspectos específicos das cargas de trabalho de IA.
1. Tamanhos de E/S:
- 4K, 128K, 256K, 512K, 1M, 4M, 16M, 64M, 128M: Esses tamanhos variados de E/S ajudam a simular diferentes padrões de transferência de dados. Tamanhos de E/S menores (128K, 256K, 512K) imitam cenários em que pequenos blocos de dados são acessados com frequência, típico durante os estágios de preparação de dados. Tamanhos maiores de E/S (1M, 4M, 16M, 64M, 128M) representam transferências de dados em massa frequentemente vistas durante os estágios de treinamento e inferência, onde lotes inteiros de dados são movidos.
2. Tópicos:
- 1, 4, 16, 32: O número de threads representa o nível de simultaneidade de acesso aos dados. Um único thread testa o desempenho da linha de base, enquanto contagens mais altas de threads (4, 16, 32) simulam atividades de processamento de dados paralelos mais intensivas, semelhante ao que ocorre durante sessões de treinamento em larga escala, onde vários fluxos de dados são tratados simultaneamente.
3. Tipos de transferência:
- Armazenamento->GPU (GDS): Esse tipo de transferência aproveita o GPU Direct Storage (GDS), permitindo transferências diretas de dados entre SSDs e GPUs, ignorando a CPU. Essa configuração é ideal para testar a eficiência de caminhos diretos de dados e minimizar a latência, refletindo cenários de inferência em tempo real.
- Armazenamento->CPU->GPU: Este caminho tradicional de transferência de dados envolve mover os dados do armazenamento para a CPU antes de transferi-los para a GPU. Este método simula cenários onde o processamento intermediário ou armazenamento em cache pode ocorrer no nível da CPU, o que é esperado durante a fase de preparação de dados. Poderíamos argumentar que este caminho de dados representaria o desempenho independentemente do fornecedor da GPU.
- Armazenamento->PAGE_CACHE->CPU->GPU: Este caminho usa o cache de página para transferências de dados, onde os dados são primeiro armazenados em cache na memória antes de serem processados pela CPU e depois transferidos para a GPU. Essa configuração é útil para testar o impacto dos mecanismos de cache e da largura de banda da memória no desempenho geral, o que é pertinente durante o treinamento, quando os dados podem ser pré-processados e armazenados em cache para maior eficiência. Novamente, poderíamos argumentar que esse caminho de dados representaria o desempenho independentemente do fornecedor da GPU.
Imitando estágios do pipeline de IA
Os testes de benchmark são projetados para refletir diferentes estágios do pipeline de IA, garantindo que as métricas de desempenho obtidas sejam relevantes e abrangentes.
Preparação de dados:
- Tamanhos de E/S: Menor (128K, 256K, 512K)
- Tópicos: 1, 4
- Tipos de transferência: “Armazenamento->CPU->GPU”, “Armazenamento->PAGE_CACHE->CPU->GPU”
- Objetivo: Avalie como os SSDs lidam com pequenas transferências frequentes de dados e envolvimento da CPU, essenciais durante as fases de ingestão, limpeza e aumento de dados.
Treinamento e ajuste fino:
- Tamanhos de E/S: Médio a grande (1M, 4M, 16M)
- Tópicos: 4, 16, 32
- Tipos de transferência: “Armazenamento->GPU (GDS)”, “Armazenamento->CPU->GPU”
- Objetivo: Avalie o desempenho sob condições de alto rendimento de dados com vários fluxos de dados simultâneos, representando o tratamento intensivo de dados necessário durante o treinamento e o ajuste fino do modelo.
Inferência:
- Tamanhos de E/S: Grande a muito grande (16M, 64M, 128M) e 4K
- Tópicos: 1, 4, 16
- Tipos de transferência: Armazenamento->GPU (GDS)
- Objetivo: Meça a eficiência de transferências diretas de dados em grande escala para a GPU, crucial para aplicações de inferência em tempo real onde o acesso rápido aos dados e a latência mínima são fundamentais. 4K foi projetado para observar as pesquisas no banco de dados RAG que ocorrem.
Variando esses parâmetros e testando diferentes configurações, podemos obter um perfil de desempenho detalhado dos SSDs QLC Solidigm de 61.44 TB em um ambiente de servidor de IA de alto desempenho, fornecendo insights sobre sua adequação e otimização para diversas cargas de trabalho de IA. Examinamos os dados executando mais de 1200 testes durante algumas semanas.
Configuração do Servidor
- Lenovo Think System SR675 V3
- Processador AMD EPYC 9254 de 24 núcleos
- Capacidade total de 6 x 64 GB DDR5 384 GB
- 4X GPUs NVIDIA L40S
- 4 SSDs Solidigm P61.44 QLC NVMe de 5336 TB
- Ubuntu Server 22.04
- Versão do driver NVIDIA: 535.171.04
- Versão CUDA: 12.2
Vista frontal do Lenovo Think System SR675 V3
Arquitetura Lenovo ThinkSystem SR675 V3
Resultados de referência
Primeiro, vejamos as cargas de trabalho do tipo treinamento e inferência. O tamanho GPU Direct 1024K IO representa o carregamento do modelo, os dados de treinamento sendo carregados na GPU e outros trabalhos de inferência em lote grande, como em trabalhos de imagem ou vídeo.
4drive | Tipo de E / S | Tipo de transferência | Tópicos | Tamanho do conjunto de dados (KiB) | Tamanho de E/S (KiB) | Taxa de transferência (GiB/s) | Latência média (usecs) |
---|---|---|---|---|---|---|---|
ESCREVA | GPUD | 8 | 777,375,744 | 1024 | 12.31 | 634.55 | |
LER | GPUD | 8 | 579,439,616 | 1024 | 9.30 | 840.37 | |
RANDWRITE | GPUD | 8 | 751,927,296 | 1024 | 12.04 | 648.67 | |
Randread | GPUD | 8 | 653,832,192 | 1024 | 10.50 | 743.89 |
A seguir, analisando tamanhos de IO menores, para uma carga de trabalho do tipo RAG, por exemplo, onde acesso rápido e aleatório de dados de 4k a um banco de dados RAG armazenado em disco. A E/S aleatória eficiente é necessária para cenários em que as cargas de trabalho de inferência precisam acessar dados de maneira não sequencial, como em sistemas de recomendação ou aplicativos de pesquisa. A configuração RAID0 apresenta bom desempenho para operações sequenciais e aleatórias, o que é crucial para aplicações de IA que envolvem uma combinação de padrões de acesso como RAG. Os valores de latência de leitura são notavelmente baixos, especialmente no GPUD
modo.
Foram selecionados 8 threads de trabalho aqui, que não saturam totalmente o SSD, mas fornecem um instantâneo mais representativo do que você pode encontrar em uma carga de trabalho do tipo RAG. Isso fornece um contexto de um aplicativo pronto para uso em torno da perspectiva da GPU com um número limitado de trabalhos e maior profundidade de fila, vale a pena notar que isso mostra que ainda há mais desempenho na mesa que pode ser alcançado por meio de otimizações de software adicionais .
4drive | Tipo de E / S | Tipo de transferência | Tópicos | Tamanho do conjunto de dados (KiB) | Tamanho de E/S (KiB) | Taxa de transferência (GiB/s) | Latência média (usecs) |
---|---|---|---|---|---|---|---|
ESCREVA | GPUD | 8 | 69,929,336 | 4 | 1.12 | 27.32 | |
LER | GPUD | 8 | 37,096,856 | 4 | 0.59 | 51.52 | |
RANDWRITE | GPUD | 8 | 57,083,336 | 4 | 0.91 | 33.42 | |
Randread | GPUD | 8 | 27,226,364 | 4 | 0.44 | 70.07 |
Se você não usa GPU Direct devido a bibliotecas ou GPUs não suportadas, aqui estão esses dois tipos se você utilizar a CPU na transferência de dados. Neste servidor específico, o Lenovo ThinkSystem SR675 V3, como todos os dispositivos PCIe passam pelo complexo raiz da CPU, vemos largura de banda comparável, mas prejudicamos nossa latência. Podemos esperar uma melhoria em um sistema com Switches PCIe.
4drive | Tipo de E / S | Tipo de transferência | Tópicos | Tamanho do conjunto de dados (KiB) | Tamanho de E/S (KiB) | Taxa de transferência (GiB/s) | Latência média (usecs) |
---|---|---|---|---|---|---|---|
ESCREVA | CPU_GPU | 8 | 767,126,528 | 1024 | 12.24 | 638.05 | |
LER | CPU_GPU | 8 | 660,889,600 | 1024 | 10.58 | 738.75 | |
RANDWRITE | CPU_GPU | 8 | 752,763,904 | 1024 | 12.02 | 649.76 | |
Randread | CPU_GPU | 8 | 656,329,728 | 1024 | 10.47 | 746.26 | |
ESCREVA | CPU_GPU | 8 | 69,498,220 | 4 | 1.11 | 27.47 | |
LER | CPU_GPU | 8 | 36,634,680 | 4 | 0.58 | 52.31 |
A tabela indica altas taxas de transferência para operações de leitura, particularmente com o GPUD
tipo de transferência. Por exemplo, operações de leitura em GPUD
o modo atinge mais de 10.5 GiB/seg. Isso beneficia as cargas de trabalho de IA, muitas vezes exigindo acesso rápido aos dados para treinar modelos grandes.
O desempenho equilibrado entre operações aleatórias e sequenciais torna esta configuração adequada para tarefas de inferência, que muitas vezes requerem uma combinação destes padrões de acesso. Embora os valores de latência não sejam extremamente baixos, eles ainda estão dentro dos limites aceitáveis para muitas aplicações de inferência.
Além disso, vemos taxas de transferência impressionantes, com operações de gravação atingindo até 12.31 GiB/s e operações de leitura de até 9.30 GiB/s. Esse alto rendimento beneficia cargas de trabalho de IA que exigem acesso rápido a dados para treinamento e inferência de modelos.
Leituras sequenciais e otimização
Passando para o tamanho de 128 milhões de E/S e iterando por meio de threads de trabalho, podemos ver o resultado da otimização de uma carga de trabalho para uma solução de armazenamento.
Tipo de transferência | Tópicos | Taxa de transferência (GiB/s) | Latência (usec) |
---|---|---|---|
Armazenamento->CPU->GPU | 16 | 25.134916 | 79528.88255 |
Armazenamento->CPU->GPU | 4 | 25.134903 | 19887.66948 |
Armazenamento->CPU->GPU | 32 | 25.12613 | 159296.2804 |
Armazenamento->GPU (GDS) | 4 | 25.057484 | 19946.07198 |
Armazenamento->GPU (GDS) | 16 | 25.044871 | 79770.6007 |
Armazenamento->GPU (GDS) | 32 | 25.031055 | 159478.8246 |
Armazenamento->PAGE_CACHE->CPU->GPU | 16 | 24.493948 | 109958.4447 |
Armazenamento->PAGE_CACHE->CPU->GPU | 32 | 24.126103 | 291792.8345 |
Armazenamento->GPU (GDS) | 1 | 23.305366 | 5362.611458 |
Armazenamento->PAGE_CACHE->CPU->GPU | 4 | 21.906704 | 22815.52797 |
Armazenamento->CPU->GPU | 1 | 15.27233 | 8182.667969 |
Armazenamento->PAGE_CACHE->CPU->GPU | 1 | 6.016992 | 20760.22778 |
Escrever adequadamente qualquer aplicativo para interagir com o armazenamento é fundamental e precisa ser considerado, pois as empresas desejam maximizar seu investimento em GPU.
GPU direto
Ao isolar o desempenho somente do GPU Direct em todos os testes, podemos ter uma ideia geral de como a tecnologia NVIDIA brilha.
Tipo de E / S | Tipo de transferência | Tópicos | Tamanho do conjunto de dados (KiB) | Tamanho de E/S (KiB) | Taxa de transferência (GiB/s) | Latência média (usecs) |
---|---|---|---|---|---|---|
ESCREVA | GPUD | 8 | 777,375,744 | 1024 | 12.31 | 634.55 |
LER | GPUD | 8 | 579,439,616 | 1024 | 9.30 | 840.37 |
RANDWRITE | GPUD | 8 | 751,927,296 | 1024 | 12.04 | 648.67 |
Randread | GPUD | 8 | 653,832,192 | 1024 | 10.50 | 743.89 |
ESCREVA | GPUD | 8 | 69,929,336 | 4 | 1.12 | 27.32 |
LER | GPUD | 8 | 37,096,856 | 4 | 0.59 | 51.52 |
RANDWRITE | GPUD | 8 | 8,522,752 | 4 | 0.14 | 224.05 |
Randread | GPUD | 8 | 21,161,116 | 4 | 0.34 | 89.99 |
RANDWRITE | GPUD | 8 | 57,083,336 | 4 | 0.91 | 33.42 |
Randread | GPUD | 8 | 27,226,364 | 4 | 0.44 | 70.07 |
Pensamentos de Encerramento
Como este artigo se concentra no Solidigm 61.44 TB P5336, vamos dar um passo atrás e abordar o debate TLC vs. QLC em torno de desempenho vs. Quando olhamos para outros produtos do portfólio Solidigm, como a linha D7, que utiliza TLC 3D NAND, a capacidade é limitada em troca de desempenho. Em nossos testes, especificamente com as unidades Solidigm de 61.44 TB, observamos um desempenho de rendimento agregado que pode manter as GPUs alimentadas adequadamente com dados em baixas latências. Estamos ouvindo feedback de ODMs e OEMs sobre a demanda por mais e mais armazenamento o mais próximo possível da GPU, e a unidade Solidigm D5-P5336 parece ser adequada. Como geralmente há um número limitado de baias NVMe disponíveis em servidores GPU, as densas unidades Solidigm estão no topo da lista para armazenamento de servidor GPU local.
Em última análise, a enorme capacidade de armazenamento que estas unidades oferecem, juntamente com as GPUs, é apenas parte da solução; eles ainda precisam ter um bom desempenho. Depois de agregar o desempenho de uma única unidade em várias unidades, fica claro que há capacidade suficiente disponível mesmo para as tarefas mais exigentes. No caso da configuração RAID4 de 0 unidades usando GDSIO, o rendimento total para operações de gravação pode chegar a até 12.31 GiB/s, e para operações de leitura, pode chegar a até 25.13 GiB/seg.
Visão traseira do Lenovo ThinkSystem SR675 V3 para GPUs
Esse nível de rendimento é mais que suficiente até mesmo para as tarefas de IA mais exigentes, como o treinamento de grandes modelos de aprendizagem profunda em conjuntos de dados massivos ou a execução de inferência em tempo real em fluxos de vídeo de alta resolução. A capacidade de dimensionar o desempenho adicionando mais unidades ao array RAID0 torna-o uma escolha atraente para aplicações de IA onde o acesso rápido e eficiente aos dados é crucial.
No entanto, é importante observar que as configurações RAID0, embora ofereçam alto desempenho, não fornecem redundância de dados. Portanto, é essencial implementar estratégias adequadas de backup e proteção de dados para evitar a perda de dados em caso de falha da unidade.
Outra consideração única nos data centers hoje é a energia. Com os servidores de IA consumindo mais energia do que nunca e não mostrando sinais de desaceleração, a energia total disponível é um dos maiores gargalos para quem deseja trazer GPUs para seus data centers. Isso significa que há ainda mais foco na economia de cada watt possível. Se você conseguir mais TB por watt, abordaremos alguns processos de reflexão interessantes sobre TCO e custos de infraestrutura. Até mesmo retirar essas unidades do servidor GPU e colocá-las em um servidor de armazenamento em escala de rack pode fornecer uma taxa de transferência massiva com capacidades extremas.
A integração de SSDs QLC Solidigm D5-P5336 de 61.44 TB com servidores de IA com slot limitado NVMe representa um avanço significativo no enfrentamento dos desafios de armazenamento das cargas de trabalho de IA modernas. Sua extrema densidade, características de desempenho e relação TB/watt os tornam ideais para preparação de dados, treinamento e ajuste fino e fases de inferência. Ao otimizar o uso de pistas PCIe e fornecer soluções de armazenamento de alta capacidade, esses SSDs permitem que a moderna AI Factory se concentre no desenvolvimento e na implantação de modelos mais sofisticados e precisos, impulsionando a inovação em todo o campo da IA.
Página Lenovo Think System SR675 V3
Este relatório é patrocinado pela Solidigm. Todas as visões e opiniões expressas neste relatório são baseadas em nossa visão imparcial do(s) produto(s) em consideração.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed