Dificilmente se passa uma semana sem que um fornecedor de TI fale sobre o impacto que suas soluções têm em organizações envolvidas em inteligência artificial, aprendizado profundo, aprendizado de máquina ou inteligência de ponta. O problema, no entanto, é a falta de insights materiais sobre como essas soluções afetam o desempenho de cada uma dessas tarefas. Recentemente, decidimos ver se poderíamos fazer algo sobre isso em parceria com a byteLAKE, um construtor de soluções de IA e HPC com sede na Polônia. O objetivo principal é avaliar o impacto do armazenamento e da GPU nas cargas de trabalho de IA.Dificilmente se passa uma semana sem que um fornecedor de TI fale sobre o impacto que suas soluções têm em organizações envolvidas em inteligência artificial, aprendizado profundo, aprendizado de máquina ou inteligência de ponta. O problema, no entanto, é a falta de insights materiais sobre como essas soluções afetam o desempenho de cada uma dessas tarefas. Recentemente, decidimos ver se poderíamos fazer algo sobre isso em parceria com a byteLAKE, um construtor de soluções de IA e HPC com sede na Polônia. O objetivo principal é avaliar o impacto do armazenamento e da GPU nas cargas de trabalho de IA.
Impacto do armazenamento na IA
Inicialmente, queríamos explorar uma noção popular de que o armazenamento local afeta o desempenho dos modelos de IA. Nós pegamos um dos Dell EMC PowerEdge R740xd servidores em nosso laboratório, configurados com duas CPUs Intel Xeon Gold 6130 com 256 GB de DRAM. Executamos o teste byteLAKE AI usando três alternativas diferentes de armazenamento local. Para o teste, usamos um legado KIOXIA PX04S SSD junto com o muito mais rápido, Samsung 983ZET e Intel Optane 900P.
Durante o benchmark, analisamos o desempenho do processo de aprendizado de IA. Nos testes, executamos o processo de aprendizagem para um cenário do mundo real. Neste caso, os testes faziam parte do procedimento de treinamento em um dos produtos byteLAKE: Guarda EWA. É baseado no mais recente YOLO (You Only Look Once), que é um modelo de detecção em tempo real de última geração. O modelo consiste em uma única camada de entrada, 22 camadas de convolução, 5 camadas de pooling, 2 camadas de roteador, uma única camada de reorganização e uma única camada de detecção.
Como métrica básica de performance, utilizamos o tempo de execução do treinamento para 5000 épocas. Os benchmarks foram repetidos três vezes para cada configuração de armazenamento, e os valores médios são apresentados a seguir.
Resultados:
- QUIÓXIA 98h 24m
- Samsung 98h 44
- Intel 98h 42
Como fica claro nos dados, o armazenamento local não teve impacto no desempenho. Os testes variaram de um SSD SATA ao mais recente e melhor Optane, sem nenhum impacto. Dito isso, o armazenamento pode desempenhar um papel mais importante quando se trata de entrada e saída de dados, mas computacionalmente para IA, nesse caso, não houve impacto.
Impacto da GPU e do armazenamento na IA
Com os dados de armazenamento em mãos, adicionamos um único NVIDIA T4 ao PowerEdge para avaliar o impacto de uma GPU na IA. Para este teste, também executamos as mesmas três configurações de armazenamento.
Resultados:
- QUIÓXIA 4h 30
- Samsung 4h 28m
- Intel 4h 27m
Como esperado, a GPU teve um impacto, um impacto exponencial na verdade, gerando uma melhoria de 22x. Com a GPU acelerando o desempenho geral da IA, alguns pensaram que o armazenamento mais rápido pode causar impacto. No entanto, esse não foi o caso, pois a unidade SATA estava alinhada com o NVMe de alta velocidade.
Conclusões
Neste teste, descobrimos que o uso de dispositivos de armazenamento mais rápidos não melhora o desempenho do aprendizado. A principal razão aqui é uma estrutura complexa do modelo de IA. O tempo de aprendizado é maior que o tempo de leitura dos dados. Dito de outra forma, o tempo de aprendizado usando o lote atual de imagens é maior que o tempo necessário para ler o próximo. Consequentemente, as operações de armazenamento ficam ocultas por trás dos cálculos de IA.
Ao adicionar o NVIDIA T4, alguns pensaram que o processamento mais rápido pela IA induziria o armazenamento a causar impacto no desempenho. Este não foi o caso neste teste, pois mesmo com o T4, o modelo AI ainda tinha um componente de aprendizado mais pesado e não exigia que o armazenamento fosse particularmente rápido.
Embora mais trabalho precise ser feito para testar ainda mais o impacto de componentes e sistemas específicos na IA, acreditamos que esses dados iniciais sejam úteis e um bom ponto de partida para a conversa. Precisamos de dados de aplicativos para entender melhor onde estão as alavancas certas do ponto de vista de TI e onde o gasto orçamentário pode produzir os resultados mais impactantes. Obviamente, isso também depende em grande parte de onde essa atividade ocorre, seja no data center ou na borda. Por enquanto, damos as boas-vindas ao envolvimento de byteLAKE e outros na ponta da lança da IA para ajudar a fornecer dados úteis para ajudar a responder a essas perguntas urgentes.
Este é o nosso primeiro teste de IA, mas não o último. Mariusz Kolanko, cofundador da byteLAKE, indicou que está trabalhando em um produto chamado Suíte CFD (AI for Computational Fluid Dynamics “CFD” para acelerar solucionadores) onde o processo de aprendizado profundo precisa de muitos dados para cada época de treinamento. Esse modelo pode, de fato, colocar uma carga maior no armazenamento para treinar modelos na área de Big Data e pode ter um impacto no desempenho dos próprios processos de aprendizado profundo. Em última análise, como acontece com qualquer aplicativo, é fundamental entender as necessidades do aplicativo para atribuir os recursos adequados do data center. A IA claramente não é um tamanho único para todos os aplicativos.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | Facebook | RSS feed