Home Empreendimento Análise do Supermicro X13 SuperBlade: o dispositivo de IA que faz tudo

Análise do Supermicro X13 SuperBlade: o dispositivo de IA que faz tudo

by Jordan Ranous

O chassi Supermicro X13 SuperBlade e os blades de GPU são uma escolha altamente adaptável e robusta, especialmente para tarefas de IA de médio porte.

A Supermicro tem sido pioneira na tecnologia de servidores blade e seus sistemas SuperBlade servem como prova disso. A introdução dos chassis e blades Supermicro X13 SuperBlade abre um novo capítulo para a tecnologia com blades habilitados para GPU e a integração das mais recentes CPUs Emerald Rapids e GPUs NVIDIA H100. Esses avanços trazem poder e eficiência de processamento excepcionais, tornando o X13 um candidato ideal para diversas aplicações de ponta.

Chassi Supermicro X13 SuperBlade

Design e Especificações

O chassi Supermicro X13 SuperBlade mantém o design familiar do chassi 8U, conhecido por sua alta densidade e flexibilidade. Cada chassi suporta até 20 blades, com a oferta mais recente significativamente aprimorada pela integração de CPUs Emerald Rapids e GPUs NVIDIA H100. Esta combinação potente promete oferecer capacidades computacionais sem precedentes. Além disso, o chassi possui comunicações 200G InfiniBand e 25G Ethernet, garantindo transferência de dados em alta velocidade e eficiência de rede.

Casos de uso populares:

  1. Análise de Dados: Com o poder de processamento avançado das CPUs Emerald Rapids e os recursos de computação acelerados das GPUs NVIDIA H100, os X13 SuperBlades são excepcionalmente adequados para tarefas exigentes de análise de dados. Essas tarefas incluem processamento de dados em tempo real e extensas operações de mineração de dados, que são cada vez mais críticas no mundo atual, orientado por dados.
  2. Inteligência Artificial e Aprendizado de Máquinas: Os SuperBlades X13 oferecem a potência necessária para modelos de IA e de aprendizado de máquina, especialmente algoritmos de aprendizado profundo que exigem recursos computacionais substanciais.
  3. Computação de alto desempenho: Simulações científicas, pesquisas médicas e tarefas computacionais avançadas em engenharia se beneficiarão significativamente do desempenho aprimorado do X13, tornando-o uma escolha privilegiada para aplicações de computação de alto desempenho.
  4. Cloud Computing: A maior densidade e desempenho dos blades os tornam ideais para provedores de serviços em nuvem. Eles podem lidar com muitos aplicativos e serviços baseados em nuvem, incluindo aqueles que exigem virtualização e conteinerização intensivas.
  5. Redes e Comunicações: Equipado com comunicações InfiniBand 200G e Ethernet 25G, o X13 se destaca em aplicações de alta largura de banda e baixa latência, tornando-o adequado para tarefas exigentes de rede e comunicação. Graças à sua rede externa, o SuperBlade pode atuar como um hub, fornecendo comunicações InfiniBand e Ethernet com servidores tradicionais não-blade no mesmo rack ou data center.

Em nosso equipamento de teste fornecido pela Supermicro, tivemos cinco lâminas no total. Quatro foram equipados com um único processador e capacidade para levar um acelerador PCIe, no nosso caso, quatro NVIDIA H100s e um blade de processador duplo. Seguiremos com uma revisão subsequente do blade de computação, a extensão desta revisão tornou sua inclusão um pouco excessiva.

Folha de dados do Supermicro X13 SuperBlade

Componente Descrição
Recinto 1x SBE-820H2-630
PSW 6x PWS-3K01A-BR
Ventilador 2x PWS-DF006-2F
BBP 1x AOC-MB-BBP01-P
CMM MBM-CMM-6
Chave IB 1x SBM-IBS-H4020
PT Interruptor 2xSBM-25G-200
Configuração da lâmina
  • SBI-411E-5G:
    • 1 CPU 8562Y+
    • 8x MEM-DR532L-CL01-ER48
    • 2x HDS-SMN0-MZ1L23T8HBLAA7 (unidade Samsung 3840G M.2)
    • 1x GPU-NVH100-80
    • 1x SNK-P0088P
    • 1x AOC-IBH-X6HS-P
  • SBI-411E-5G: [Igual ao acima]
  • SBI-411E-5G: [Igual ao acima, com unidade Micron 480G M.2]
  • SBI-411E-5G: [Igual ao acima, com unidade Micron 480G M.2]
  • SBI-421E-5T3N:
    • 2x8562Y+
    • 512Gb DDR5
    • 1x HDS-MMN-MTFDKBA480TFR1BC (unidade Micron 480G M.2)
    • 1x HDS-MUN-MTFDKCC3T8TDZ1AZ (unidade Micron 3840G U.2)
    • 2x SNK-P0088P
    • 1x AOC-IBH-X6HS-P

SuperBlades GPU Supermicro X13

Os blades de GPU à primeira vista desmentem sua potência, com uma entrada na frente, com nosso blade de processador duplo tendo baias NVMe de 2.5″ no lugar da GPU.

GPU Supermicro X13 SuperBlade e blades de computação

Na parte traseira há um número impressionante de pinos para conectar o blade ao chassi, transportando toda a energia e dados.

Olhando para dentro, podemos ver os SSDs de inicialização m.2 na lâmina da GPU.

De cima, podemos ver as guias defletoras de ar. Observe a diferença entre um blade GPU e um blade Dual CPU. A placa-mãe GPU blade é idêntica à CPU Dual, mas apenas a metade traseira de E/S dela.

Na frente, podemos começar a ver as diferentes implementações. O blade GPU possui um riser PCIe, enquanto o blade CPU possui um riser PCIe U.2 e pode acomodar vários componentes em seus slots PCIe. O chassi foi projetado para resfriamento ideal de GPUs passivas, primeiro puxando ar fresco para dentro da GPU.

Seguindo em frente, começando pela parte traseira do chassi, podemos ver as PSUs e a conectividade de rede. O switch de largura total superior é para NVIDIA Quantum InfiniBand de 200 Gbit. O maior dos dois switches inferiores é a Ethernet 25G, e o pequeno módulo no meio é para o Módulo de Gerenciamento de Chassi.

Cassis traseiro Supermicro X13 SuperBlade

Gerenciamento e implantação do chassi Supermicro X13 SuperBlade

A integração de um Módulo de Gerenciamento de Chassi (CMM) no chassi SuperBlade X13 da Supermicro oferece uma série de benefícios que vão além dos blades individuais para abranger todo o rack, elevando a eficiência geral e a capacidade de gerenciamento das operações do data center. O CMM funciona como um ponto de controle centralizado, agilizando o gerenciamento do sistema SuperBlade X13.

Gerenciamento de chassi Supermicro X13 SuperBlade

Um único painel de vidro para todas as funções do chassi é fundamental para plataformas integradas, como chassis blade. Embora a capacidade de desligar e ligar blades individuais possa ser importante para alguns, uma série de outras funções desempenham um papel valioso nas rotinas diárias de gerenciamento.

O CMM da Supermicro oferece um ponto de aterrissagem central para monitorar o chassi, visualizar os blades instalados e gerenciar os switches integrados instalados na parte traseira do chassi. Esse gerenciamento fora de banda também obtém endereços IP de dispositivos, portanto, a partir desse ponto central, você pode acessar facilmente cada dispositivo conectado.

O gerenciamento de cada blade instalado é semelhante ao de um servidor independente da Supermicro. Atividades como atualizações de BIOS são realizadas através de seu BMC, conforme experimentado em um experimento anterior. Essa abordagem centralizada permite implantação rápida e atualizações consistentes em todos os blades, garantindo que cada componente opere com o firmware e as configurações mais recentes. Essa uniformidade é vital para manter a estabilidade e o desempenho do sistema, especialmente em ambientes de computação densos, onde as disparidades de configuração podem levar a ineficiências significativas.

A função do CMM no gerenciamento do SuperBlade X13 se estende ao monitoramento e controle da integridade de todo o rack. Ele supervisiona o consumo de energia, o resfriamento, a rede e a integridade do sistema, proporcionando uma visão holística do desempenho do rack. Esta vigilância é crucial para identificar e resolver potenciais problemas antes que estes se agravem, minimizando o tempo de inatividade e mantendo a eficiência operacional ideal.

O CMM, além de gerenciar os servidores blade, também cuida do gerenciamento da rede por meio da mesma interface única. Isso permite que os usuários acessem e visualizem facilmente as telas de gerenciamento de ambos os switches conectados, com seus respectivos endereços IP exibidos. O CMM também pode se comunicar com sistemas vizinhos para implantações maiores, fornecendo um pacote de gerenciamento abrangente.

Em essência, o CMM transforma o gerenciamento do SuperBlade X13 de uma série de tarefas individuais em um processo coeso e simplificado. É como ter um centro de comando que simplifica o gerenciamento de cada blade e melhora o desempenho e a confiabilidade geral de todo o rack. Essa abordagem de gerenciamento de blade e rack é útil para equipes de gerenciamento de hardware, especialmente em data centers onde escalabilidade, confiabilidade e uso eficiente do tempo são fundamentais.

Supermicro SuperBlade SBI-411E-5G – Desempenho NVIDIA H100

Na computação de alto desempenho, o SuperBlade SBI-411E-5G, com NVIDIA H100, é uma ferramenta versátil e potente para treinamento distribuído e inferência de lâmina única. Essa flexibilidade é particularmente evidente quando as demandas computacionais flutuam significativamente, como em data centers que gerenciam cargas de trabalho variadas.

Supermicro X13 SuperBlade - GPU NVIDIA H100

Cenários de treinamento distribuído

Os nós SuperBlade H100 são excelentes em treinamento distribuído, um processo vital para modelos complexos de IA. Imagine um cenário em que um modelo de rede neural em grande escala está sendo treinado em um vasto conjunto de dados. O treinamento do modelo é distribuído por vários blades, cada um aproveitando o poder das GPUs avançadas do H100. Esta distribuição acelera o processo de treinamento e permite lidar com modelos maiores e conjuntos de dados impraticáveis ​​em máquinas únicas.

O 200G InfiniBand desempenha um papel crítico aqui. Sua comunicação de alta largura de banda e baixa latência é essencial para treinamento distribuído, onde a troca rápida e eficiente de dados entre blades é crucial. Essa conectividade garante que os dados e os parâmetros de aprendizagem sejam sincronizados de forma consistente e rápida em todos os blades, minimizando gargalos frequentemente encontrados no processamento de dados de alto volume.

Treinamento distribuído no laboratório

O treinamento distribuído revolucionou a forma como abordamos o aprendizado de máquina em grande escala e as tarefas de aprendizado profundo. Os dados são fundamentais, e a capacidade de processar grandes quantidades de dados de treinamento com eficiência tem sido o gargalo há algum tempo. É aqui que bibliotecas de código aberto e hardware poderoso, como o Supermicro SuperBlade X13 com quatro GPUs PCIe, se tornam revolucionários, especialmente quando conectados por meio de uma rede InfiniBand 200G de alta velocidade.

Bibliotecas de código aberto, como TensorFlow e PyTorch, tornaram-se essenciais na comunidade de aprendizado de máquina, com suporte e validação de todos os fabricantes. Eles oferecem estruturas robustas, flexíveis e em constante evolução para desenvolver e dimensionar modelos de aprendizado de máquina. Os requisitos computacionais podem ser surpreendentes ao treinar modelos complexos, como aqueles usados ​​no processamento de linguagem natural ou na visão computacional. É aqui que entra o SuperBlade X13.

Blade X13 habilitado para GPU

A plataforma SuperBlade X13 é conhecida por seus recursos de computação de alta densidade, tornando-a uma excelente opção para ambientes HPC. Usando blades SBI-411E-5G de largura dupla e meia altura equipados com GPUs H100 PCIe, o SuperBlade X13 suporta até 10 GPUs com refrigeração a ar e até 20 GPUs com refrigeração líquida por chassi para lidar com imensas tarefas de processamento paralelo. . É importante ressaltar que os blades podem ser reconfigurados a qualquer momento, tornando-os extremamente flexíveis à medida que as cargas de trabalho de IA de uma empresa mudam.

Trazer o InfiniBand para o chassi, com latência extremamente baixa e alto rendimento, ajuda os dados e os parâmetros do modelo a se deslocarem constantemente entre os nós. Esta rede de alta velocidade reduz significativamente o tempo de transferência de dados, muitas vezes um gargalo em sistemas distribuídos, especialmente quando se lida com conjuntos de dados em grande escala e arquiteturas de modelos complexos.

A integração de bibliotecas de código aberto para treinamento distribuído nesta configuração envolveu várias etapas importantes. Primeiro, tivemos que selecionar contêineres e bibliotecas otimizados para utilizar totalmente os recursos da GPU. Isso consiste em usar versões dessas bibliotecas habilitadas para CUDA, garantindo que elas possam aproveitar diretamente o poder de processamento da GPU. Em segundo lugar, o InfiniBand deve ser aproveitado com NCCL (NVIDIA Collective Communications Library), fornecendo rotinas de comunicação otimizadas para comunicação coletiva multi-GPU/multi-nós.

Na prática, ao configurar uma tarefa de treinamento distribuído nesta plataforma, cada nó (neste caso, cada SuperBlade) executa uma parte do modelo. Os parâmetros do modelo são sincronizados entre os nós em tempo real, facilitados pela velocidade e baixa latência da rede InfiniBand. Essa sincronização é crucial para a convergência e precisão do modelo.

TensorRT e LLM's

O TensorRT Large Language Model (LLM) da NVIDIA representa um avanço significativo em inteligência artificial e aprendizado de máquina. Projetado para eficiência e velocidade, o TensorRT LLM é um componente essencial no ecossistema de sistemas de servidores Blade, conhecido por seu desempenho excepcional no processamento de tarefas complexas de IA. Seu design atende às necessidades de profissionais técnicos e tomadores de decisão de TI, oferecendo uma solução robusta para lidar com os exigentes requisitos computacionais dos data centers modernos.

A estrutura técnica do TensorRT LLM da NVIDIA foi desenvolvida para aproveitar todo o potencial da IA ​​e do aprendizado profundo. Ele foi projetado para otimizar a inferência de redes neurais, tornando-o a escolha ideal para ambientes de computação de alto desempenho. O TensorRT LLM alcança uma eficiência notável por meio de sua capacidade de converter modelos treinados em mecanismos de tempo de execução otimizados, reduzindo significativamente a latência e aumentando o rendimento. Esse recurso beneficia principalmente os sistemas de servidores Blade, onde o processamento rápido de dados e tempos de resposta mínimos são cruciais. Além disso, sua compatibilidade com a ampla variedade de GPUs da NVIDIA aumenta sua versatilidade, tornando-o uma solução escalável em diversos ambientes de TI.

Um dos recursos de destaque do TensorRT LLM da NVIDIA é sua capacidade de treinamento distribuído. Este aspecto é particularmente crucial em ambientes onde modelos de aprendizagem automática em larga escala são a norma. O treinamento distribuído permite que o TensorRT LLM aproveite vários sistemas, distribuindo a carga computacional de forma eficiente. Isto leva a uma redução significativa no tempo de treinamento para modelos complexos sem comprometer a precisão ou o desempenho. A capacidade de realizar treinamento distribuído em vários nós torna o TensorRT LLM altamente adaptável a infraestruturas de TI expansivas, frequentemente encontradas em grandes organizações e instalações de pesquisa. Além disso, esta abordagem distribuída facilita o tratamento de conjuntos de dados massivos, um desafio comum em projetos avançados de IA, permitindo assim o desenvolvimento de modelos de IA mais robustos e sofisticados.

Os recursos de otimização e inferência de alto desempenho do TensorRT LLM são ideais para a natureza densa e interconectada dos servidores Blade. Ao aproveitar o TensorRT LLM, os sistemas Blade podem executar modelos complexos de IA com mais eficiência, levando a tempos de processamento mais rápidos e latência reduzida. Isto é especialmente crítico em cenários onde a análise de dados e a tomada de decisões em tempo real são essenciais, como modelagem financeira ou diagnósticos de saúde.

A combinação do Supermicro SuperBlade com os recursos de treinamento distribuído e a adaptabilidade do TensotRT LLM em vários sistemas aumenta o valor do ativo para profissionais técnicos e tomadores de decisão de TI. Ao aproveitar esta combinação poderosa, as organizações podem lidar com eficiência com projetos de IA em grande escala, garantindo processamento mais rápido, latência reduzida e implantações de IA escaláveis. Para facilitar isso, utilizamos a rede Quantum InfiniBand dentro do chassi.

Benchmark de desempenho de inferência de lâmina única com MLPerf

A arquitetura de uma CPU para uma GPU por nó nos blades de GPU oferece benefícios potenciais para cargas de trabalho de IA e análise de dados, especialmente para tarefas de inferência de blade único. Este design fornece uma proporção equilibrada de poder de processamento, permitindo a utilização ideal dos recursos da GPU.

Para testar o desempenho do Single Blade Inference, executamos o MLPerf 3.1 Inference, tanto offline quanto no servidor. BERT (Representações de codificador bidirecional de transformadores) é um modelo baseado em transformador usado principalmente para tarefas de processamento de linguagem natural, como resposta a perguntas, compreensão de linguagem e classificação de frases. ResNet-50 é um modelo de rede neural convolucional (CNN) amplamente utilizado para tarefas de classificação de imagens. É uma variante do modelo ResNet com 50 camadas, conhecido por sua arquitetura profunda e desempenho eficiente.

Inferência de nó único
ResNet-50 – Off-line: 46,326.6
ResNet-50 – Servidor: 47,717.4
BERT K99 – Off-line: 3,702.4
BERT K99 – Servidor: 4,564.11
  • Modo Offline: Este modo mede o desempenho de um sistema quando todos os dados estão disponíveis para processamento simultaneamente. É semelhante ao processamento em lote, onde o sistema processa um grande conjunto de dados em um único lote. Este modo é crucial para cenários onde a latência não é uma preocupação principal, mas o rendimento e a eficiência são.
  • Modo Servidor: Em contraste, o modo servidor avalia o desempenho do sistema em um cenário que imita um ambiente de servidor do mundo real, onde as solicitações chegam uma de cada vez. Este modo é sensível à latência, medindo a rapidez com que o sistema pode responder a cada solicitação. É crucial para aplicações em tempo real onde é necessária uma resposta imediata, como em servidores web ou aplicações interativas.

Nas tarefas de inferência, a GPU é a principal responsável pelo trabalho pesado computacional. Ao emparelhá-lo com uma CPU dedicada, o sistema garante que a GPU possa operar de forma eficiente sem ser obstruída por recursos compartilhados de CPU ou plataforma. Isso é crucial em cenários de processamento de dados em tempo real, como análise de vídeo ao vivo ou tradução de idiomas em tempo real.

Curiosamente, observamos que esta proporção de 1:1 CPU para GPU permite maior previsibilidade no desempenho. Cada nó opera de forma independente, garantindo tempos de processamento consistentes e reduzindo a variabilidade nas tarefas de inferência. Essa previsibilidade é vital em ambientes onde o tempo de resposta é crítico.

No geral, a configuração de uma CPU para uma GPU no SuperBlade H100 maximiza a eficácia de ambos os componentes. Isso garante que cada nó ofereça desempenho ideal para tarefas de inferência, com cada nó operando modelos e processos independentes. Essa arquitetura aprimora a capacidade do sistema de lidar com demandas de processamento de dados em tempo real de maneira eficiente e confiável.

Gerenciamento adaptativo de carga de trabalho

Depois de considerar todas as informações, fica evidente que o sistema SuperBlade é altamente adaptável. Durante os horários de pico, quando a demanda por inferência é alta, mais blades habilitados para GPU podem ser alocados dinamicamente para lidar com essas tarefas, garantindo o tratamento eficiente de solicitações em tempo real. Por outro lado, fora dos horários de pico, esses recursos poderiam ser transferidos para se concentrarem no ajuste fino de modelos de IA ou no processamento de tarefas menos urgentes. Essa flexibilidade permite a utilização ideal dos recursos, garantindo que o sistema SuperBlade seja robusto e eficiente no gerenciamento de diversas cargas computacionais.

Benefícios do 200G NVIDIA Quântica InfiniBand nestes cenários

A inclusão de 200G InfiniBand no sistema SuperBlade H100 aprimora esses cenários, fornecendo a espinha dorsal para transferência de dados em alta velocidade. O treinamento distribuído permite uma sincronização mais rápida de dados entre blades, o que é essencial para manter a consistência e a velocidade do processo de treinamento. A inferência de blade único garante que grandes conjuntos de dados possam ser rapidamente movidos para o blade para processamento, reduzindo a latência e aumentando o rendimento.

O que há com o Quantum InfiniBand?

InfiniBand, pedra angular da computação de alto desempenho, é uma tecnologia de interconexão de alta velocidade desenvolvida inicialmente para atender às crescentes demandas de transferência de dados e comunicação em clusters de supercomputação. Essa solução de rede altamente especializada evoluiu ao longo dos anos, oferecendo latência extremamente baixa e alta largura de banda, tornando-a ideal para conectar servidores, sistemas de armazenamento e outros componentes em ambientes HPC.

Os blades Supermicro X13 que enviamos vieram equipados com rede InfiniBand 200G e Ethernet 25G. Isso foi particularmente útil ao trabalhar em treinamento distribuído e outras tarefas de latência e uso intensivo de dados. Depois de algumas épocas altamente variáveis ​​(e demoradas) do treinamento mencionado acima, determinamos que precisávamos de uma métrica diferente para fornecer as métricas de teste do mundo real da rede InfiniBand escondidas nos incontáveis ​​pinos do chassi do blade. Com a extrema variabilidade do ajuste fino de execução para execução, seria irresponsável tentar quantificar o impacto, ou a falta dele, do uso de um sistema multinó como este para essas tarefas. Os resultados foram além de surpreendentes.

Entrar Kit de cluster NVIDIA. NVIDIA ClusterKit é um kit de ferramentas projetado para testar todo o potencial de clusters de GPU multinode, oferecendo aos profissionais de IA e HPC um conjunto interessante de ferramentas para avaliar o desempenho, a eficiência e a escalabilidade de suas cargas de trabalho.

Nós nos concentramos em duas ferramentas principais no ClusterKit:

  • Teste de largura de banda: A largura de banda é uma métrica crítica em HPC, refletindo a quantidade de dados que pode ser transmitida pela rede em um determinado momento. Utilizamos o NVIDIA ClusterKit para medir a largura de banda bidirecional (duplex) entre os nós na configuração do Supermicro SuperBlade. As medições duplex são essenciais porque refletem o cenário do mundo real, onde os dados fluem simultaneamente em ambas as direções.
  • Teste de latência: a latência, ou o tempo que uma mensagem leva para viajar de um ponto a outro na rede, é outra métrica de desempenho crucial. A baixa latência é significativa em aplicações HPC fortemente acopladas. A capacidade do NVIDIA ClusterKit de medir com precisão as latências duplex forneceu informações valiosas sobre a capacidade de resposta da rede InfiniBand nos SuperBlades.

Resultados de benchmarking de GPU SuperBlade InfiniBand e H100 com ClusterKit

Indo para esta seção, é importante entender que cada nó é identificado por uma tag única (por exemplo, smci-a7, smci-a1, etc.). A denotação de -1, -3, -5 e -7 é o nome do host, que reflete a posição física do blade no chassi.

O primeiro teste focou na medição da largura de banda bidirecional entre vários nós do cluster. O teste envolveu um tamanho de mensagem de 8,388,608 bytes, iterado 16 vezes.

Testes diretos de GPU

Primeiro, damos uma olhada nos testes do GPU Direct. Isso relata o rendimento máximo absoluto da plataforma blade, utilizando todos os melhores e mais recentes SDKs e kits de ferramentas disponíveis no momento da escrita. É importante observar que o teste reporta a largura de banda em duplex, o que significa que a largura de banda é um total em ambas as direções. A direção única seria aproximadamente metade. A principal conclusão é que o fator limitante da largura de banda é o InfiniBand 200G, mas como veremos mais tarde, isso não é motivo de preocupação.

Teste do Infiniband ClusterKit nas Supermicro SuperBlades com Divyansh Jain

A matriz abaixo mostra a largura de banda bidirecional usando GPUDirect.

Matriz de largura de banda MB/s
Classificação/Nó smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0.0 49,221.6 49,193.6 49,223.6
1 (smci-a1) 49,221.6 0.0 49,219.5 49,142.7
2 (smci-a3) 49,193.6 49,219.5 0.0 49,219.7
3 (smci-a5) 49,223.6 49,142.7 49,219.7 0.0
Latência uSec

A seguir vieram os resultados notáveis ​​do teste de latência, medidos em microssegundos. Os testes do GPU Direct foram tão bons quanto ter várias GPUs locais em um host.

Rank smci-a7 smci-a1 smci-a3 smci-a5
0 (smci-a7) 0.00 1.38 1.24 1.38
1 (smci-a1) 1.38 0.00 1.25 1.36
2 (smci-a3) 1.24 1.25 0.00 1.32
3 (smci-a5) 1.38 1.36 1.32 0.00

Testes de vizinhos de GPU

Passando para os testes de vizinhos da GPU, novamente, a largura de banda é relatada em duplex, o que significa que a largura de banda é total em ambas as direções. A direção única seria aproximadamente metade. Esta matriz abaixo mostra a largura de banda bidirecional entre os cartões H100 em cada um dos quatro nós. Isso não está usando a aceleração das bibliotecas GPUDirect. A denotação de 1, 3, 5 e 7 é o nome do host, que reflete a posição física da lâmina no chassi.

Interruptor Supermicro X13 SuperBlade InfiniBand

Interruptor SBS-IBS-H4020 HRD InfiniBand

Largura de banda vizinha da GPU (MB/s)

O teste “GPU Neighbor Bandwidth” mede a taxa de transferência de dados entre GPUs vizinhas dentro do mesmo sistema ou nó. Essa métrica é crucial para aplicações que exigem trocas frequentes de dados entre GPUs próximas, como tarefas de processamento paralelo multi-GPU. Quanto maior a largura de banda, mais rápida será a transferência de dados, levando a um desempenho potencialmente melhorado em aplicativos com uso intensivo de GPU.

GPU Largura de banda (MB/s)
smci-a7 com smci-a1 30,653.9
smci-a3 com smci-a5 30,866.7
Média 30,760.3
Largura de banda de memória GPU (MB/s)

O teste “Largura de banda de memória da GPU” avalia a taxa na qual os dados podem ser lidos ou armazenados na memória de uma GPU pela própria GPU. Essa largura de banda é um aspecto crítico de desempenho, especialmente para aplicações que envolvem grandes conjuntos de dados ou que exigem alto rendimento para tarefas como processamento de imagens, simulações ou aprendizado profundo. Maior largura de banda de memória indica melhor capacidade da GPU de lidar com grandes volumes de dados com eficiência. Este teste nos mostra que os X13 Blades não têm problemas para sustentar as GPUs H100.

GPU Largura de Banda
smci-a7-GPU0 55,546.3
smci-a1-GPU0 55,544.9
smci-a3-GPU0 55,525.5
smci-a5-GPU0 55,549.8
Média 55,541.6
Largura de banda GPU para GPU (MB/s)

Este teste mede a largura de banda bidirecional entre diferentes GPUs. É essencial para tarefas que envolvem cálculos complexos distribuídos em várias GPUs, onde a velocidade de transferência de dados entre as GPUs pode impactar significativamente o tempo geral de processamento. A alta largura de banda de GPU para GPU é benéfica para acelerar fluxos de trabalho multi-GPU e tarefas de computação paralela.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7-GPU0 0.0 30,719.8 30,817.7 30,823.8
smci-a1-GPU0 30,719.8 0.0 30,710.0 30,670.9
smci-a3-GPU0 30,817.7 30,710.0 0.0 30,835.1
smci-a5-GPU0 30,823.8 30,670.9 30,835.1 0.0
Média 30,762.9
GPU0 para largura de banda de host remoto (MB/s)

O teste “GPU0 to Remote Host Bandwidth” quantifica a taxa de transferência de dados entre a GPU primária (GPU0) e um sistema host remoto. Isto é vital em ambientes de computação distribuída onde os dados precisam ser movidos frequentemente entre a GPU principal e outras partes de um sistema em rede, afetando tarefas como treinamento de aprendizagem profunda distribuída ou análise de dados em servidores remotos.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0.0 30,804.3 30,753.5 30,768.1
smci-a1 30,804.3 0.0 30,732.9 30,679.7
smci-a3 30,753.5 30,732.9 0.0 30,970.8
smci-a5 30,768.1 30,679.7 30,970.8 0.0
Latência do vizinho da GPU (µseg)

O teste “GPU Neighbour Latency” mede o tempo que uma pequena quantidade de dados leva para viajar de uma GPU para a GPU vizinha. É desejável uma latência mais baixa, especialmente em aplicações que requerem processamento de dados em tempo real ou comunicação de alta velocidade entre GPUs, como renderização em tempo real ou simulações científicas complexas.

GPU Latência
smci-a7 com smci-a1 11.03
smci-a3 com smci-a5 11.01
Latência de GPU para host remoto (µseg)

O teste “GPU0 to Remote Host Latency” mede o atraso na comunicação de dados entre a GPU primária (GPU0) e um sistema host remoto. Essa latência é um fator crítico em ambientes de computação distribuídos, influenciando a capacidade de resposta e a eficiência de aplicativos que dependem da interação entre uma GPU e sistemas remotos, como jogos baseados em nuvem ou processamento remoto de dados.

GPU smci-a7 smci-a1 smci-a3 smci-a5
smci-a7 0.00 3.35 3.36 3.33
smci-a1 3.35 0.00 3.41 3.37
smci-a3 3.36 3.41 0.00 3.37
smci-a5 3.33 3.37 3.37 0.00
Média 3.37

Os testes do NVIDIA ClusterKit revelaram métricas de desempenho impressionantes para a rede InfiniBand nos Supermicro SuperBlades. Os testes de largura de banda duplex revelaram altas taxas de transferência de dados, indicando utilização eficiente dos recursos do InfiniBand. Da mesma forma, os testes de latência apresentaram atrasos mínimos, ressaltando a adequação da rede para tarefas exigentes de HPC. Isto significa que esta plataforma tem um desempenho equivalente aos sistemas autónomos e oferece uma densidade muito maior de computação e rede, tudo numa solução unificada.

Teste de servidor GPU independente

Em seguida, movemos os 4x NVIDIA H100s para um Servidor GPU Supermicro 4U AMD EPYC que pode suportar todos os 4 ao mesmo tempo, procuramos testar a GPU para GPU e a latência. É fundamental entender que estamos apenas tentando entender o perfil de desempenho das placas neste servidor, sem as comunicações entre blades. Embora este servidor 4U seja flexível em termos de placas que pode suportar, ele não tem a capacidade de composição extrema que o Supermicro X13 SuperBlade Chassis oferece. Obviamente, a Supermicro, como sempre, oferece uma solução para cada aplicação, incluindo também GPUs com soquete com refrigeração líquida.

Primeiro, vamos dar uma olhada na largura de banda ponto a ponto das 4 GPUs em uma plataforma.

 Largura de banda de gravação (GB/s) – Unidirecional

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 54.29 39.50 40.51
GPU1 54.60 0.00 40.55 40.22
GPU2 40.60 38.73 0.00 54.03
GPU3 40.99 40.33 53.79 0.00

Largura de banda de leitura (GB/s) – Unidirecional

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 53.17 39.23 35.69
GPU1 53.70 0.00 36.96 41.02
GPU2 36.28 39.88 0.00 53.32
GPU3 40.40 37.08 53.68 0.00

É importante observar aqui que as GPUs GPU0 e GPU1 estão em um nó NUMA e GPU2 e GPU3 estão em outro nó NUMA. Você pode ver claramente aqui o impacto de atravessar o nó NUMA no desempenho.

Copy Engine (CE) – Latência de gravação (nós)

Finalmente, medindo a latência de GPU para GPU.

GPU GPU0 GPU1 GPU2 GPU3
GPU0 0.00 1.67 1.64 1.64
GPU1 1.57 0.00 1.61 1.61
GPU2 1.66 1.69 0.00 1.65
GPU3 1.65 1.66 1.61 0.00

Como esperado, mover todas as GPUs para uma única plataforma nos garante 2x em largura de banda em comparação com as conexões 200G IB do Blade. A largura de banda aqui pode ser uma consideração para o aplicativo, mas quando se fala em números de latência, trabalhando na ordem de microssegundos, não há uma grande mudança no relatório passando de uma média de 1.6us de GPU para GPU enquanto tudo em um chassi, para apenas 1.5us nos blades ao ter que atravessar o barramento PCIe, o switch IB e voltar para a GPU é notável. Mas isso é não a história completa.

Conclusão

O Supermicro X13 SuperBlade, com suas CPUs Emerald Rapids e GPUs NVIDIA H100, é uma evolução bem-vinda do que os servidores blade podem ser. Seus recursos se estendem a diversas tarefas de computação intensiva, tornando-o uma solução versátil e robusta para setores que vão desde análise de dados até IA e computação em nuvem. À medida que a demanda por computação de alto desempenho continua a crescer, o X13 está pronto para enfrentar esses desafios, demonstrando o compromisso da Supermicro com a inovação e a excelência em tecnologia de servidores.

Considerando todos os aspectos dos testes, estamos particularmente interessados ​​nesta plataforma graças à sua natureza única e altamente adaptável de uma perspectiva holística. É importante contextualizar a aplicação da plataforma.

Imagine um cenário em um departamento de pesquisa onde você tem o sistema Supermicro X13 Blade em seu rack para toda a sua alta potência computacional. Você pode usar a infraestrutura de gerenciamento centralizado incorporada à plataforma não apenas para controlar os blades e a própria plataforma, mas também como um hub para controle, rede e gerenciamento de outros equipamentos. Conectando um ninho de servidor de armazenamento poderoso o suficiente ao SuperBlade para alimentar as GPUs que consomem muitos dados e você pode ingerir na velocidade da linha todos os bits em seus modelos. Nesse cenário fictício, podemos ter todas as nossas GPUs sendo utilizadas durante o dia por diferentes pesquisadores e, quando chegar a hora, conectar todos os blades ao InfiniBand e fazê-los trabalhar juntos.

O teste de largura de banda da relação um-para-um entre CPU e GPU também mostrou que, dado um chassi blade totalmente carregado, você pode superar um único servidor com placas GPUs adicionais com o sistema blade. Com um fluxo de trabalho de treinamento distribuído adequadamente projetado, você pode ver um desempenho que é essencialmente tão bom ou melhor do que ter todas as GPUs em um único nó, mas agora você obtém uma plataforma que pode facilmente realizar tarefas duplas, reduzindo pela metade o custo inicial da GPU . Graças ao suporte das CPUs mais recentes, uma vez implementadas, esperamos passar do HDR InfiniBand para o NDR, pois isso colocaria os SuperBlades acima e além do desempenho que você poderia obter em uma única plataforma de servidor GPU.

O chassi Supermicro X13 SuperBlade e os blades de GPU são uma escolha altamente adaptável e robusta para aqueles que têm necessidades de IA em evolução ou em constante mudança. Durante nosso longo tempo com a plataforma, encontramos necessidades de alterações de DRAM, CPU e GPU, ou como é conhecido no mundo da IA, “outro dia”, tudo feito pela plataforma com facilidade. No geral, a plataforma é sólida e se apresenta como um dispositivo intrigante e poderoso para o espaço de IA, sem deixar muito mais a ser solicitado. Dado o preço dos sistemas concorrentes, se você puder aproveitar a flexibilidade de uma lâmina, isso será quase imbatível.

Supermicro X13 SuperBlade 

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed