Início Consumidores Análise do Comino Grando H100 – 188 GB de memória GPU NVL

Análise do Comino Grando H100 – 188 GB de memória GPU NVL

by Lyle Smith

O servidor Comino Grando H100 oferece 2 GPUs NVIDIA H100, refrigeração líquida e AMD Threadripper PRO 7995WX, projetado para cargas de trabalho de IA e HPC.

O Comino Grando H100 Server é o lançamento mais recente na linha da empresa. Ele atende a usuários que precisam de energia com precisão refinada e refrigerada a líquido. Esta configuração Grando introduz diferentes aprimoramentos de hardware e design. No entanto, ele ainda é bem adequado para aplicativos de alta demanda, de IA e aprendizado de máquina a análises complexas de dados e renderização visual.

Comino Grando H100 Frente

Em nossa nova configuração H100, a Comino escolheu uma CPU poderosa: a AMD Ryzen Threadripper PRO 7995WX, que se destaca para tarefas de computação de alto núcleo e alto nível de threads.

Comino Grando H100 tampa aberta

Esta CPU de 96 núcleos é ideal para processamento paralelizado, onde os usuários podem executar conjuntos de dados extensos ou lidar com aplicativos multithread que prosperam em mais núcleos e threads. A placa-mãe ASUS SAGE WRX90 complementa esta CPU e fornece a arquitetura para suportar as necessidades aprimoradas de memória e conectividade do H100.

Comino Grando H100: Opções de processador e memória

Com 96 núcleos/192 threads, arquitetura Zen 4 e tecnologia avançada de 5 nm, ele foi criado para lidar facilmente com tarefas como renderização 3D, edição de vídeo e simulações complexas. Ele apresenta um clock base de 2.5 GHz (aumentando para 5.1 GHz), tornando-o ideal para tarefas multithread e single-thread. Ele suporta até 2 TB de memória DDR5 em oito canais, fornecendo largura de banda massiva para conjuntos de dados massivos. Além disso, sua compatibilidade com a plataforma WRX90 significa amplas pistas PCIe Gen5 para armazenamento de alta velocidade e configurações de GPU.

A configuração da GPU neste modelo Grando apresenta duas GPUs NVIDIA H100 NVL com 94 GB de memória cada. Esta configuração de GPU dupla oferece impressionantes 188 GB de memória de GPU, melhorando o desempenho para aplicativos exigentes. É especialmente benéfico para profissionais em inteligência artificial, renderização 3D e simulações científicas, onde as limitações de memória da GPU podem impactar a produtividade. O modelo Grando é uma excelente escolha para aqueles que precisam de recursos de computação poderosos para lidar com grandes conjuntos de dados e tarefas complexas de forma eficiente. E graças ao resfriamento líquido da Comino, essas GPUs de alta potência podem operar em um fator de forma de slot único, alcançando densidades que os sistemas tradicionais resfriados a ar não conseguem igualar.

Especificações da GPU NVIDIA H100 NVL

FP64 30 teraFLOPs
Núcleo Tensor FP64 60 teraFLOPs
FP32 60 teraFLOPs
Núcleo tensor TF32* 835 teraFLOPs
Núcleo tensor BFLOAT16* 1,671 teraFLOPS
Núcleo Tensor FP16* 1,671 teraFLOPS
Núcleo Tensor FP8* 3,341 teraFLOPS
Núcleo tensor INT8* 3,341 TOPS
Memória GPU 94GB
Largura de banda da memória da GPU 3.9 TB / s
Decodificadores 7 NVDEC
7 JPEG.webp
Potência térmica máxima de projeto (TDP) 350-400W (configurável)
GPUs de várias instâncias Até 7 MIGS @ 12 GB cada
Fator de Forma PCIe
refrigerado a ar de dois slots
Interconexão NVIDIA NVLink: 600 GB/s
PCIe Gen5: 128 GB/s
Opções do servidor Sistemas parceiros e certificados pela NVIDIA com 1 a 8 GPUs
NVIDIA IA Empresarial Incluído

Os usuários podem escolher entre memória de alta velocidade para desktop com Kingston Fury (ideal para tarefas com menor latência) ou uma capacidade maior de 512 GB com Kingston Server Premier para confiabilidade de nível empresarial e cargas de trabalho com maior uso intensivo de memória.

Comino Grando H100: Refrigeração e Potência

Assim como nas iterações anteriores do Grando, a filosofia de design aqui é tanto sobre praticidade quanto sobre desempenho. Seu avançado sistema de resfriamento interno apresenta uma configuração de bloco de água personalizada que mantém todos os componentes resfriados, mesmo sob cargas de trabalho pesadas.

Este sistema de resfriamento líquido garante que as GPUs mantenham o desempenho máximo sem limitação térmica, ao mesmo tempo em que reduz os níveis de ruído. Ao contrário das construções de servidores convencionais que dependem de ventiladores grandes e barulhentos, a solução de resfriamento líquido do Grando é eficiente e bem projetada. A arquitetura de resfriamento inclui um bloco de distribuição de água centralizado com conexões de desconexão rápida sem gotejamento, permitindo fácil manutenção com risco mínimo de vazamentos ou derramamentos.

Comino Grando H100 traseira

Com quatro PSUs de 1600 W separadas, o Grando H100 pode manter o tempo de atividade mesmo com uma falha na fonte de alimentação, um recurso crítico para ambientes corporativos onde o tempo de inatividade precisa ser evitado a todo custo. Essas fontes de alimentação funcionam juntas perfeitamente para garantir uma entrega de energia consistente, mesmo sob cargas extremas das GPUs 7995WX e H100 duplas.

Comino Grando H100: Design e Construção

Além de energia e resfriamento, o layout do Comino Grando H100 é organizado para fornecer acesso fácil a componentes críticos. Revisamos o design e a construção em detalhes em nossa análise anterior Crítica Comino Grando, então abordaremos os destaques.

O painel frontal tem uma matriz de E/S abrangente, incluindo conectores de áudio, várias portas USB e opções de conectividade de rede, tornando-o adequado para ambientes montados em rack e uso autônomo. O display LED integrado é mais do que apenas um toque decorativo. Ele fornece dados de telemetria em tempo real, incluindo temperaturas do ar e do líquido de arrefecimento, velocidades do ventilador e status da bomba.

Os botões de menu retroiluminados facilitam a navegação dos usuários por essas informações. Eles também permitem acesso a configurações e diagnósticos mais profundos para monitoramento e ajustes, aprimorando a usabilidade e a conveniência para manutenção regular.

No interior, cada componente é organizado para evitar movimento durante o transporte, com reforço adicional em torno de partes sensíveis como GPUs e SSDs. Isso reflete a dedicação da Grando em garantir que seus servidores sejam duráveis ​​e entregues com segurança.

O servidor Comino também é fácil de manter e consertar. Os cabos, tubos e componentes são muito bem roteados, dando ao interior uma aparência limpa, quase modular. Isso também desempenha um papel prático no fluxo de ar e na facilidade de manutenção, tornando mais fácil isolar e endereçar qualquer componente sem interromper o resto da configuração.

Desempenho do servidor Comino Grando H100

Agora, vamos nos aprofundar em como essas escolhas de construção impactam o desempenho no mundo real. Compararemos essa configuração com os dois modelos Comino Grando que analisamos no início deste ano e discutiremos benchmarks específicos em tarefas computacionais e gráficas. Também compararemos com o Supermicro AS-2115HV-TNRT.

Sistemas testados

Nossas Servidor Grando H100 build apresenta o processador AMD Threadripper PRO 7995WX, que fornece 96 núcleos e 192 threads, tornando-o a CPU com maior densidade de núcleos nesta linha. O sistema é alimentado por 512 GB de memória Kingston Server Premier DDR5, projetada para cargas de trabalho de alta largura de banda e multitarefa intensiva. A configuração da GPU inclui duas GPUs NVIDIA H100 NVL com 94 GB de memória cada.

GPUs Comino Grando H100

A Supermicro AS-2115HV-TNRT O sistema usa o mesmo AMD Threadripper PRO 7995WX, mas inclui 520 GB de memória DDR5-4800 ECC e quatro GPUs NVIDIA RTX 6000 Ada. Essas GPUs são orientadas para renderização gráfica de ponta e tarefas de visualização profissional. O sistema Supermicro também tem um Micron 7450 Max 3.2TB NVMe.

The Grando Server que analisamos no início deste ano apresentou o processador AMD Threadripper PRO 5995WX, uma CPU de 64 núcleos e 128 threads, juntamente com 512 GB de RAM e seis GPUs NVIDIA RTX 4090. Esta configuração focou fortemente no desempenho gráfico, com as RTX 4090s fornecendo alto rendimento para renderização e cargas de trabalho de GPU de uso geral. O sistema também incluiu 4x PSUs de 1600 W e um SSD NVMe de 2 TB.

O outro sistema Comino é o de 3975 W Estação de trabalho Grando, que oferece 32 núcleos e 64 threads. Sua configuração de GPU consiste em quatro GPUs NVIDIA A100, enfatizando um equilíbrio entre cargas de trabalho focadas em computação e tarefas de visualização. Ele foi pareado com 512 GB de RAM e um SSD NVMe de 2 TB, tornando-o menos denso computacionalmente do que os sistemas mais novos, mas capaz de lidar com fluxos de trabalho exigentes.

É importante notar que o Grando Server anterior que analisamos provavelmente fornecerá desempenho superior em benchmarks focados em GPU, particularmente aqueles relacionados a tarefas de renderização e visualização. As GPUs RTX 4090 são projetadas para cargas de trabalho gráficas de ponta, fornecendo poder computacional substancial para tais aplicações.

As GPUs Nvidia H100 são aceleradores de computação desenvolvidos para esse propósito que omitem deliberadamente saídas de vídeo e recursos de consumidor, tornando-os puramente focados em cargas de trabalho de data center. Ao contrário de suas contrapartes Consumer e Workstation, as H100s não incluem portas de vídeo ou drivers gráficos do Windows, pois são projetadas para operação de servidor headless. A ausência de hardware de codificação NVENC enfatiza ainda mais sua natureza somente de computação, otimizando o espaço do chip para tarefas de IA e HPC em vez de codificação de mídia.

Resultados de referência

Blender 4.0

Nosso primeiro benchmark é o Blender, um conjunto abrangente de criação 3D de código aberto para projetos de modelagem, animação, simulação e renderização. Os benchmarks do Blender avaliam o desempenho de um sistema na renderização de cenas complexas, um aspecto crucial para profissionais em efeitos visuais, animação e desenvolvimento de jogos. Este benchmark mede as capacidades de renderização de CPU e GPU, que são relevantes para servidores e estações de trabalho projetados para processamento gráfico de ponta e tarefas computacionais.

Aqui, a configuração do Grando H100 Server se destaca em testes baseados em CPU devido à alta contagem de núcleos do AMD Threadripper PRO 7995WX. Ele supera consistentemente os outros sistemas como o Supermicro AS-2115HV-TNRT em tarefas de renderização como cenas Monster, Junkshop e Classroom. No entanto, os testes de GPU revelam as limitações das GPUs H100 em cargas de trabalho de renderização gráfica. Enquanto a configuração H100 fornece resultados decentes, sistemas com GPUs de uso mais geral têm desempenho significativamente melhor, como o RTX 6000 Ada ou RTX 4090. Isso destaca a especialização do H100 em tarefas computacionais em vez de gráficas.

liqüidificador
(Amostras por minuto; quanto maior, melhor)
Servidor Grando
(AMD 7995WX, 2x H100)
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) Supermicro AS-2115HV-TNRT com overclock (AMD 7995WX, 4x RTX 6000 Ada)
Testes de CPU do Blender 4.2
Monstro  1,352.19 931 969
sucata  969.44 682 640
Sala de aula 683.30 451 472
Testes de GPU do Blender 4.2
Monstro 2,521 5,745 N/D
sucata 1,888.28 2,698 N/D
Sala de aula 1,401.96 2,824 N/D

Os servidores Grando revisados ​​anteriormente foram testados no Blender versão 4.0. Aqui estão os resultados:

liqüidificador
(Amostras por minuto; quanto maior, melhor)
Grande Servidor
(TR W5995WX, 512 GB, 6x 4090)
Estação de trabalho Grando
(TR 3975WX, 512 GB, 4x A100)
Testes de CPU do Blender 4.0
Monstro  568.02 334.40
sucata  386.53 231.90
Sala de aula 293.91 174.21
Testes de GPU do Blender 4.0
Monstro 5,880.71 1,656.34
sucata 2,809.36 1,137.73
Sala de aula 2,895.54 953.46

Teste de velocidade Blackmagic RAW

O Blackmagic RAW Speed ​​Test mede a velocidade de processamento para formatos de vídeo de alta qualidade, aspecto essencial para servidores e estações de trabalho na produção e edição de vídeos. Ele avalia como os sistemas gerenciam arquivos de vídeo RAW, afetando a eficiência do fluxo de trabalho e a produtividade em ambientes de produção de mídia.

No Blackmagic RAW Speed ​​Test, o Grando Server H100 demonstra forte desempenho de CPU na decodificação de vídeo 8K RAW, mas fica aquém em atividades baseadas em CUDA, já que o T1000 menor lidou com isso neste sistema. Sistemas com GPUs como a RTX 4090 e a RTX 6000 Ada oferecem suporte a DirectX no Windows, enquanto as GPUs focadas em empresas não têm esse suporte nativamente.

Teste de velocidade Blackmagic RAW Servidor Grando
(AMD 7995WX, 2x H100)
Grande Servidor
(TR W5995WX, 512 GB, 6x 4090)
Estação de trabalho Grando
(TR 3975WX, 512 GB, 4x A100)
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada)
CPU 8K 156 FPS 132 FPS 135 FPS 132 fps
8K CUDA 144 FPS 345 FPS 309 FPS 664 fps

Compressão 7-zip

O benchmark de compactação 7-zip testa a eficiência de um sistema no tratamento da compactação e descompactação de dados, o que é crucial para gerenciar grandes conjuntos de dados e otimizar o armazenamento. Este benchmark reflete o desempenho de servidores e estações de trabalho em operações com uso intensivo de dados, onde a velocidade e a eficiência na manipulação de dados são vitais.

Aqui, o Grando Servidores entregou os melhores resultados de compressão e descompressão entre os sistemas testados. No entanto, em eficiência geral, a configuração AS-2115HV-TNRT com overclock da Supermicro chega perto.

Benchmark de compactação 7-Zip (quanto maior, melhor) Servidor Grando
(AMD 7995WX, 2x H100)
Grande Servidor
(TR W5995WX, 512 GB, 6x 4090)
Estação de trabalho Grando
(TR 3975WX, 512 GB, 4x A100)
Supermicro AS-2115HV-TNRT
(AMD 7995WX, 4x RTX 6000 Ada)
Supermicro AS-2115HV-TNRT – Com overclock
(AMD 7995WX, 4x RTX 6000 Ada)
Compressão
Uso atual da CPU 5,582% 3,379% 3,439% 5,571% 6,456%
Classificação/uso atual 8.627 GIP 7.630 GIP 7.094 GIP 7.835 GIP 9.373 GIP
Classificação da corrente 481.539 GIP 257.832 GIP 243.994 GIP 436.490 GIP 605.097 GIP
Uso de CPU resultante 5,561% 3,362% 3,406% 5,599% 6,433%
Classificação/uso resultante 8.631 GIP 7.697 GIP 7.264 GIP 7.863 GIP 9.420 GIP
Avaliação resultante 480.006 GIP 258.756 GIP 247.396 GIP 440.288 GIP 605.984 GIP
Descomprimindo
Uso atual da CPU 6,270% 6,015% 6,286% 6,223% 6,343%
Classificação/uso atual 7.411 GIP 5.585 GIP 5.434 GIP 7.215 GIP 9.810 GIP
Classificação da corrente 464.701 GIP 335.958 GIP 341.599 GIP 449.012 GIP 622.250 GIP
Uso de CPU resultante 6,238% 6,053% 6,269% 6,213% 6,312%
Classificação/uso resultante 7.589 GIP 5.603 GIP 5.468 GIP 7.165 GIP 9.834 GIP
Avaliação resultante 473.375 GIP 339.171 GIP 342.766 GIP 445.130 GIP 620.749 GIP
Avaliações totais
Uso total da CPU 5,900% 4,708% 4,837% 5,906% 6,373%
Avaliação/uso total 8.110 GIP 6.650 GIP 6.366 GIP 7.514 GIP 9.627 GIP
Avaliação Total 476.690 GIP 298.963 GIP 295.081 GIP 442.709 GIP 613.366 GIP

Triturador em Y

Y-Cruncher é um benchmark computacional que testa a capacidade de um sistema de lidar com operações matemáticas complexas, calculando Pi com precisão em trilhões de dígitos. Este benchmark indica o poder computacional de servidores e estações de trabalho, especialmente para uso em pesquisas científicas e simulações que exigem processamento intensivo de números.

No Y-Cruncher, a configuração Grando Server H100 se destaca no tempo total de computação para calcular Pi em todos os níveis de dígitos. A alta contagem de núcleos do AMD Threadripper PRO 7995WX garante que este sistema lidere em tarefas intensivas de CPU. No entanto, a configuração Supermicro AS-2115HV-TNRT com overclock reduz a lacuna significativamente, mostrando os benefícios do ajuste de desempenho otimizado para essas cargas de trabalho.

Y-Cruncher (tempo total de cálculo) Servidor Grando
(AMD 7995WX, 2x H100)
Grande Servidor
(TR W5995WX, 512 GB, 6x 4090)
Estação de trabalho Grando
(TR 3975WX, 512 GB, 4x A100)
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) Supermicro AS-2115HV-TNRT – Overlock (AMD 7995WX, 4x RTX 6000 Ada)
1 bilhão de dígitos 7.523 segundos 11.023 segundos 11.759 segundos 8.547 segundos 6.009 segundos
2.5 bilhão de dígitos 15.392 segundos 28.693 segundos 32.073 segundos 17.493 segundos 13.838 segundos
5 bilhão de dígitos 29.420 segundos 61.786 segundos 69.869 segundos 33.584 segundos 27.184 segundos
10 bilhão de dígitos 60.089 segundos 130.547 segundos 151.820 segundos 67.849 segundos 58.283 segundos
25 bilhão de dígitos 214.246 segundos 353.858 segundos 425.824 segundos 182.880 segundos 161.913 segundos
50 bilhão de dígitos 594.939 segundos 788.912 segundos 971.086 segundos 417.853 segundos N/D

triturador de y BBP

Este benchmark y-cruncher utiliza as fórmulas Bailey-Borwein-Plouffe (BBP) para calcular dígitos hexadecimais massivos de Pi, medindo o tempo total de computação da CPU, a utilização e a eficiência multinúcleo.

O benchmark BBP y-cruncher destaca a eficiência do Grando Server H100 em lidar com tarefas computacionais massivas. Em todos os testes, o Grando Server tem um bom desempenho, alcançando o tempo de computação total mais rápido para cálculos de 1 BBP e 10 BBP. Sua eficiência multi-core no teste de 100 BBP, em 98.68%, é ligeiramente menor do que os sistemas Supermicro AS-2115HV-TNRT, mas ainda altamente eficaz. A configuração Supermicro com overclock supera o Supermicro padrão em tempo total para todos os níveis de BBP. Ainda assim, o Grando H100 lidera consistentemente em velocidade de computação do mundo real para tarefas BBP menores, provavelmente devido aos seus recursos de multithreading otimizados e rápida troca de contexto.

No entanto, em relação à utilização da CPU, os sistemas Supermicro demonstram uma eficiência de uso do núcleo ligeiramente melhor, indicando que podem aproveitar sua arquitetura de forma mais eficaz para cargas de trabalho paralelas sustentadas.

referência Servidor Grando
(AMD 7995WX, 2x H100)
Supermicro AS-2115HV-TNRT
(AMD 7995WX, 4x RTX 6000 Ada)
Supermicro AS-2115HV-TNRT – Overlock
(AMD 7995WX, 4x RTX 6000 Ada)
1 BBP
  • Tempo total: 0.173 segundos
  • Utilização da CPU: 6,140.43%
  • Eficiência multi-core: 31.98%
  • Tempo total: 0.256 segundos
  • Utilização da CPU: 7,061.79%
  • Eficiência multi-core: 36.78%
  • Tempo total: 0.178 segundos
  • Utilização da CPU: 3,968.01%
  • Eficiência multinúcleo: 41.33%
10 BBP
  • Tempo total: 1.301 segundos
  • Utilização da CPU: 16,590.73%
  • Eficiência multinúcleo: 84.41%
  • Tempo total: 2.006 segundos
  • Utilização da CPU: 17,317.36%
  • Eficiência multi-core: 90.19%
  • Tempo total: 1.458 segundos
  • Utilização da CPU: 8,574.02%
  • Eficiência multinúcleo: 89.31%
100 BBP
  • Tempo total: 13.966 segundos
  • Utilização da CPU: 18,846.58%
  • Eficiência multinúcleo: 98.68%
  • Tempo total: 21.434 segundos
  • Utilização da CPU: 18,989.11%
  • Eficiência multi-core: 98.90%
  • Tempo total: 15.876 segundos
  • Utilização da CPU: 9,488.48%
  • Eficiência multinúcleo: 98.84%

Geekbench 6

O Geekbench 6 mede o desempenho computacional de CPUs e GPUs, abrangendo recursos de núcleo único e multinúcleo e poder de processamento gráfico. Este benchmark é essencial para avaliar a eficiência geral da computação de servidores e estações de trabalho em diversas tarefas, incluindo simulações, análise de dados e renderização de gráficos.

Os resultados do Geekbench 6 demonstram que o Grando Server H100 tem um desempenho de primeira linha em tarefas de CPU multi-core, graças ao seu processador de 96 núcleos. No entanto, em pontuações de GPU, a configuração H100 supera o Supermicro AS-2115HV-TNRT, que aproveita as GPUs RTX 6000 Ada para desempenho gráfico superior.

Geekbench 6 (quanto maior, melhor) Servidor Grando
(AMD 7995WX, 2x H100)
Servidor Grando (TR W5995WX, 512 GB, 6x 4090) Estação de trabalho Grando (TR 3975WX, 512 GB, 4x A100) Supermicro AS-2115HV-TNRT
(AMD 7995WX, 4x RTX 6000 Ada)
CPU de núcleo único 2,893 2,127 2,131 2,875
CPU multinúcleo 28,600 21,621 20,411 24,985
GPU 298,220 294,894 193,447 307,510

Cinebench R23

Cinebench R23 mede a capacidade de renderização da CPU, com foco no desempenho de núcleo único e multinúcleo. É uma referência essencial para avaliar o desempenho de um servidor ou estação de trabalho na criação de conteúdo, renderização 3D e outras tarefas que exigem uso intensivo da CPU. O MP Ratio (taxa de desempenho multi-core) fornece ainda mais informações sobre a eficiência com que um sistema utiliza seus múltiplos núcleos.

A configuração H100 lidera em desempenho multi-core, alavancando a contagem massiva de núcleos do Threadripper PRO 7995WX. No entanto, seu desempenho single-core está no mesmo nível dos outros sistemas. O MP Ratio enfatiza a escalabilidade do 7995WX em aplicativos multi-threaded. Ainda assim, a natureza agnóstica de GPU deste benchmark impede que a configuração H100 mostre quaisquer limitações relacionadas à GPU, fazendo com que pareça mais competitiva em todos os aspectos.

Cinebench R23
(Mais alto é melhor)
Servidor Grando
(AMD 7995WX, 2x H100)
Servidor Grando (TR W5995WX, 512 GB, 6x 4090) Estação de trabalho Grando (TR 3975WX, 512 GB, 4x A100) Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) Supermicro AS-2115HV-TNRT – Overlock (AMD 7995WX, 4x RTX 6000 Ada)
CPU multinúcleo  159,930 pts 73,556 pontos 49,534 pontos 111,792 pts 132,044 pontos
CPU de núcleo único 1,876 pontos 1,484 pontos 1,468 pontos 1,864 pontos 1,887 pontos
Taxa de MP 85.26 x 49.56x 33.75x 59.98x 69.99x

Armazenamento direto da GPU

Um dos testes que conduzimos neste servidor foi o teste Magnum IO GPU Direct Storage (GDS). GDS é um recurso desenvolvido pela NVIDIA que permite que GPUs ignorem a CPU ao acessar dados armazenados em unidades NVMe ou outros dispositivos de armazenamento de alta velocidade. Em vez de rotear dados pela CPU e pela memória do sistema, o GDS permite a comunicação direta entre a GPU e o dispositivo de armazenamento, reduzindo significativamente a latência e melhorando a taxa de transferência de dados.

Como funciona o armazenamento direto da GPU

Tradicionalmente, quando uma GPU processa dados armazenados em uma unidade NVMe, os dados devem primeiro viajar pela CPU e pela memória do sistema antes de chegar à GPU. Esse processo introduz gargalos, pois a CPU se torna um intermediário, adicionando latência e consumindo recursos valiosos do sistema. O GPU Direct Storage elimina essa ineficiência ao permitir que a GPU acesse dados diretamente do dispositivo de armazenamento por meio do barramento PCIe. Esse caminho direto reduz a sobrecarga associada à movimentação de dados, permitindo transferências de dados mais rápidas e eficientes.

Cargas de trabalho de IA, especialmente aquelas que envolvem aprendizado profundo, são altamente intensivas em dados. O treinamento de grandes redes neurais geralmente requer o processamento de terabytes de dados, e qualquer atraso na transferência de dados pode levar a GPUs subutilizadas e tempos de treinamento mais longos. O GPU Direct Storage aborda esse desafio garantindo que os dados sejam entregues à GPU o mais rápido possível, minimizando o tempo ocioso e maximizando a eficiência computacional.

Além disso, o GDS é particularmente benéfico para cargas de trabalho que envolvem streaming de grandes conjuntos de dados, como processamento de vídeo, processamento de linguagem natural ou inferência em tempo real. Ao reduzir a dependência da CPU, o GDS acelera a movimentação de dados e libera recursos da CPU para outras tarefas, aprimorando ainda mais o desempenho geral do sistema.

Testamos exaustivamente o servidor conduzindo uma avaliação GDSIO extensiva no Comino Grando, explorando várias configurações para avaliar seu desempenho em diferentes cenários. Esse tipo de teste é crucial para um servidor desse calibre, pois simula ambientes semelhantes a estações de trabalho e fornece insights sobre suas capacidades durante testes ablativos para treinar grandes modelos. Para armazenamento, aproveitamos um SSD Solidigm D7-PS1010 Gen5.

Matriz de configuração de teste

Testamos sistematicamente cada combinação dos seguintes parâmetros:

  • Tamanhos de bloco: 1M, 128K, 64K, 16K, 8K
  • Contagem de fios: 128, 64, 32, 16, 8, 4, 1
  • Contagens de tarefas: 16, 8, 4, 1
  • Tamanhos de lote: 32, 16, 8, 4, 1

Para esta revisão, focamos no throughput de leitura e gravação sequencial. Executamos cada carga de trabalho GDSIO em seu tamanho de bloco e contagem de threads fornecidos em vários tamanhos de trabalho e lote. Os números relatados são as médias de cada combinação de trabalho e contagem de lote.

Análise de Desempenho

Cargas de trabalho de IA, particularmente na fase de treinamento, exigem processamento eficiente de grandes quantidades de dados. Essas cargas de trabalho normalmente se beneficiam de grandes tamanhos de bloco que podem maximizar o rendimento ao ler conjuntos de dados de treinamento ou escrever pontos de verificação de modelo. Em nossos testes abrangentes de recursos de armazenamento direto de GPU, focamos em vários padrões e configurações de E/S para entender as características de desempenho do sistema.

O desempenho de E/S sequencial com tamanhos de bloco de 1M demonstrou resultados impressionantes entre nossas configurações de teste. O sistema atingiu uma notável taxa de transferência de leitura sequencial de 8.56 GiB/s (tamanho de bloco de 1M, tamanho de lote 4, profundidade de E/S 128 e 128 threads em 16 trabalhos). Esse nível de desempenho é particularmente benéfico para cargas de trabalho que envolvem o carregamento de grandes modelos pré-treinados, o processamento de conjuntos de dados extensos durante as fases de treinamento ou o manuseio de fluxos de dados sequenciais, como processamento de vídeo para aplicativos de visão computacional.

Para operações de gravação sequencial, o sistema entregou 7.57 GiB/s (tamanho de bloco de 1 M, tamanho de lote 8, profundidade de E/S 16, com 16 threads em 8 trabalhos), tornando-o altamente eficaz para cenários que exigem pontos de verificação de modelo frequentes durante o treinamento distribuído, salvando resultados intermediários ou gravando dados processados ​​em operações em lote.

Conclusão

O servidor Comino Grando H100 é uma adição impressionante à linha da empresa, oferecendo uma alternativa única às suas outras configurações. Alimentado por uma CPU AMD Threadripper PRO 7995WX e 512 GB de memória DDR5, expansível até 1 TB, o sistema Grando é destacado por duas GPUs NVIDIA H100 NVL. Embora essa configuração forneça desempenho excepcional para fluxos de trabalho orientados por IA, ela tem o custo do desempenho da GPU em benchmarks de renderização tradicionais (como Luxmark e OctaneBench), onde sistemas como o Grando Server equipado com RTX 4090 e as configurações Supermicro com RTX 6000 Ada lideram. Dito isso, o desempenho do H100 em testes intensivos de CPU, como renderização multi-core do Blender, compressão 7-Zip e Y-Cruncher, supera consistentemente os outros sistemas testados.

Em relação ao design, o Comino Grando H100 Server pode acomodar componentes de alto desempenho em um formato compacto, algo que geralmente é um desafio para chassis padrão. Graças ao seu sistema personalizado Direct Liquid Cooling (DLC), o servidor pode facilmente lidar com configurações como GPUs NVIDIA H100 duplas. Esta solução de resfriamento avançada mantém o calor sob controle e garante que o sistema permaneça estável durante tarefas exigentes de alto desempenho. O que é particularmente único sobre este novo sistema Comino é como ele consegue alavancar principalmente hardware de nível de consumidor para criar uma solução que é eficiente e relativamente acessível, tornando-o uma opção atraente para profissionais e empresas que buscam maximizar a potência da GPU sem gastar muito.

No geral, o Comino Grando H100 é uma excelente escolha para empresas e profissionais que priorizam otimização de IA, tarefas computacionais e confiabilidade em ambientes exigentes. Seu design exclusivo e inovações de resfriamento oferecem flexibilidade e desempenho para cargas de trabalho orientadas por IA. No entanto, configurações alternativas como o Grando Server equipado com RTX 4090 ou sistemas com tecnologia RTX 6000 Ada podem ser mais adequadas para usuários focados na renderização de GPU tradicional.

Sistemas Comino

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed