O servidor Comino Grando H100 oferece 2 GPUs NVIDIA H100, refrigeração líquida e AMD Threadripper PRO 7995WX, projetado para cargas de trabalho de IA e HPC.
O Comino Grando H100 Server é o lançamento mais recente na linha da empresa. Ele atende a usuários que precisam de energia com precisão refinada e refrigerada a líquido. Esta configuração Grando introduz diferentes aprimoramentos de hardware e design. No entanto, ele ainda é bem adequado para aplicativos de alta demanda, de IA e aprendizado de máquina a análises complexas de dados e renderização visual.
Em nossa nova configuração H100, a Comino escolheu uma CPU poderosa: a AMD Ryzen Threadripper PRO 7995WX, que se destaca para tarefas de computação de alto núcleo e alto nível de threads.
Esta CPU de 96 núcleos é ideal para processamento paralelizado, onde os usuários podem executar conjuntos de dados extensos ou lidar com aplicativos multithread que prosperam em mais núcleos e threads. A placa-mãe ASUS SAGE WRX90 complementa esta CPU e fornece a arquitetura para suportar as necessidades aprimoradas de memória e conectividade do H100.
Comino Grando H100: Opções de processador e memória
Com 96 núcleos/192 threads, arquitetura Zen 4 e tecnologia avançada de 5 nm, ele foi criado para lidar facilmente com tarefas como renderização 3D, edição de vídeo e simulações complexas. Ele apresenta um clock base de 2.5 GHz (aumentando para 5.1 GHz), tornando-o ideal para tarefas multithread e single-thread. Ele suporta até 2 TB de memória DDR5 em oito canais, fornecendo largura de banda massiva para conjuntos de dados massivos. Além disso, sua compatibilidade com a plataforma WRX90 significa amplas pistas PCIe Gen5 para armazenamento de alta velocidade e configurações de GPU.
A configuração da GPU neste modelo Grando apresenta duas GPUs NVIDIA H100 NVL com 94 GB de memória cada. Esta configuração de GPU dupla oferece impressionantes 188 GB de memória de GPU, melhorando o desempenho para aplicativos exigentes. É especialmente benéfico para profissionais em inteligência artificial, renderização 3D e simulações científicas, onde as limitações de memória da GPU podem impactar a produtividade. O modelo Grando é uma excelente escolha para aqueles que precisam de recursos de computação poderosos para lidar com grandes conjuntos de dados e tarefas complexas de forma eficiente. E graças ao resfriamento líquido da Comino, essas GPUs de alta potência podem operar em um fator de forma de slot único, alcançando densidades que os sistemas tradicionais resfriados a ar não conseguem igualar.
Especificações da GPU NVIDIA H100 NVL
FP64 | 30 teraFLOPs |
Núcleo Tensor FP64 | 60 teraFLOPs |
FP32 | 60 teraFLOPs |
Núcleo tensor TF32* | 835 teraFLOPs |
Núcleo tensor BFLOAT16* | 1,671 teraFLOPS |
Núcleo Tensor FP16* | 1,671 teraFLOPS |
Núcleo Tensor FP8* | 3,341 teraFLOPS |
Núcleo tensor INT8* | 3,341 TOPS |
Memória GPU | 94GB |
Largura de banda da memória da GPU | 3.9 TB / s |
Decodificadores | 7 NVDEC 7 JPEG.webp |
Potência térmica máxima de projeto (TDP) | 350-400W (configurável) |
GPUs de várias instâncias | Até 7 MIGS @ 12 GB cada |
Fator de Forma | PCIe refrigerado a ar de dois slots |
Interconexão | NVIDIA NVLink: 600 GB/s PCIe Gen5: 128 GB/s |
Opções do servidor | Sistemas parceiros e certificados pela NVIDIA com 1 a 8 GPUs |
NVIDIA IA Empresarial | Incluído |
Os usuários podem escolher entre memória de alta velocidade para desktop com Kingston Fury (ideal para tarefas com menor latência) ou uma capacidade maior de 512 GB com Kingston Server Premier para confiabilidade de nível empresarial e cargas de trabalho com maior uso intensivo de memória.
Comino Grando H100: Refrigeração e Potência
Assim como nas iterações anteriores do Grando, a filosofia de design aqui é tanto sobre praticidade quanto sobre desempenho. Seu avançado sistema de resfriamento interno apresenta uma configuração de bloco de água personalizada que mantém todos os componentes resfriados, mesmo sob cargas de trabalho pesadas.
Este sistema de resfriamento líquido garante que as GPUs mantenham o desempenho máximo sem limitação térmica, ao mesmo tempo em que reduz os níveis de ruído. Ao contrário das construções de servidores convencionais que dependem de ventiladores grandes e barulhentos, a solução de resfriamento líquido do Grando é eficiente e bem projetada. A arquitetura de resfriamento inclui um bloco de distribuição de água centralizado com conexões de desconexão rápida sem gotejamento, permitindo fácil manutenção com risco mínimo de vazamentos ou derramamentos.
Com quatro PSUs de 1600 W separadas, o Grando H100 pode manter o tempo de atividade mesmo com uma falha na fonte de alimentação, um recurso crítico para ambientes corporativos onde o tempo de inatividade precisa ser evitado a todo custo. Essas fontes de alimentação funcionam juntas perfeitamente para garantir uma entrega de energia consistente, mesmo sob cargas extremas das GPUs 7995WX e H100 duplas.
Comino Grando H100: Design e Construção
Além de energia e resfriamento, o layout do Comino Grando H100 é organizado para fornecer acesso fácil a componentes críticos. Revisamos o design e a construção em detalhes em nossa análise anterior Crítica Comino Grando, então abordaremos os destaques.
O painel frontal tem uma matriz de E/S abrangente, incluindo conectores de áudio, várias portas USB e opções de conectividade de rede, tornando-o adequado para ambientes montados em rack e uso autônomo. O display LED integrado é mais do que apenas um toque decorativo. Ele fornece dados de telemetria em tempo real, incluindo temperaturas do ar e do líquido de arrefecimento, velocidades do ventilador e status da bomba.
Os botões de menu retroiluminados facilitam a navegação dos usuários por essas informações. Eles também permitem acesso a configurações e diagnósticos mais profundos para monitoramento e ajustes, aprimorando a usabilidade e a conveniência para manutenção regular.
No interior, cada componente é organizado para evitar movimento durante o transporte, com reforço adicional em torno de partes sensíveis como GPUs e SSDs. Isso reflete a dedicação da Grando em garantir que seus servidores sejam duráveis e entregues com segurança.
O servidor Comino também é fácil de manter e consertar. Os cabos, tubos e componentes são muito bem roteados, dando ao interior uma aparência limpa, quase modular. Isso também desempenha um papel prático no fluxo de ar e na facilidade de manutenção, tornando mais fácil isolar e endereçar qualquer componente sem interromper o resto da configuração.
Desempenho do servidor Comino Grando H100
Agora, vamos nos aprofundar em como essas escolhas de construção impactam o desempenho no mundo real. Compararemos essa configuração com os dois modelos Comino Grando que analisamos no início deste ano e discutiremos benchmarks específicos em tarefas computacionais e gráficas. Também compararemos com o Supermicro AS-2115HV-TNRT.
Sistemas testados
Nossas Servidor Grando H100 build apresenta o processador AMD Threadripper PRO 7995WX, que fornece 96 núcleos e 192 threads, tornando-o a CPU com maior densidade de núcleos nesta linha. O sistema é alimentado por 512 GB de memória Kingston Server Premier DDR5, projetada para cargas de trabalho de alta largura de banda e multitarefa intensiva. A configuração da GPU inclui duas GPUs NVIDIA H100 NVL com 94 GB de memória cada.
A Supermicro AS-2115HV-TNRT O sistema usa o mesmo AMD Threadripper PRO 7995WX, mas inclui 520 GB de memória DDR5-4800 ECC e quatro GPUs NVIDIA RTX 6000 Ada. Essas GPUs são orientadas para renderização gráfica de ponta e tarefas de visualização profissional. O sistema Supermicro também tem um Micron 7450 Max 3.2TB NVMe.
The Grando Server que analisamos no início deste ano apresentou o processador AMD Threadripper PRO 5995WX, uma CPU de 64 núcleos e 128 threads, juntamente com 512 GB de RAM e seis GPUs NVIDIA RTX 4090. Esta configuração focou fortemente no desempenho gráfico, com as RTX 4090s fornecendo alto rendimento para renderização e cargas de trabalho de GPU de uso geral. O sistema também incluiu 4x PSUs de 1600 W e um SSD NVMe de 2 TB.
O outro sistema Comino é o de 3975 W Estação de trabalho Grando, que oferece 32 núcleos e 64 threads. Sua configuração de GPU consiste em quatro GPUs NVIDIA A100, enfatizando um equilíbrio entre cargas de trabalho focadas em computação e tarefas de visualização. Ele foi pareado com 512 GB de RAM e um SSD NVMe de 2 TB, tornando-o menos denso computacionalmente do que os sistemas mais novos, mas capaz de lidar com fluxos de trabalho exigentes.
É importante notar que o Grando Server anterior que analisamos provavelmente fornecerá desempenho superior em benchmarks focados em GPU, particularmente aqueles relacionados a tarefas de renderização e visualização. As GPUs RTX 4090 são projetadas para cargas de trabalho gráficas de ponta, fornecendo poder computacional substancial para tais aplicações.
As GPUs Nvidia H100 são aceleradores de computação desenvolvidos para esse propósito que omitem deliberadamente saídas de vídeo e recursos de consumidor, tornando-os puramente focados em cargas de trabalho de data center. Ao contrário de suas contrapartes Consumer e Workstation, as H100s não incluem portas de vídeo ou drivers gráficos do Windows, pois são projetadas para operação de servidor headless. A ausência de hardware de codificação NVENC enfatiza ainda mais sua natureza somente de computação, otimizando o espaço do chip para tarefas de IA e HPC em vez de codificação de mídia.
Resultados de referência
Blender 4.0
Nosso primeiro benchmark é o Blender, um conjunto abrangente de criação 3D de código aberto para projetos de modelagem, animação, simulação e renderização. Os benchmarks do Blender avaliam o desempenho de um sistema na renderização de cenas complexas, um aspecto crucial para profissionais em efeitos visuais, animação e desenvolvimento de jogos. Este benchmark mede as capacidades de renderização de CPU e GPU, que são relevantes para servidores e estações de trabalho projetados para processamento gráfico de ponta e tarefas computacionais.
Aqui, a configuração do Grando H100 Server se destaca em testes baseados em CPU devido à alta contagem de núcleos do AMD Threadripper PRO 7995WX. Ele supera consistentemente os outros sistemas como o Supermicro AS-2115HV-TNRT em tarefas de renderização como cenas Monster, Junkshop e Classroom. No entanto, os testes de GPU revelam as limitações das GPUs H100 em cargas de trabalho de renderização gráfica. Enquanto a configuração H100 fornece resultados decentes, sistemas com GPUs de uso mais geral têm desempenho significativamente melhor, como o RTX 6000 Ada ou RTX 4090. Isso destaca a especialização do H100 em tarefas computacionais em vez de gráficas.
liqüidificador (Amostras por minuto; quanto maior, melhor) |
Servidor Grando (AMD 7995WX, 2x H100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) | Supermicro AS-2115HV-TNRT com overclock (AMD 7995WX, 4x RTX 6000 Ada) |
Testes de CPU do Blender 4.2 | |||
Monstro | 1,352.19 | 931 | 969 |
sucata | 969.44 | 682 | 640 |
Sala de aula | 683.30 | 451 | 472 |
Testes de GPU do Blender 4.2 | |||
Monstro | 2,521 | 5,745 | N/D |
sucata | 1,888.28 | 2,698 | N/D |
Sala de aula | 1,401.96 | 2,824 | N/D |
Os servidores Grando revisados anteriormente foram testados no Blender versão 4.0. Aqui estão os resultados:
liqüidificador (Amostras por minuto; quanto maior, melhor) |
Grande Servidor (TR W5995WX, 512 GB, 6x 4090) |
Estação de trabalho Grando (TR 3975WX, 512 GB, 4x A100) |
Testes de CPU do Blender 4.0 | ||
Monstro | 568.02 | 334.40 |
sucata | 386.53 | 231.90 |
Sala de aula | 293.91 | 174.21 |
Testes de GPU do Blender 4.0 | ||
Monstro | 5,880.71 | 1,656.34 |
sucata | 2,809.36 | 1,137.73 |
Sala de aula | 2,895.54 | 953.46 |
Teste de velocidade Blackmagic RAW
O Blackmagic RAW Speed Test mede a velocidade de processamento para formatos de vídeo de alta qualidade, aspecto essencial para servidores e estações de trabalho na produção e edição de vídeos. Ele avalia como os sistemas gerenciam arquivos de vídeo RAW, afetando a eficiência do fluxo de trabalho e a produtividade em ambientes de produção de mídia.
No Blackmagic RAW Speed Test, o Grando Server H100 demonstra forte desempenho de CPU na decodificação de vídeo 8K RAW, mas fica aquém em atividades baseadas em CUDA, já que o T1000 menor lidou com isso neste sistema. Sistemas com GPUs como a RTX 4090 e a RTX 6000 Ada oferecem suporte a DirectX no Windows, enquanto as GPUs focadas em empresas não têm esse suporte nativamente.
Teste de velocidade Blackmagic RAW | Servidor Grando (AMD 7995WX, 2x H100) |
Grande Servidor (TR W5995WX, 512 GB, 6x 4090) |
Estação de trabalho Grando (TR 3975WX, 512 GB, 4x A100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
CPU 8K | 156 FPS | 132 FPS | 135 FPS | 132 fps |
8K CUDA | 144 FPS | 345 FPS | 309 FPS | 664 fps |
Compressão 7-zip
O benchmark de compactação 7-zip testa a eficiência de um sistema no tratamento da compactação e descompactação de dados, o que é crucial para gerenciar grandes conjuntos de dados e otimizar o armazenamento. Este benchmark reflete o desempenho de servidores e estações de trabalho em operações com uso intensivo de dados, onde a velocidade e a eficiência na manipulação de dados são vitais.
Aqui, o Grando Servidores entregou os melhores resultados de compressão e descompressão entre os sistemas testados. No entanto, em eficiência geral, a configuração AS-2115HV-TNRT com overclock da Supermicro chega perto.
Benchmark de compactação 7-Zip (quanto maior, melhor) | Servidor Grando (AMD 7995WX, 2x H100) |
Grande Servidor (TR W5995WX, 512 GB, 6x 4090) |
Estação de trabalho Grando (TR 3975WX, 512 GB, 4x A100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
Supermicro AS-2115HV-TNRT – Com overclock (AMD 7995WX, 4x RTX 6000 Ada) |
Compressão | |||||
Uso atual da CPU | 5,582% | 3,379% | 3,439% | 5,571% | 6,456% |
Classificação/uso atual | 8.627 GIP | 7.630 GIP | 7.094 GIP | 7.835 GIP | 9.373 GIP |
Classificação da corrente | 481.539 GIP | 257.832 GIP | 243.994 GIP | 436.490 GIP | 605.097 GIP |
Uso de CPU resultante | 5,561% | 3,362% | 3,406% | 5,599% | 6,433% |
Classificação/uso resultante | 8.631 GIP | 7.697 GIP | 7.264 GIP | 7.863 GIP | 9.420 GIP |
Avaliação resultante | 480.006 GIP | 258.756 GIP | 247.396 GIP | 440.288 GIP | 605.984 GIP |
Descomprimindo | |||||
Uso atual da CPU | 6,270% | 6,015% | 6,286% | 6,223% | 6,343% |
Classificação/uso atual | 7.411 GIP | 5.585 GIP | 5.434 GIP | 7.215 GIP | 9.810 GIP |
Classificação da corrente | 464.701 GIP | 335.958 GIP | 341.599 GIP | 449.012 GIP | 622.250 GIP |
Uso de CPU resultante | 6,238% | 6,053% | 6,269% | 6,213% | 6,312% |
Classificação/uso resultante | 7.589 GIP | 5.603 GIP | 5.468 GIP | 7.165 GIP | 9.834 GIP |
Avaliação resultante | 473.375 GIP | 339.171 GIP | 342.766 GIP | 445.130 GIP | 620.749 GIP |
Avaliações totais | |||||
Uso total da CPU | 5,900% | 4,708% | 4,837% | 5,906% | 6,373% |
Avaliação/uso total | 8.110 GIP | 6.650 GIP | 6.366 GIP | 7.514 GIP | 9.627 GIP |
Avaliação Total | 476.690 GIP | 298.963 GIP | 295.081 GIP | 442.709 GIP | 613.366 GIP |
Triturador em Y
Y-Cruncher é um benchmark computacional que testa a capacidade de um sistema de lidar com operações matemáticas complexas, calculando Pi com precisão em trilhões de dígitos. Este benchmark indica o poder computacional de servidores e estações de trabalho, especialmente para uso em pesquisas científicas e simulações que exigem processamento intensivo de números.
No Y-Cruncher, a configuração Grando Server H100 se destaca no tempo total de computação para calcular Pi em todos os níveis de dígitos. A alta contagem de núcleos do AMD Threadripper PRO 7995WX garante que este sistema lidere em tarefas intensivas de CPU. No entanto, a configuração Supermicro AS-2115HV-TNRT com overclock reduz a lacuna significativamente, mostrando os benefícios do ajuste de desempenho otimizado para essas cargas de trabalho.
Y-Cruncher (tempo total de cálculo) | Servidor Grando (AMD 7995WX, 2x H100) |
Grande Servidor (TR W5995WX, 512 GB, 6x 4090) |
Estação de trabalho Grando (TR 3975WX, 512 GB, 4x A100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) | Supermicro AS-2115HV-TNRT – Overlock (AMD 7995WX, 4x RTX 6000 Ada) |
1 bilhão de dígitos | 7.523 segundos | 11.023 segundos | 11.759 segundos | 8.547 segundos | 6.009 segundos |
2.5 bilhão de dígitos | 15.392 segundos | 28.693 segundos | 32.073 segundos | 17.493 segundos | 13.838 segundos |
5 bilhão de dígitos | 29.420 segundos | 61.786 segundos | 69.869 segundos | 33.584 segundos | 27.184 segundos |
10 bilhão de dígitos | 60.089 segundos | 130.547 segundos | 151.820 segundos | 67.849 segundos | 58.283 segundos |
25 bilhão de dígitos | 214.246 segundos | 353.858 segundos | 425.824 segundos | 182.880 segundos | 161.913 segundos |
50 bilhão de dígitos | 594.939 segundos | 788.912 segundos | 971.086 segundos | 417.853 segundos | N/D |
triturador de y BBP
Este benchmark y-cruncher utiliza as fórmulas Bailey-Borwein-Plouffe (BBP) para calcular dígitos hexadecimais massivos de Pi, medindo o tempo total de computação da CPU, a utilização e a eficiência multinúcleo.
O benchmark BBP y-cruncher destaca a eficiência do Grando Server H100 em lidar com tarefas computacionais massivas. Em todos os testes, o Grando Server tem um bom desempenho, alcançando o tempo de computação total mais rápido para cálculos de 1 BBP e 10 BBP. Sua eficiência multi-core no teste de 100 BBP, em 98.68%, é ligeiramente menor do que os sistemas Supermicro AS-2115HV-TNRT, mas ainda altamente eficaz. A configuração Supermicro com overclock supera o Supermicro padrão em tempo total para todos os níveis de BBP. Ainda assim, o Grando H100 lidera consistentemente em velocidade de computação do mundo real para tarefas BBP menores, provavelmente devido aos seus recursos de multithreading otimizados e rápida troca de contexto.
No entanto, em relação à utilização da CPU, os sistemas Supermicro demonstram uma eficiência de uso do núcleo ligeiramente melhor, indicando que podem aproveitar sua arquitetura de forma mais eficaz para cargas de trabalho paralelas sustentadas.
referência | Servidor Grando (AMD 7995WX, 2x H100) |
Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
Supermicro AS-2115HV-TNRT – Overlock (AMD 7995WX, 4x RTX 6000 Ada) |
1 BBP |
|
|
|
10 BBP |
|
|
|
100 BBP |
|
|
|
Geekbench 6
O Geekbench 6 mede o desempenho computacional de CPUs e GPUs, abrangendo recursos de núcleo único e multinúcleo e poder de processamento gráfico. Este benchmark é essencial para avaliar a eficiência geral da computação de servidores e estações de trabalho em diversas tarefas, incluindo simulações, análise de dados e renderização de gráficos.
Os resultados do Geekbench 6 demonstram que o Grando Server H100 tem um desempenho de primeira linha em tarefas de CPU multi-core, graças ao seu processador de 96 núcleos. No entanto, em pontuações de GPU, a configuração H100 supera o Supermicro AS-2115HV-TNRT, que aproveita as GPUs RTX 6000 Ada para desempenho gráfico superior.
Geekbench 6 (quanto maior, melhor) | Servidor Grando (AMD 7995WX, 2x H100) |
Servidor Grando (TR W5995WX, 512 GB, 6x 4090) | Estação de trabalho Grando (TR 3975WX, 512 GB, 4x A100) | Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) |
CPU de núcleo único | 2,893 | 2,127 | 2,131 | 2,875 |
CPU multinúcleo | 28,600 | 21,621 | 20,411 | 24,985 |
GPU | 298,220 | 294,894 | 193,447 | 307,510 |
Cinebench R23
Cinebench R23 mede a capacidade de renderização da CPU, com foco no desempenho de núcleo único e multinúcleo. É uma referência essencial para avaliar o desempenho de um servidor ou estação de trabalho na criação de conteúdo, renderização 3D e outras tarefas que exigem uso intensivo da CPU. O MP Ratio (taxa de desempenho multi-core) fornece ainda mais informações sobre a eficiência com que um sistema utiliza seus múltiplos núcleos.
A configuração H100 lidera em desempenho multi-core, alavancando a contagem massiva de núcleos do Threadripper PRO 7995WX. No entanto, seu desempenho single-core está no mesmo nível dos outros sistemas. O MP Ratio enfatiza a escalabilidade do 7995WX em aplicativos multi-threaded. Ainda assim, a natureza agnóstica de GPU deste benchmark impede que a configuração H100 mostre quaisquer limitações relacionadas à GPU, fazendo com que pareça mais competitiva em todos os aspectos.
Cinebench R23 (Mais alto é melhor) |
Servidor Grando (AMD 7995WX, 2x H100) |
Servidor Grando (TR W5995WX, 512 GB, 6x 4090) | Estação de trabalho Grando (TR 3975WX, 512 GB, 4x A100) | Supermicro AS-2115HV-TNRT (AMD 7995WX, 4x RTX 6000 Ada) | Supermicro AS-2115HV-TNRT – Overlock (AMD 7995WX, 4x RTX 6000 Ada) |
CPU multinúcleo | 159,930 pts | 73,556 pontos | 49,534 pontos | 111,792 pts | 132,044 pontos |
CPU de núcleo único | 1,876 pontos | 1,484 pontos | 1,468 pontos | 1,864 pontos | 1,887 pontos |
Taxa de MP | 85.26 x | 49.56x | 33.75x | 59.98x | 69.99x |
Armazenamento direto da GPU
Um dos testes que conduzimos neste servidor foi o teste Magnum IO GPU Direct Storage (GDS). GDS é um recurso desenvolvido pela NVIDIA que permite que GPUs ignorem a CPU ao acessar dados armazenados em unidades NVMe ou outros dispositivos de armazenamento de alta velocidade. Em vez de rotear dados pela CPU e pela memória do sistema, o GDS permite a comunicação direta entre a GPU e o dispositivo de armazenamento, reduzindo significativamente a latência e melhorando a taxa de transferência de dados.
Como funciona o armazenamento direto da GPU
Tradicionalmente, quando uma GPU processa dados armazenados em uma unidade NVMe, os dados devem primeiro viajar pela CPU e pela memória do sistema antes de chegar à GPU. Esse processo introduz gargalos, pois a CPU se torna um intermediário, adicionando latência e consumindo recursos valiosos do sistema. O GPU Direct Storage elimina essa ineficiência ao permitir que a GPU acesse dados diretamente do dispositivo de armazenamento por meio do barramento PCIe. Esse caminho direto reduz a sobrecarga associada à movimentação de dados, permitindo transferências de dados mais rápidas e eficientes.
Cargas de trabalho de IA, especialmente aquelas que envolvem aprendizado profundo, são altamente intensivas em dados. O treinamento de grandes redes neurais geralmente requer o processamento de terabytes de dados, e qualquer atraso na transferência de dados pode levar a GPUs subutilizadas e tempos de treinamento mais longos. O GPU Direct Storage aborda esse desafio garantindo que os dados sejam entregues à GPU o mais rápido possível, minimizando o tempo ocioso e maximizando a eficiência computacional.
Além disso, o GDS é particularmente benéfico para cargas de trabalho que envolvem streaming de grandes conjuntos de dados, como processamento de vídeo, processamento de linguagem natural ou inferência em tempo real. Ao reduzir a dependência da CPU, o GDS acelera a movimentação de dados e libera recursos da CPU para outras tarefas, aprimorando ainda mais o desempenho geral do sistema.
Testamos exaustivamente o servidor conduzindo uma avaliação GDSIO extensiva no Comino Grando, explorando várias configurações para avaliar seu desempenho em diferentes cenários. Esse tipo de teste é crucial para um servidor desse calibre, pois simula ambientes semelhantes a estações de trabalho e fornece insights sobre suas capacidades durante testes ablativos para treinar grandes modelos. Para armazenamento, aproveitamos um SSD Solidigm D7-PS1010 Gen5.
Matriz de configuração de teste
Testamos sistematicamente cada combinação dos seguintes parâmetros:
- Tamanhos de bloco: 1M, 128K, 64K, 16K, 8K
- Contagem de fios: 128, 64, 32, 16, 8, 4, 1
- Contagens de tarefas: 16, 8, 4, 1
- Tamanhos de lote: 32, 16, 8, 4, 1
Para esta revisão, focamos no throughput de leitura e gravação sequencial. Executamos cada carga de trabalho GDSIO em seu tamanho de bloco e contagem de threads fornecidos em vários tamanhos de trabalho e lote. Os números relatados são as médias de cada combinação de trabalho e contagem de lote.
Análise de Desempenho
Cargas de trabalho de IA, particularmente na fase de treinamento, exigem processamento eficiente de grandes quantidades de dados. Essas cargas de trabalho normalmente se beneficiam de grandes tamanhos de bloco que podem maximizar o rendimento ao ler conjuntos de dados de treinamento ou escrever pontos de verificação de modelo. Em nossos testes abrangentes de recursos de armazenamento direto de GPU, focamos em vários padrões e configurações de E/S para entender as características de desempenho do sistema.
O desempenho de E/S sequencial com tamanhos de bloco de 1M demonstrou resultados impressionantes entre nossas configurações de teste. O sistema atingiu uma notável taxa de transferência de leitura sequencial de 8.56 GiB/s (tamanho de bloco de 1M, tamanho de lote 4, profundidade de E/S 128 e 128 threads em 16 trabalhos). Esse nível de desempenho é particularmente benéfico para cargas de trabalho que envolvem o carregamento de grandes modelos pré-treinados, o processamento de conjuntos de dados extensos durante as fases de treinamento ou o manuseio de fluxos de dados sequenciais, como processamento de vídeo para aplicativos de visão computacional.
Para operações de gravação sequencial, o sistema entregou 7.57 GiB/s (tamanho de bloco de 1 M, tamanho de lote 8, profundidade de E/S 16, com 16 threads em 8 trabalhos), tornando-o altamente eficaz para cenários que exigem pontos de verificação de modelo frequentes durante o treinamento distribuído, salvando resultados intermediários ou gravando dados processados em operações em lote.
Conclusão
O servidor Comino Grando H100 é uma adição impressionante à linha da empresa, oferecendo uma alternativa única às suas outras configurações. Alimentado por uma CPU AMD Threadripper PRO 7995WX e 512 GB de memória DDR5, expansível até 1 TB, o sistema Grando é destacado por duas GPUs NVIDIA H100 NVL. Embora essa configuração forneça desempenho excepcional para fluxos de trabalho orientados por IA, ela tem o custo do desempenho da GPU em benchmarks de renderização tradicionais (como Luxmark e OctaneBench), onde sistemas como o Grando Server equipado com RTX 4090 e as configurações Supermicro com RTX 6000 Ada lideram. Dito isso, o desempenho do H100 em testes intensivos de CPU, como renderização multi-core do Blender, compressão 7-Zip e Y-Cruncher, supera consistentemente os outros sistemas testados.
Em relação ao design, o Comino Grando H100 Server pode acomodar componentes de alto desempenho em um formato compacto, algo que geralmente é um desafio para chassis padrão. Graças ao seu sistema personalizado Direct Liquid Cooling (DLC), o servidor pode facilmente lidar com configurações como GPUs NVIDIA H100 duplas. Esta solução de resfriamento avançada mantém o calor sob controle e garante que o sistema permaneça estável durante tarefas exigentes de alto desempenho. O que é particularmente único sobre este novo sistema Comino é como ele consegue alavancar principalmente hardware de nível de consumidor para criar uma solução que é eficiente e relativamente acessível, tornando-o uma opção atraente para profissionais e empresas que buscam maximizar a potência da GPU sem gastar muito.
No geral, o Comino Grando H100 é uma excelente escolha para empresas e profissionais que priorizam otimização de IA, tarefas computacionais e confiabilidade em ambientes exigentes. Seu design exclusivo e inovações de resfriamento oferecem flexibilidade e desempenho para cargas de trabalho orientadas por IA. No entanto, configurações alternativas como o Grando Server equipado com RTX 4090 ou sistemas com tecnologia RTX 6000 Ada podem ser mais adequadas para usuários focados na renderização de GPU tradicional.
Envolva-se com a StorageReview
Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed