ArmazenamentoReview.com

Análise da Comino Grando RTX PRO 6000: 768 GB de VRAM em um chassi 4U com refrigeração líquida.

Empreendimento  ◇  servidor

Recentemente, a Comino nos enviou a versão mais recente do Comino Grando para análise, configurada com oito placas NVIDIA RTX PRO 6000 Blackwell, cada uma com 96 GB de VRAM, totalizando 768 GB de memória de GPU. Revimos o Comino de volta em 2024, configurado com 6x RTX 4090s, oferecendo 144 GB de memória total da GPU, bem como uma versão com NVIDIA H100Esta última atualização representa um salto geracional substancial tanto na capacidade bruta de memória quanto na gama de cargas de trabalho que a plataforma pode suportar. 

Comino Grando RTX PRO 6000 com painel frontal completo e E/S de GPU

O Grando é uma plataforma 4U projetada especificamente para resolver o conflito crítico entre computação de GPU de alta densidade e gerenciamento térmico. Enquanto os chassis convencionais com refrigeração a ar não suportam as demandas contínuas de TDP acima de 600W das placas de vídeo profissionais modernas, o Grando adota uma abordagem fundamentalmente diferente, construído desde o início em torno de uma arquitetura de refrigeração líquida capaz de dissipar impressionantes 6.5kW de calor contínuo. Não se trata de uma adaptação ou de uma solução improvisada; todo o chassi, desde o layout invertido da placa-mãe até o sistema de coletores de desconexão rápida com código de cores, foi projetado em torno do circuito de refrigeração.

O resultado é uma plataforma capaz de suportar oito GPUs profissionais com TDP completo em um único chassi 4U, funcionando 24 horas por dia, 7 dias por semana, em ambientes com temperaturas entre 3 e 38 °C, sem throttling térmico, sem o ruído excessivo de sistemas de refrigeração a ar de alta rotação e sem comprometer a facilidade de manutenção. Para organizações que implementam inferência de IA, treinamento de aprendizado de máquina ou cargas de trabalho de simulação de alto desempenho em grande escala, o Grando oferece algo verdadeiramente raro: um servidor que não exige que você escolha entre densidade, temperatura e confiabilidade.

Especificações do Comino Grande

A tabela abaixo mostra as especificações físicas e as configurações de hardware suportadas para a plataforma Comino Grando.

Especificação / Característica Comino Grande
Servidor e estação de trabalho em rack Comino Grando
Capacidade de refrigeração 6.5 kW (Máximo de 6.500 W a 20 °C de temperatura do ar de admissão)
Industriais Até EATX e EBB
GPUs (Servidor) Até 8;
NVIDIA: RTX A6000, RTX 6000 ADA, RTX PRO 6000, A40, L40, L40S, A100, H100, H200
GPUs (Estação de trabalho em rack) Até 6;
NVIDIA: 3090, 4090, 5080, 5090, RTX A6000, RTX 6000 ADA, RTX PRO 6000, A40, L40, L40S, A100, H100, H200;
AMD: W7800, W7900
CPUs Até 2;
Soquete único: Intel Xeon W-2400/2500 e 3400/3500, Intel Xeon Scalable de 4ª geração, 5ª geração, Xeon 6, AMD Threadripper PRO 5000WX, 7000WX, 9000WX, AMD EPYC 9004/9005
Soquete duplo: Intel Xeon Scalable de 4ª e 5ª geração, Xeon 6, AMD EPYC 9004/9005
RAM Até 2TB
Unidades M2 Até 8x NVMe
Armazenamento Compartimentos hot-swap no painel traseiro: até 4 SSDs hot-swap (4 de 7 mm ou 2 de 15 mm) e até mais 4 (4 de 7 mm ou 2 de 15 mm) no lugar da 4ª fonte de alimentação;
Gaiola interna de 3.5″ com capacidade para até 4 tubos de 3.5″ ou 4 tubos de 2.5″ de 15 mm ou 12 tubos de 2.5″ de 7 mm;
Slots internos de 2.5″: até 4 SSDs de 2.5″ com 7 mm de espessura.
Fonte de alimentação e tensão de operação Até 4 fontes de alimentação CRPS hot-swap de 2000 W a 180-264 V
Até 4 fontes de alimentação CRPS hot-swap de 1000 W a 90-140 V
Modos de redundância: 4+0, 3+1, 2+2
Nível de ruído 39dB-70dB
Lan Até 2x 10 Gbit/s na placa-mãe e até 400 Gbit/s em PCIe.
OS Ubuntu / Windows 11 (Pro/Home) / Windows Server
Especificações físicas e de refrigeração
Refrigeração líquida CPU com VRM e GPU com GDDR e VRM
Reservatório Comino custom 450ml com bombas integradas
fãs 3x Fluxo Ultra Alto 6200 RPM (nível de ruído elevado) ou
3x Alto Fluxo 3000 RPM (baixo nível de ruído)
Instalação Montável em rack de 19" ou independente como estação de trabalho.
Espaço necessário no rack 4U
Dimensões: 439 x 681 x 177 mm (sem alças e partes salientes)
Peso 4 GPUs: 49 kg (líquido), 67 kg (bruto)
6 GPUs: 52 kg (líquido), 70 kg (bruto)
8 GPUs: 55 kg (líquido), 72 kg (bruto)
Faixa de temperatura de operação e armazenamento Armazenamento: -5 a 50 °C / 23 a 122 °F
Temperatura de operação: 3 a 38 °C / 38 a 100 °F
Sistema de Monitoramento Comino (CMS)
Visão geral Placa controladora com sensores e software para monitoramento em tempo real.
Principais Vantagens Monitoramento do sistema de refrigeração e da CPU/GPU, interface web, registro do sistema de refrigeração, monitoramento centralizado para grupos de trabalho.
Sensores e dispositivos conectados Temperatura (ar e líquido refrigerante), umidade relativa (%), voltagem, fluxo do líquido refrigerante, nível do líquido refrigerante no reservatório, ventoinhas, bombas, placa-mãe, tela e botões.
Possibilidades de Integração Estabeleça o monitoramento por meio de uma API REST e envie os dados dos sensores para o software de monitoramento (por exemplo, Zabbix, Grafana) ou para bancos de dados (por exemplo, InfluxDB).
Requisitos técnicos do CMS
OS Windows 11 / 10
Ubuntu 22.04/20.4 (Dependência para Ubuntu: o sistema de destino deve ter os utilitários nvidia-smi e sensors instalados)
Navegadores Mozilla Firefox, Google Chrome, Chromium, Apple Safari, Microsoft Edge (Atenção: o Internet Explorer 11 não é compatível)
Drive de disco rígido 300MB
versão do firmware do controlador 1.0.6 ou mais recente
Versão da placa de circuito impresso do controlador 2.xx.xx

Design, construção e densidade de GPUs

Layout e Implantação do Chassi

O servidor Grando é uma obra-prima em otimização de espaço, medindo 17.3 x 26.8 x 6.97 cm (4U). Ao contrário dos servidores tradicionais, ele posiciona a parte traseira da placa-mãe na frente do chassi, invertendo o layout interno convencional. Isso garante que os componentes refrigerados a ar, como módulos de RAM e VRMs, recebam o ar de entrada mais frio possível antes que ele chegue ao radiador de refrigeração líquida na parte traseira.

O próprio chassi é construído com o mesmo padrão rigoroso, apresentando uma estrutura sólida de aço com acabamento em pintura eletrostática preta fosca aplicada interna e externamente. Essa escolha deliberada se estende aos tubos, cabos, radiador e máscara de solda da placa de circuito impresso, refletindo uma clara intenção de criar uma estética limpa e profissional em todo o sistema. Além disso, o sistema oferece versatilidade de implantação, funcionando perfeitamente tanto como uma unidade para montagem em rack de 19 polegadas quanto como uma unidade de mesa independente. Dependendo da configuração, seu peso varia entre 148 e 159 kg.

Comino Grando RTX PRO 6000 vista superior

Placas frias e blocos de água para GPUs

Os blocos de água de cobre proprietários formam o núcleo da densidade do Grando, resfriando não apenas o chip da GPU, mas também outros componentes, como memória e reguladores de tensão. Cada GPU é fornecida como uma placa padrão, na qual a Comino monta um conjunto de placa fria personalizado. Na prática, esse design de perfil fino reduz cada placa a um único slot, permitindo que seis ou até oito GPUs profissionais fiquem lado a lado em um único chassi 4U. Nossa unidade de teste veio com oito placas NVIDIA RTX PRO 6000 Blackwell, cada uma com um TDP de 600W, resultando em uma necessidade total de resfriamento de 4,800W sob carga máxima.

Perfil lateral do cooler Comino Grando NVIDIA RTX PRO 6000

Alcançar a densidade de 8 GPUs de slot único do Comino seria praticamente impossível com refrigeração a ar, já que as placas NVIDIA RTX PRO 6000 padrão ocupam dois slots cada e exigem um fluxo de ar considerável. Em contraste, essas placas com refrigeração personalizada ocupam apenas um slot cada. As placas de resfriamento são robustas, adicionando um peso considerável a cada placa, mas esse peso reflete a qualidade e o desempenho de refrigeração exigidos neste nível.

Cada par de GPUs é conectado através de um subcoletor dedicado que consolida ambas as placas em uma única conexão de entrada e saída para o coletor principal de refrigeração. Essa abordagem em pares simplifica a arquitetura geral do circuito, reduz o número de conexões no coletor principal e permite que um técnico desconecte um único par de engates rápidos para remover duas placas de uma só vez, agilizando ainda mais a manutenção.

Comino Grando conectou um par de placas de vídeo usando tubos e conexões rápidas.

Distribuição e coletor de água

No centro do sistema encontra-se um grande coletor de distribuição de água que fornece líquido refrigerante para cada placa fria da GPU e da CPU, além de servir como caminho de retorno para o radiador. Todas as conexões entre o coletor e as GPUs e CPUs utilizam os engates rápidos "TheQ" da Comino. Essas conexões de aço inoxidável, que evitam gotejamento, possuem um código de cores com anéis vermelhos e azuis para identificar claramente os lados quente e frio do circuito, eliminando qualquer ambiguidade durante a instalação ou manutenção.

Acoplamentos de desconexão rápida Comino Grando TheQ em close-up

Ao serem desconectados, deixam um resíduo mínimo na superfície de contato, permitindo que os técnicos removam ou substituam GPUs individuais ou a CPU sem precisar esvaziar o reservatório de 450 ml ou o restante do circuito. Dessa forma, o Grando traz a simplicidade de manutenção dos sistemas de refrigeração a ar para uma plataforma de refrigeração líquida de alto desempenho.

Resfriamento da CPU e memória

A CPU e seus reguladores de tensão também se beneficiam de uma placa fria dedicada, conectada diretamente ao circuito de refrigeração, evitando que o processador se torne um gargalo durante cargas de trabalho intensas com múltiplas GPUs. Nossa unidade de teste veio com uma placa-mãe AMD Turin/Genoa, equipada com um único processador AMD EPYC 9474F de 48 núcleos. A placa fria reflete a qualidade das placas frias das placas de vídeo, usinada em cobre sólido e fixada com parafusos de aço inoxidável.

Bloco de água para CPU Comino Grande

Flanqueando a CPU em ambos os lados, encontram-se oito slots DRAM totalmente preenchidos, que suportam configurações de até 2 TB de RAM. Nossa unidade de teste veio equipada com 512 GB de RAM DDR5. Uma barra de suporte atravessa a área da GPU e da CPU do chassi, perpendicular a elas, protegendo componentes sensíveis como a GPU e mantendo a rigidez do chassi durante o transporte.

Radiador e ventiladores

O resfriamento é feito por um grande radiador triplo de 140 mm montado na parte traseira do gabinete, juntamente com três ventoinhas de alta velocidade de 140 mm capazes de atingir 6,200 RPM e movimentar até 1,000 m³/h de fluxo de ar. O conjunto de aletas densas proporcionado pelo radiador espesso ressalta a capacidade térmica projetada na plataforma, que foi construída para dissipar até 6.5 kW de calor contínuo em nossa configuração.

O que talvez seja mais surpreendente é que, apesar dessa carga de trabalho e dessas velocidades de ventoinha, a unidade consegue manter-se dentro de um nível de ruído tolerável, com níveis sonoros acima de 70 dB em potência máxima. Isso é alto para os padrões de uma estação de trabalho, mas notavelmente contido para um sistema que dissipa a potência térmica de um pequeno forno elétrico, o que demonstra a eficiência com que o circuito de refrigeração líquida do Comino transfere o calor dos componentes.

Radiador e ventiladores Comino Grando

Painel frontal e visor de telemetria

No painel frontal, um visor LED exibe em tempo real dados importantes de telemetria, incluindo o status da bomba, a temperatura ambiente, a temperatura do líquido refrigerante e a velocidade da ventoinha. Os usuários navegam pelo menu usando botões iluminados no módulo de refrigeração, com toques curtos para percorrer os dados disponíveis. Um toque longo no botão PB2 abre opções adicionais do menu, incluindo Comandos, Configurações de Serviço e um Registro de Eventos. Além disso, o painel de E/S frontal inclui uma porta VGA para saída de vídeo, juntamente com uma porta serial, várias portas USB e conexões de rede para conectividade de periféricos e dispositivos.

Comino Grandeo com botões frontais de E/S e liga/desliga e LCD.

Arquitetura de energia e armazenamento

Fornecimento de energia e redundância

Suportar esse nível de computação exige um fornecimento de energia igualmente robusto. O Grando suporta até quatro módulos CRPS de 1000 W ou 2000 W com troca a quente em uma configuração redundante, fornecendo até 8.0 kW a 180–264 V. Com suporte para modos de redundância 4+0, 3+1 e 2+2, o sistema pode tolerar falhas na fonte de alimentação, mantendo a operação contínua para cargas de trabalho de IA e HPC 24 horas por dia, 7 dias por semana.

Comino Grando RTX PRO 6000 com alimentação e armazenamento traseiros.

Nossa unidade de teste foi enviada com quatro fontes de alimentação hot-swap Great Wall de 2000 W com certificação 80 Plus Platinum, formando a configuração completa de 8.0 kW.

Fonte de alimentação Comino Grando de 2000 W com troca a quente (single hot-swap)

A alimentação de energia para cada GPU é feita através de uma placa de distribuição de energia centralizada de 12 pinos, montada entre o conjunto de GPUs e o cabo principal. O Grando utiliza essa placa de distribuição para consolidar as entradas de energia e, em seguida, distribuí-las para cada GPU de forma organizada e com otimização de espaço.

Cabos e placa de alimentação Comino Grando para GPU

PCIe, armazenamento e redes

O Grando suporta confortavelmente seis GPUs sem comprometer a largura de banda dos slots, e o chassi se expande para uma configuração completa de oito placas para máxima densidade. A placa-mãe ASRock Rack GENOAD8X-2T/BCM da Comino oferece sete slots PCIe Gen 5 x16 e um x8, o que significa que sete das oito GPUs operam com largura de banda x16 completa, enquanto a oitava placa opera em x8. Isso representa um equilíbrio entre o número de pistas PCIe que uma CPU de soquete único pode suportar e a relutância da Comino em adicionar o tamanho, o custo e a complexidade de uma placa de comutação PCIe. A mudança para uma placa-mãe de dois soquetes proporcionaria mais pistas PCIe, mas ofereceria ainda menos slots, já que o segundo soquete ocuparia o espaço que seria usado pelos slots PCIe no formato compacto.

Conectividade de vídeo GPU Comino Grando.

Executar oito GPUs em um sistema de soquete único consome a maior parte das linhas PCIe disponíveis, o que acarreta algumas desvantagens. Nossa unidade de teste, baseada na arquitetura AMD Genoa, possui um total de 128 linhas PCIe Gen 5 disponíveis. Com oito GPUs consumindo 120 dessas linhas, as 8 linhas restantes são divididas em quatro para cada slot SSD M.2. Portanto, não é possível executar simultaneamente oito GPUs e um conjunto completo de unidades NVMe na parte traseira do gabinete, conectadas pelos dois conectores MCIO. Em nossa configuração completa com 8 GPUs, apenas 2 slots M.2 estavam disponíveis para armazenamento. Administradores que precisam de capacidade NVMe adicional juntamente com a densidade máxima de GPUs devem estar cientes de que adicionar armazenamento NVMe hot-swap na parte traseira, através dos compartimentos do painel traseiro, consumirá linhas PCIe adicionais e desativará parte da capacidade de GPU em seu sistema.

Diagrama de blocos da placa-mãe Comino Grando Single Socket

Diagrama de blocos da placa-mãe ASRock Rack GENOAD8X-2T/BCM mostrando a CPU, slots PCIe Gen 5, canais DIMM, slots M.2, BMC, USB, SATA e conexões de rede.

Dito isso, o armazenamento é igualmente modular e expansivo, embora a configuração afete o orçamento de linhas PCIe para GPUs, o que deve ser levado em consideração no planejamento, de acordo com o uso pretendido. O painel traseiro da nossa unidade de teste possui uma gaiola para unidades de 2.5" que suporta até quatro SSDs de 2.5 polegadas em configurações de 4x 7 mm ou 2x 15 mm, com um segundo conjunto opcional de até quatro unidades disponível no lugar do quarto slot da fonte de alimentação. Como nossa unidade de teste exigia o uso de todos os quatro compartimentos de fonte de alimentação para suportar a configuração completa de 8 GPUs, tivemos acesso apenas ao primeiro dos dois compartimentos hot-swap. Internamente, o chassi suporta uma gaiola de 3.5 polegadas que acomoda até quatro unidades de 3.5 polegadas, quatro unidades de 2.5 polegadas de 15 mm ou até doze unidades de 2.5 polegadas de 7 mm, além de quatro slots internos adicionais para SSDs de 2.5 polegadas de 7 mm, se configurados.

Bandejas SSD Comino Grando de 2.5"

Para conectividade de rede, a placa-mãe vem com duas portas RJ45 de 10 Gb/s integradas, alimentadas pelo chipset Broadcom BCM57416, além de uma porta dedicada para gerenciamento IPMI Gigabit Ethernet. Os administradores podem aumentar ainda mais a largura de banda instalando placas de rede PCIe que suportam até 400 Gb/s para conectividade de alta largura de banda, embora seja importante observar que placas de rede PCIe adicionais ocupam slots de GPU, reduzindo o número máximo de GPUs que o sistema pode suportar.

Vista de Comino Grando dos tubos de cartão e armazenamento M.2

Gestão remota e inteligência de sistemas

Para proteger o hardware e otimizar o desempenho, o sistema inclui o Sistema de Monitoramento Comino (CMS). Uma placa controladora independente controla o CMS e funciona como o "cérebro" do servidor, independentemente do sistema operacional principal. Na prática, essa controladora lê uma ampla gama de sensores que monitoram em tempo real as temperaturas do ar e do líquido refrigerante, os níveis de umidade, as taxas de fluxo do líquido refrigerante e os níveis do reservatório. Fundamentalmente, esse design autônomo permite que o CMS realize autodiagnóstico e acione desligamentos de emergência ao detectar um vazamento ou uma falha na bomba, protegendo o hardware interno, que é caro, contra danos.

Uma interface gráfica de usuário (GUI) baseada na web gerencia as tarefas diárias, fornecendo aos administradores visibilidade clara do desempenho de resfriamento, tempo de atividade e consumo de energia em tempo real da CPU e das GPUs. Para implantações em escala empresarial, o CMS também se conecta a ferramentas de monitoramento centralizadas via APIs REST, como Zabbix, Grafana e InfluxDB. Juntas, essas funcionalidades ajudam os administradores a manter um intervalo de três anos entre serviços e a manter o servidor funcionando com máxima eficiência, sem limitação térmica, mesmo em ambientes com altas temperaturas.

Além da IA: Aplicações Criativas e de Engenharia

Embora nossos testes tenham se concentrado em cargas de trabalho de inferência de IA, o Grando desempenha um papel igualmente prático para profissionais criativos e engenheiros que precisam de poder computacional local substancial em GPUs. Os 768 GB de VRAM agregada, distribuídos em oito placas RTX PRO 6000, desbloqueiam recursos que as configurações convencionais de estações de trabalho não conseguem igualar.

Artistas de efeitos especiais e profissionais de motion graphics podem renderizar cenas complexas com conjuntos de texturas massivos inteiramente na VRAM, eliminando os gargalos de troca de disco que afetam produções com filmagens em 8K ou ambientes de alta poligonalidade. Engenheiros de CAD que executam dinâmica de fluidos computacional ou simulações estruturais podem lidar com montagens de complexidade sem precedentes sem precisar dividir seus modelos em múltiplas execuções. Editores de vídeo que trabalham com timelines RAW 8K multi-stream, coloristas que aplicam redução de ruído baseada em aprendizado de máquina em resolução total e artistas 3D que renderizam versões finais com traçado de raios localmente, em vez de esperar pela disponibilidade de um cluster na nuvem, se beneficiam dessa densidade de memória e poder computacional da GPU.

O Grando não exige uma configuração completa com oito GPUs. A Comino oferece a plataforma em configurações com quatro, seis e oito GPUs, com todas as variantes disponíveis para envio imediato. Estúdios menores, criadores independentes e equipes de engenharia podem adequar seu investimento às necessidades atuais, mantendo um caminho claro de atualização à medida que as cargas de trabalho aumentam.

Compensações da plataforma: densidade versus capacidade de expansão

O design compacto do Grando oferece densidade de GPU excepcional e gerenciamento térmico otimizado em um formato padrão de 4U, mas essa densidade implica em concessões arquitetônicas que vale a pena entender antes da implementação.

O chassi acomoda placas-mãe com formatos EATX e EEB, mas não placas de servidor estendidas encontradas em plataformas tradicionais de dois soquetes. Isso limita o número total de linhas PCIe disponíveis para periféricos além do conjunto de GPUs. Em nossa configuração com oito GPUs, as 128 linhas PCIe Gen 5 do processador AMD EPYC são quase totalmente consumidas pelas GPUs, deixando pouca largura de banda para armazenamento NVMe adicional ou redes de alta velocidade além das portas 10GbE integradas.

Isso contrasta com as plataformas de oito GPUs que analisamos da Dell, HPE e Supermicro. Esses sistemas usam chassis maiores, configurações de dois soquetes e topologias de switch PCIe para suportar uma conectividade periférica significativamente maior. Eles normalmente acomodam de quatro a oito NICs ou DPUs adicionais, além do conjunto completo de GPUs, mais oito ou mais baias NVMe hot-swap, tornando-os adequados para cargas de trabalho de inferência distribuída que exigem interconexões de malha de alta largura de banda.

No entanto, essa capacidade expandida tem um custo substancial. O consumo de energia ultrapassa 8 kW. As cargas térmicas exigem infraestrutura de refrigeração dedicada para data centers. Os níveis de ruído impedem a implantação fora de salas de máquinas construídas especificamente para esse fim. E os prazos de entrega frequentemente se estendem de seis a dezoito meses devido às constantes restrições de fornecimento de plataformas de GPU corporativas.

O Grando ocupa uma posição diferente. Para organizações que priorizam implantação rápida, ambientes operacionais gerenciáveis ​​e cargas de trabalho de inferência ou criativas em detrimento do treinamento distribuído em larga escala, as vantagens e desvantagens costumam ser favoráveis. Equipes que precisam do hardware agora, em um ambiente com o qual possam trabalhar de fato, podem achar a abordagem de densidade do Grando mais prática do que esperar em uma fila por uma plataforma que não poderão implantar de forma realista quando ela chegar.

Resultados dos testes de desempenho de Comino Grando

Coletor de refrigeração a água Comino Grando, visto de cima

Configuração do sistema

  • Chassi: Comino Grande
  • placa-mãe: Rack ASRock GENOAD8X-2T/BCM
  • CPU: AMD EPYC 9474F 48C
  • Memória: 512GB DDR5
  • GPU: 8 x NVIDIA RTX PRO 6000
  • Armazenamento: M.2 SSD

Claude Code Serving – MiniMax M2.5

Além dos benchmarks tradicionais de inferência LLM bruta, queríamos avaliar o desempenho desse hardware em um fluxo de trabalho de codificação com agentes, especificamente atendendo a múltiplas sessões simultâneas do Claude Code usando um modelo hospedado localmente. Esse caso de uso se relaciona diretamente à produtividade da equipe de desenvolvimento: quantos engenheiros podem usar simultaneamente um assistente de codificação com IA, hospedado em um único nó, antes que a experiência seja prejudicada?

Para testar isso, criamos um ambiente de benchmark que gera um conjunto de dados com problemas de programação de dificuldade moderada (como implementar um cache LRU, construir um aplicativo de lista de tarefas via linha de comando, escrever um conversor de Markdown e construir uma API REST) ​​e executa cada sessão do Claude Code em um contêiner Docker separado contra o servidor vLLM local. Um proxy transparente fica entre as sessões e o endpoint de inferência, capturando métricas por requisição para cada instância do Claude Code. O modelo utilizado foi o MiniMax M2.5, servido via vLLM nas oito GPUs NVIDIA RTX PRO 6000 do sistema. Embora não seja o modelo de programação mais bem classificado em rankings públicos, o M2.5 é um modelo eficiente que muitos usuários, incluindo nossos amigos desenvolvedores, executam localmente.

Como ponto de referência inicial, utilizamos a taxa de transferência média de saída do Claude Opus 4.6 da Anthropic via OpenRouter.ai, um dos serviços de roteamento mais populares para acesso a APIs em produção. Essa linha de base resulta em aproximadamente 37 tokens por segundo por requisição de API.

Medimos duas métricas principais: a média de tokens de saída por segundo por sessão do Claude Code (o que cada desenvolvedor experimenta) e o total de tokens de saída por segundo em todas as sessões (o trabalho total produzido pelo servidor).

Com base nos resultados, uma única sessão simultânea do Claude Code oferece 67.3 tok/s por usuário e uma produção agregada de 64.7 tok/s. Com duas sessões, a taxa de transferência por instância cai ligeiramente para 57.4 tok/s, enquanto a produção agregada sobe para 95.1 tok/s, à medida que o processamento em lote do vLLM começa a amortizar a sobrecarga. Quatro sessões simultâneas mantêm 49.2 tok/s por usuário, ainda uma experiência altamente responsiva para fluxos de trabalho de codificação interativa, enquanto a taxa de transferência agregada atinge 177.2 tok/s. Oito sessões representam o ponto ideal para a produção agregada, atingindo um pico de 206.7 tok/s no total, enquanto a taxa de transferência por instância se estabiliza em 38.7 tok/s, um nível que permanece confortável para geração e iteração de código em tempo real.

Com 16 sessões simultâneas, o sistema exibe a clássica compensação de processamento em lote: a taxa de transferência por instância cai para 31.1 tok/s e a saída agregada cai para 105.8 tok/s. Isso sugere que, nesse nível de concorrência, o modelo MiniMax M2.5 de 230 bits está no limite do que oito GPUs podem suportar sem introduzir latência significativa para cada usuário. A queda agregada de 8 para 16 sessões reflete as demandas de largura de banda de memória de uma grande arquitetura MoE sob alta carga de decodificação simultânea, e não uma ineficiência de agendamento.

Para organizações que avaliam infraestrutura de IA auto-hospedada para ferramentas de desenvolvimento, o Grando se apresenta como uma excelente opção. Executando um modelo 230B de última geração, ele pode atender confortavelmente até oito sessões simultâneas do Claude Code com níveis de desempenho que proporcionam uma experiência verdadeiramente interativa, com velocidades por usuário superiores a 38 tok/s no pico de produção agregada. Equipes de quatro a oito engenheiros podem operar com desempenho próximo ao ideal sem degradação perceptível na capacidade de resposta.

A arquitetura com refrigeração líquida também torna esse nível de computação viável em ambientes onde servidores tradicionais com GPUs não podem operar. O sistema funciona silenciosamente o suficiente para ser instalado em um escritório de startup, uma pequena sala de servidores ou um canto dedicado de um espaço de trabalho aberto. Sistemas com refrigeração a ar com densidade de GPUs similar normalmente atingem 90 dB ou mais, o que é alto o suficiente para exigir espaço dedicado em um data center ou, no mínimo, uma sala de servidores fechada com tratamento acústico robusto. O Grando pode coexistir com a equipe que o utiliza. Combinado com total localidade de dados, sem custos de API por token e controle completo sobre a seleção de modelos, ele oferece uma solução auto-hospedada que escala com o crescimento da equipe de desenvolvimento sem exigir infraestrutura de data center ou aumentos de custos progressivos.

Serviço online vLLM – Desempenho de inferência LLM

O vLLM é um dos mecanismos de inferência e serviço de alto desempenho mais populares para LLMs. O benchmark de serviço online do vLLM avalia o desempenho real desse mecanismo de inferência sob solicitações simultâneas. Ele simula cargas de trabalho de produção enviando solicitações para um servidor vLLM em execução, com parâmetros configuráveis ​​como taxa de solicitações, comprimentos de entrada e saída e número de clientes simultâneos. O benchmark mede métricas importantes, incluindo taxa de transferência (tokens por segundo), tempo até o primeiro token e tempo por token de saída (TPOT), ajudando os usuários a entender como o vLLM se comporta sob diferentes condições de carga.

Testamos o desempenho de inferência em um conjunto abrangente de modelos que abrangem várias arquiteturas, escalas de parâmetros e estratégias de quantização para avaliar a taxa de transferência sob diferentes perfis de concorrência.

Resumo dos Resultados

Modelo Precisão Igual (256/256) Pré-enchimento pesado (8k/1k) Decodificação pesada (1k/8k)
Comino Grando com 8× RTX PRO 6000 Blackwell — Resultados de Inferência vLLM (tok/s, pico em BS=256)
GPT-OSS 20B ep_dp1 17,280 32,061 11,187
GPT-OSS 120B ep_dp1 11,726 21,636 7,570
Lhama 3.1 8B Instruir FP8 12,109 20,137 7,353
Lhama 3.1 8B Instruir FP4 11,954 20,206 7,239
Lhama 3.1 8B Instruir BF16 11,752 17,346 6,155
Qwen3 Coder 30B A3B FP8 10,985 16,659 4,907
Qwen3 Coder 30B A3B BF16 10,588 16,680 4,829
Mistral Pequeno 3.1 24B BF16 8,925 11,846 4,975
MiniMax M2.5 (230B) ep_dp1 5,753 7,357 * 2,555
Todos os valores em tok/s, com pico de vazão em BS=256. *O pré-enchimento pesado do MiniMax M2.5 atingiu o pico em BS=128 (7,357 tok/s); em BS=256, o valor foi de 7,141 tok/s.

GPT-OSS 120B e 20B

A família de modelos GPT-OSS foi testada nas configurações 120B e 20B no Comino Grando.

GPT-OSS 120B

Sob carga de trabalho igual (256/256), o modelo 120B fornece 268.85 tok/s em BS=1, atinge 6,666.23 tok/s em BS=64 e alcança um pico de 11,726.04 tok/s em BS=256. Com pré-enchimento intenso (8k/1k), a taxa de transferência começa em 1,375.69 tok/s, sobe para 16,374.19 tok/s em BS=64 e 17,944.55 tok/s em BS=128, e atinge um pico de 21,636.41 tok/s em BS=256. A decodificação intensiva (1k/8k) aumenta de 196.28 tok/s em BS=1 para 7,569.97 tok/s em BS=256, com latência bem controlada em níveis de concorrência mais baixos.

GPT-OSS 20B

O modelo 20B oferece 334.80 tok/s com BS=1 sob carga de trabalho igual, atinge 10,303.56 tok/s com BS=64 e alcança um pico de 17,280.12 tok/s com BS=256. O pré-enchimento intenso começa em 2,007.90 tok/s, sobe para 24,990.46 tok/s com BS=64 e 26,866.25 tok/s com BS=128, atingindo um pico de 32,060.72 tok/s com BS=256, a maior taxa de transferência de pré-enchimento absoluta registrada em ambos os tamanhos de modelo. A taxa de transferência com decodificação intensiva aumenta de 286.08 tok/s em BS=1 para 11,187.36 tok/s em BS=256, oferecendo aproximadamente 1.5 vezes a taxa de transferência de decodificação do 120B no pico de concorrência, mantendo uma latência mais baixa em todo o processo.

Qwen3 Coder 30B A3B Instruct e FP8 Instruct

O modelo Qwen3-Coder-30B-A3B-Instruct foi testado com precisão BF16 e FP8.

Qwen3-Coder-30B-A3B-Instrução (BF16)

Sob carga de trabalho igual (256/256), o modelo BF16 entrega 1,902.32 tok/s em BS=8, atinge 6,683.58 tok/s em BS=64 e alcança um pico de 10,587.56 tok/s em BS=256. Com pré-carregamento pesado (8k/1k), inicia em 1,256.03 tok/s em BS=1, sobe para 14,400.57 tok/s em BS=64 e 15,308.35 tok/s em BS=128, e atinge um pico de 16,679.52 tok/s em BS=256. A decodificação intensiva (1k/8k) aumenta de 169.19 tok/s em BS=1 para 4,828.82 tok/s em BS=256, com latência bem controlada em níveis de concorrência mais baixos.

Qwen3-Coder-30B-A3B-Instruct (FP8)

O modelo FP8 oferece desempenho comparável ao BF16 na maioria dos cenários, com carga de trabalho equivalente atingindo 6,478.54 tok/s em BS=64 e um pico de 10,984.61 tok/s em BS=256, uma ligeira melhoria em relação ao BF16 no pico de concorrência. O modelo com uso intensivo de pré-carregamento inicia em 987.48 tok/s em BS=1, sobe para 14,036.46 tok/s em BS=64 e 15,156.69 tok/s em BS=128, e atinge um pico de 16,658.98 tok/s em BS=256. A configuração com alta demanda por decodificação aumenta de 130.70 tok/s em BS=1 para 4,906.51 tok/s em BS=256, superando ligeiramente a BF16 no pico de concorrência, enquanto as duas configurações permanecem bastante semelhantes em toda a faixa de concorrência.

Mistral Pequeno 3.1 24B Instruções 2503

Sob uma carga de trabalho igual (256/256), o modelo entrega 1,598.79 tok/s em BS=8, atinge 4,713.84 tok/s em BS=64 e escala fortemente para 8,925.12 tok/s em BS=256. Com pré-carregamento pesado (8k/1k), começa em 897.84 tok/s em BS=1, sobe para 9,632.58 tok/s em BS=64 e 11,488.13 tok/s em BS=128, atingindo um pico de 11,846.15 tok/s em BS=256. A taxa de transferência de decodificação pesada (1k/8k) aumenta de 124.98 tok/s em BS=1 para 2,653.82 tok/s em BS=64, acelerando notavelmente em níveis de concorrência mais altos, atingindo 4,262.53 tok/s em BS=128 e um pico de 4,975.06 tok/s em BS=256, o que reflete a capacidade do modelo de manter uma alta taxa de transferência de decodificação à medida que a concorrência aumenta.

Lhama 3.1 8B Instruir

O modelo Llama-3.1-8B-Instruct foi testado em três configurações de precisão no Comino, proporcionando uma visão clara de como a quantização afeta o rendimento para esse tamanho de modelo.

Lhama 3.1 8B Instruções BF16

Sob carga de trabalho igual (256/256), o modelo BF16 fornece 2,776.42 tok/s em BS=8, atinge 7,369.01 tok/s em BS=64 e alcança um pico de 11,751.56 tok/s em BS=256. Com pré-carregamento pesado (8k/1k), começa em 1,645.29 tok/s em BS=1, sobe para 14,990.47 tok/s em BS=64 e 17,140.71 tok/s em BS=128, e atinge um pico de 17,345.80 tok/s em BS=256. A decodificação pesada (1k/8k) aumenta de 234.78 tok/s em BS=1 para 6,154.73 tok/s em BS=256.

Lhama 3.1 8B Instruções FP8

A quantização FP8 proporciona um aumento significativo em todos os cenários. A carga de trabalho equivalente atinge 7,530.39 tok/s com BS=64 e alcança um pico de 12,108.98 tok/s com BS=256. Com alta carga de trabalho (prefill-heavy), o desempenho sobe para 16,546.53 tok/s com BS=64 e 19,306.49 tok/s com BS=128, atingindo um pico de 20,137.35 tok/s com BS=256, um ganho de aproximadamente 16% em relação ao BF16 na concorrência máxima. Com alta carga de trabalho (decode-heavy), o desempenho atinge um pico de 7,353.40 tok/s com BS=256, cerca de 19% acima do BF16.

Lhama 3.1 8B Instruções FP4

O FP4 oferece uma taxa de transferência bastante competitiva com o FP8 em níveis de concorrência mais altos, embora fique ligeiramente atrás em tamanhos de lote menores. A carga de trabalho equivalente atinge um pico de 11,954.40 tok/s com BS=256, e a carga de trabalho com uso intensivo de pré-preenchimento atinge seu ponto mais alto em 20,205.57 tok/s com BS=256, superando o FP8 por uma pequena margem no pico de concorrência. A carga de trabalho com uso intensivo de decodificação atinge um pico de 7,239.29 tok/s com BS=256, permanecendo dentro de uma pequena margem de erro do FP8 em todos os casos, tornando o FP4 uma opção atraente quando a eficiência de memória é uma prioridade sem um sacrifício significativo na taxa de transferência.

MiniMax M2.5

O MiniMax-M2.5 230B, testado no Comino Grando, foi o modelo maior e mais exigente que utilizamos.

Sob uma carga de trabalho igual (256/256), o modelo inicia em 16.35 tok/s em BS=1, atinge 2,751.25 tok/s em BS=64 e escala fortemente com maior concorrência, atingindo um pico de 5,753.24 tok/s em BS=256. Com alta demanda de pré-carregamento (8k/1k), o modelo inicia em 606.97 tok/s em BS=1, sobe de forma constante para 5,351.02 tok/s em BS=32 e 6,557.92 tok/s em BS=64, atingindo seu pico em 7,357.26 tok/s em BS=128 antes de diminuir ligeiramente para 7,140.74 tok/s em BS=256, sugerindo que o modelo se aproxima da saturação na taxa de transferência de pré-carregamento além de BS=128. A taxa de transferência com uso intenso de decodificação (1k/8k) cresce consistentemente de 82.21 tok/s em BS=1 para 1,485.28 tok/s em BS=64, atingindo um pico de 2,554.87 tok/s em BS=256, refletindo as demandas esperadas de largura de banda de memória de uma arquitetura MoE de 230 bits sob cargas de trabalho de decodificação sustentadas.

Conclusão

O Comino Grando deve ser compreendido como um sistema projetado especificamente para liberar todo o potencial de oito GPUs NVIDIA RTX PRO 6000. Cada decisão de design importante, desde o layout invertido da placa-mãe até o circuito de resfriamento e o conjunto de monitoramento integrado, visa garantir que essas GPUs possam operar continuamente com TDP máximo de 600 W sem restrições térmicas ou de energia.

GPUs Comino Grando RTX PRO 6000

O que torna o Grando tão atraente não é uma única característica isolada, mas sim a forma como todo o sistema funciona em conjunto. O resfriamento líquido não é um mero acessório; ele faz parte da arquitetura. O fornecimento de energia é redundante, permite a troca a quente e é dimensionado para a carga de 4,800 W de oito placas de 600 W, com folga de sobra. O sistema de monitoramento vai além da simples leitura de temperaturas; ele protege o hardware de forma autônoma quando algo dá errado. Nada aqui parece ter sido adicionado posteriormente.

Os números de desempenho reforçam essa coesão. Em um conjunto diversificado de modelos, do Llama 3.1 8B ao MiniMax M2.5 de 230B, o Grando apresentou índices de desempenho que se mostram bastante satisfatórios para uma plataforma auto-hospedada. Os testes de concorrência do Claude Code evidenciaram ainda mais o valor prático: oito engenheiros podem executar sessões simultâneas de programação agentiva em um modelo de 230B hospedado localmente em velocidades interativas, com taxa de transferência por usuário superior a 38 tok/s no pico de produção agregada. Equipes de quatro a oito pessoas podem operar com taxa de transferência próxima à ideal, sem degradação perceptível.

O valor dessa configuração vai além da inferência de IA. Com 96 GB de VRAM por GPU e escalonamento denso para múltiplas GPUs, a plataforma é igualmente adequada para cargas de trabalho criativas e de engenharia de alto nível, incluindo renderização de efeitos visuais, simulação em larga escala e pipelines CAD complexos. O sistema pode ser configurado com quatro ou duas GPUs, tornando esse nível de desempenho acessível a estúdios e equipes menores que ainda precisam da densidade de uma estação de trabalho.

O principal diferencial do Grando em relação às plataformas empresariais de oito GPUs que analisamos reside na praticidade de implementação. Esses sistemas oferecem maior capacidade de expansão de linhas PCIe, mais slots de NIC e conectividade de armazenamento mais robusta, mas também exigem infraestrutura dedicada de data center, consomem bem mais de 8 kW e têm prazos de entrega que podem ultrapassar um ano. O Grando sacrifica parte dessa capacidade de expansão periférica em troca de um sistema silencioso o suficiente para compartilhar o mesmo ambiente com seus usuários, dissipa menos calor para o ambiente externo e está disponível para envio imediato. Para organizações que priorizam implementação rápida e ambientes operacionais gerenciáveis ​​em detrimento da conectividade máxima da rede, essa troca é vantajosa.

Página do produto – Comino Grando
Configurador Comino – Página

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS feed

Dylan Dougherty

Administrador de rede K-12 com experiência em redes Cisco, segurança IP e soluções NAC. Entusiasta de UniFi e labber doméstico, testando e revisando produtos de rede e segurança.