ArmazenamentoReview.com

Análise do NVIDIA DGX Spark: o dispositivo de IA que traz recursos de data center para desktops

Consumidores   ◇  Workstation

O NVIDIA DGX Spark representa um divisor de águas na infraestrutura de IA acessível. Em 2017, o histórico artigo "Attention is All You Need", que apresentou a arquitetura Transformer, dependia de uma configuração de servidor P100 com oito GPUs, consumindo dezenas de quilowatts-hora e ocupando um espaço significativo no data center. Hoje, o DGX Spark oferece desempenho computacional superior em um formato compacto de desktop de 240 watts. Essa evolução drástica na eficiência energética e na compressão do formato torna os recursos de IA, antes exclusivos de data center, acessíveis a pesquisadores individuais, pequenas equipes e organizações de desenvolvimento distribuídas.

Placa de vídeo Nvidia DGX Spark Frontal.

O que distingue o Spark das soluções anteriores de IA para desktop é sua abordagem abrangente para todo o ciclo de vida do desenvolvimento. Em vez de forçar concessões entre experimentação, ajuste fino e implantação, o Spark oferece capacidade genuína em todas as fases. A arquitetura de memória unificada de 128 GB permite o ajuste fino completo dos parâmetros de modelos que exigiriam recursos de nuvem em estações de trabalho convencionais, ao mesmo tempo em que fornece centenas de tokens por segundo de taxa de transferência, adequada para cargas de trabalho de inferência em lote, incluindo geração de dados sintéticos. A inclusão da rede ConnectX-7 com capacidade de malha de 200 Gb significa que as organizações podem agrupar vários sistemas Spark para exploração de modelos ainda maiores, embora, como demonstraremos, até mesmo uma única unidade se mostre notavelmente capaz.

Principais lições

  • Potência do datacenter em um desktop: GB10 Grace Blackwell em uma caixa de 1.13 litro e 240 W, com preço de US$ 3,999, oferecendo desempenho esparso de até 1 petaFLOP FP4.

  • Memória que muda os fluxos de trabalho: A memória unificada de 128 GB permite o ajuste fino de todos os parâmetros dos modelos 8B localmente e inferência de alto rendimento. Em testes, vimos o Llama 3.1 8B FP4 atingir ~924 tok/s com simultaneidade de 128, e o Qwen3 Coder 30B-A3B FP8 atingir ~483 tok/s no lote 64.

  • Pronto para escalar e anexar armazenamento rápido: O ConnectX-7 integrado fornece malha de 200G para clustering ou NVMe-oF. O NVMe 2242 Gen5 interno é conveniente, mas limitado para E/S pesadas, portanto, o NVMe-oF externo via RDMA é o melhor caminho para uma taxa de transferência sustentada.

  • Maturidade do software no primeiro dia: Vem com DGX OS, CUDA, cuDNN, TensorRT, AI Workbench, contêineres e manuais de fluxo de trabalho para que as equipes possam executar cargas de trabalho reais imediatamente.

  • Desempenho comprovado no mundo real: O MAMF mediu ~99.8 TFLOPs BF16 e ~207.7 TFLOPs FP8. As leituras do GDSIO atingiram um pico de ~11.4 GiB/s internamente, com teto mais alto esperado na malha de 200G.

O que é DGX Spark e quem deve considerá-lo?

O NVIDIA DGX Spark é fundamentalmente uma plataforma completa de desenvolvimento de IA, e não apenas um componente de GPU. Em seu núcleo está o superchip GB10 Grace Blackwell, que integra uma GPU de arquitetura Blackwell com núcleos Tensor de quinta geração e uma CPU Arm de 20 núcleos (10x Cortex-X925 + 10x Cortex-A725) conectada via NVLink-C2C. Essa arquitetura de interconexão coerente, de acordo com a NVIDIA, permite uma largura de banda até 5x maior em comparação com o PCIe Gen 5, criando uma malha computacional unificada em vez de domínios de processamento discretos. 

Para começar, a NVIDIA disponibiliza o DGX OS, desenvolvido no Ubuntu Desktop, com o conjunto completo de software de IA pré-configurado, incluindo CUDA, cuDNN, TensorRT, NVIDIA Container Runtime e AI Workbench, eliminando os desafios típicos de driver e a sobrecarga de configuração de ambiente que afetam a criação de estações de trabalho personalizadas. O sistema oferece paradigmas de implantação flexíveis: conecte periféricos e use-o como uma estação de trabalho compacta com a experiência completa do Ubuntu Desktop ou implante-o como um dispositivo de rede sem interface, acessível via NVIDIA Sync, que oferece integração perfeita com JupyterLab, VS Code, Cursor IDE e terminais SSH. 

Esta é uma infraestrutura desenvolvida especificamente para profissionais de IA, pesquisadores que aprimoram modelos de linguagem, cientistas de dados que aceleram fluxos de trabalho RAPIDS, desenvolvedores que implementam sistemas agenticos ou equipes que experimentam arquiteturas com modelos ablativos em pequena escala. O Spark é voltado para profissionais que precisam de capacidade computacional de IA robusta sem a complexidade de um data center.

Especificações técnicas do NVIDIA DGX Spark

Especificação Detalhes
Plataforma
GPU Arquitetura NVIDIA Blackwell
CPU Arm de 20 núcleos (10x Cortex-X925 + 10x Cortex-A725)
Núcleos Tensores 5th Generation
RT Núcleos 4th Generation
NVENC/NVDEC 1× / 1×
Memória
Memória do Sistema 128 GB LPDDR5X (Memória Unificada do Sistema)
Interface de Memória 256-bit
Largura de banda de memória 273 GB / s
Desempenho
FP4 até 1 petaFLOP (com Sparsity)
Armazenamento
Armazenamento 1 TB ou 4 TB NVMe M.2 (autocriptografado)
Conectividade
USB 4× Tipo C USB 3.2 Gen 2×2 (20 Gbps)
Ethernet 1× 10GbE RJ-45
NIC ConnectX-7 Smart NIC – 2x 200G QSFP (permite uma largura de banda máxima de 200G)
Sem Fios Wi-Fi 7, Bluetooth 5.3
Saída de áudio Saída de áudio multicanal HDMI
Conectores de tela 1× HDMI 2.1a
Mecânico
Dimensões 150 × 150 × 50.5 mm (5.9 × 5.9 × 1.98″)
Peso 1.2 kg
Consumo de energia 240 W

NVIDIA DGX Spark Design e construção

O NVIDIA DGX Spark dá continuidade à inconfundível linguagem de design industrial da NVIDIA, apresentando um chassi compacto que reflete a aparência e a sensação de seus sistemas DGX maiores. O painel frontal apresenta recortes em miniatura para segurar as mãos, uma referência às alças das unidades DGX originais em tamanho real, e um acabamento metálico com detalhes dourados que proporciona uma textura refinada e premium, realçada pelo icônico logotipo verde da NVIDIA.

Fisicamente, o DGX Spark mede 150 x 150 x 50.5 mm (5.9 x 5.9 x 1.98 polegadas) e pesa 1.2 kg (2.6 libras), totalizando 1.13 litro de volume interno. Isso o coloca firmemente na classe de PCs compactos de 1 litro. Apesar de seu tamanho compacto, o sistema parece denso e robusto graças a uma estrutura de liga metálica que também atua como dissipador de calor passivo, mantendo o foco tanto na forma quanto na função.

A energia é fornecida por um adaptador externo USB-C de 240 W, visto ao lado da unidade principal na imagem. O adaptador é compacto e bem construído, utilizando um conector C5 padrão (folha de trevo) para entrada CA e combinando com o design limpo e eficiente do DGX Spark.

Nvidia DGX Spark Front com fonte de alimentação.

Olhando para a parte traseira, o DGX Spark apresenta o mesmo acabamento texturizado com detalhes dourados da parte frontal, mantendo um design coeso em todo o chassi. Começando pela esquerda, o botão liga/desliga fica ao lado de quatro portas USB-C, uma das quais fornece energia para a unidade. Em seguida, há uma única saída HDMI 2.1a, uma porta RJ-45 de 10 GbE e o que torna esta unidade interessante são as duas interfaces QSFP56 de 200 GbE, controladas por uma placa de rede inteligente NVIDIA ConnectX-7 integrada.

Nvidia DGX Spark traseira.

À primeira vista, você pode deduzir que o Spark permite 400 Gb de conectividade; infelizmente, devido às limitações do PCIe, o Spark só consegue fornecer 200 Gb de conectividade. Para saber mais, nos aprofundamos na topologia do Spark:

Usando o lstopo, observamos as duas interconexões da placa de rede do CX7. Eletricamente, o CX7 é conectado por meio de dois links Gen5 x4. No sistema operacional, essas conexões aparecem como quatro interfaces, cada uma suportando uma largura de banda máxima de 200G. Devido ao tempo limitado de teste, não conseguimos descobrir todas as peculiaridades de rede desta plataforma fora dos nossos testes NVMe-oF, que serão detalhados posteriormente neste artigo. No entanto, planejamos explorar esta plataforma mais a fundo e publicaremos artigos futuros que se aprofundem em seus recursos, como o agrupamento de vários Sparks para um minicluster. 

Analisando outros dispositivos conectados, o próximo é o pequeno SSD M.2 com fator de forma 2242 conectado com Gen5 x4, seguido pelo controlador Realtek RJ45 10GbE conectado com link PCIe Gen4 x1, e o controlador Wi-Fi MediaTek conectado com um link PCIe Gen3 x1.

Analisando a CPU, o Spark contém um processador Arm de 20 núcleos com uma arquitetura heterogênea "big little", semelhante aos processadores mais recentes da Intel, composta por 10 núcleos de eficiência Cortex-A725 e 10 núcleos de desempenho Cortex-X925, divididos em dois clusters de cache L3. O primeiro cluster (8 MB L3) contém as CPUs 0-4 (Cortex-A725, máx. 2808 MHz) e as CPUs 5-9 (Cortex-X925, máx. 3900 MHz), enquanto o segundo cluster (16 MB L3) contém as CPUs 10-14 (Cortex-A725, máx. 2860 MHz) e as CPUs 15-19 (Cortex-X925, máx. 3978-4004 MHz). Cada núcleo possui caches L1 de dados privados de 64 KB e caches L1 de instruções de 64 KB, mas o cache L2 difere significativamente por tipo de núcleo: os núcleos Cortex-A725 de eficiência têm caches L2 de 512 KB, enquanto os núcleos Cortex-X925 de desempenho têm caches L2 substancialmente maiores, de 2 MB (4 vezes maiores). Os núcleos mais rápidos são as CPUs 15 a 19, que se beneficiam tanto do cache L3 maior de 16 MB quanto de frequências mais altas, sendo a CPU 19 o núcleo com desempenho máximo, a 4004 MHz. Esses diferentes níveis de potência/frequência são indicados pelas linhas tracejadas no núcleo na topologia mostrada acima.

Afastando o zoom, viramos o DGX Spark; o único componente plástico visível é a tampa da base, que se fixa magneticamente à parte inferior do chassi. Este design mantém o exterior limpo, ao mesmo tempo que permite acesso rápido aos componentes internos. Após a remoção da base magnética, quatro parafusos ficam expostos, permitindo acesso ao compartimento interno principal.

No interior, podemos ver a fiação da antena direcionada para a parte superior da unidade, confirmando a inclusão de conectividade Wi-Fi 7 e Bluetooth 5.3. Isso oferece opções de rede flexíveis, particularmente úteis para implantações móveis ou de laboratório onde o acesso com fio pode não estar disponível.

Também é visível a solução de armazenamento da unidade, um SSD PCIe Gen5 2242 M.2, um formato menos comum para hardware de alto desempenho. A configuração mostrada aqui inclui um drive Samsung NVMe de 4 TB.

Visão interna do SSD Nvidia DGX Spark.

Mergulhando mais fundo no DGX Spark, revelamos o coração do sistema: o superchip GB10 da NVIDIA Grace Blackwell. Ladeando o superchip GB10, estão as 8 memórias de sistema unificadas LPDDR5X soldadas, que oferecem 273 GB/s de largura de banda, garantindo acesso rápido aos dados em operações de CPU e GPU.

Logo ao lado do chip está a placa de rede CX7, que, como mencionado anteriormente, oferece 200 GB de conectividade. Isso permite que os usuários conectem o Spark a um armazenamento de alta velocidade ou até mesmo agrupem várias instâncias do Spark. A NVIDIA validou e vende um cluster de 2 Sparks que podem ser conectados diretamente para suportar modelos de IA ainda maiores.

Por fim, ao virar a placa, você pode ver toda a conectividade PCIe, incluindo o SSD PCIe Gen5 x4 2242 M.2 e o adaptador Wi-Fi PCIe Gen3x1 MediaTek.

Onde o Spark se torna indispensável: o moderno dispositivo de desenvolvimento de IA

O DGX Spark se mostra particularmente atraente em vários contextos profissionais distintos, cada um se beneficiando de sua combinação única de memória unificada, formato compacto e integração abrangente de software.

Aceleração da Ciência de Dados: dos Pandas à Produção

Para cientistas de dados, o NVIDIA DGX Spark representa uma grande melhoria na velocidade e na experiência do fluxo de trabalho. A rede ConnectX-7, que oferece largura de banda de 200 Gbps, combinada com bibliotecas aceleradas CUDA X, transforma o pré-processamento de dados. A IA e a Ciência de Dados são construídas com base em bons dados de entrada e bons dados de saída. Tradicionalmente, a fase mais demorada de qualquer projeto convencional de ML é a limpeza de dados e a extração de recursos. Fluxos de trabalho convencionais normalmente envolvem o carregamento de conjuntos de dados em ferramentas como o Pandas e a execução de transformações em núcleos de CPU, o que geralmente é lento. A exploração manual e a engenharia de recursos também podem ser um obstáculo significativo. O Spark permite a aceleração de GPU de ponta a ponta por meio do RAPIDS.

Um cenário típico de ciência de dados empresarial envolve engenharia de recursos em conjuntos de dados na faixa de 40 a 80 GB: junção de várias tabelas, computação de agregações em janelas temporais, tratamento de codificação categórica e normalização de distribuições. Na infraestrutura de CPU, esse pré-processamento pode consumir horas. Com o RAPIDS cuDF carregando todo o conjunto de dados na memória unificada de 128 GB do Spark, essas operações são concluídas em minutos com aceleração de 10x ou superior. O treinamento subsequente do modelo beneficia igualmente o aprendizado de máquina clássico com cuML ou o aprendizado profundo com PyTorch, eliminando o gargalo tradicional em que os cientistas de dados esperam pela infraestrutura em vez de iterar hipóteses.

Geração de Dados Sintéticos: Robótica e Simulação

A inclusão de núcleos RT de quarta geração posiciona o Spark de forma única para um fluxo de trabalho emergente: geração de dados sintéticos para treinamento de modelos mundiais. O treinamento de políticas de manipulação robustas tradicionalmente requer dezenas de milhares de demonstrações no mundo real, o que é proibitivamente caro e demorado. A simulação fotorrealista em plataformas como Isaac Sim ou Omniverse oferece uma alternativa, mas a renderização de imagens com ray tracing com iluminação, reflexos e materiais fisicamente precisos historicamente exigia GPUs caras para estações de trabalho, como as da NVIDIA. L40S e RTX 6000 Ada.

Fonte: NVIDIA

O Spark consolida esse fluxo de trabalho. Os núcleos RT permitem que as cargas de trabalho do OpenUSD processem a geração de dados sintéticos, enquanto os núcleos Tensor são usados ​​para inferência de IA em um projeto/fluxo de trabalho. Anteriormente, as organizações podiam implantar várias máquinas para renderização e um servidor separado otimizado para inferência. Agora, isso é possível em um único dispositivo de 240 W. Para startups de robótica, laboratórios universitários ou fabricantes automotivos que exploram a manipulação autônoma, essa integração reduz significativamente os cronogramas de desenvolvimento e os gastos de capital.

 

Anteriormente, exploramos pipelines de geração de dados sintéticos semelhantes usando sistemas de renderização L40S dedicados emparelhados com H100 para inferência em nosso cobertura anterior da NVIDIA L40S. A consolidação arquitetônica desses recursos em um dispositivo de desenvolvimento unificado pelo GB10 representa uma evolução convincente desse fluxo de trabalho. Planejamos realizar testes adicionais de desempenho do RT Core do Spark em relação a essas configurações discretas em análises futuras, examinando a renderização e outras cargas de trabalho para cenários representativos de manipulação robótica.

A Revolução da Codificação de Vibe

Andrej Karpathy, ex-diretor de IA da Tesla e membro fundador da OpenAI, cunhou o termo "codificação vibe" para descrever uma abordagem emergente para o desenvolvimento rápido de software com auxílio de IA. Em vez de escrever código meticulosamente linha por linha, a codificação vibe utiliza LLMs como programadores em pares interativos: descrevem funcionalidades em linguagem natural, geram estruturas de implementação, iteram por meio de refinamento conversacional e prototipam recursos rapidamente. Esse fluxo de trabalho transforma a codificação de construção deliberada em conversação guiada com uma IA que entende contexto, APIs e padrões arquitetônicos, permitindo que desenvolvedores individuais construam sistemas notavelmente sofisticados em uma velocidade sem precedentes.

A escala de adoção da codificação assistida por IA é evidenciada por Classificações de uso do OpenRouter, onde modelos focados em codificação dominam consistentemente o volume de inferências. Profissionais técnicos, o principal grupo demográfico de codificação de vibração, normalmente operam como usuários avançados, executando vários agentes de codificação em paralelo em diferentes contextos. E, à medida que modelos de peso aberto cada vez mais correspondem a alternativas proprietárias em principais benchmarks, Os desenvolvedores estão explorando implantações de inferência local para eliminar a limitação de taxa, garantir a disponibilidade durante janelas críticas de desenvolvimento e manter a confidencialidade do código para projetos proprietários.

A comunidade r/LocalLLaMA apresenta builds personalizados verdadeiramente impressionantes, que vão desde estações de trabalho com múltiplas GPUs até servidores conectados por fita adesiva executando modelos locais, inferência distribuída entre hardware de consumo e soluções de resfriamento elaboradas que permitem geração sustentada de alto rendimento. No entanto, essas configurações apresentam barreiras significativas: despesas de capital que muitas vezes excedem dezenas de milhares de dólares, consumo de energia substancial, desafios de gerenciamento térmico que exigem espaços dedicados em vez de ambientes de escritório padrão e considerável conhecimento técnico para configuração, otimização e solução de problemas.

O Spark altera fundamentalmente essa proposta de valor. Por US$ 3,999 com 128 GB de memória unificada, ele oferece um desempenho impressionante de inferência de modelos em um dispositivo silencioso, compacto e com baixo consumo de energia, consumindo apenas 240 W. Usuários que buscam estabelecer uma infraestrutura local de assistente de codificação não precisam mais de laboratórios domésticos complexos que consomem quilowatts-hora e geram uma produção de calor substancial. A abordagem de dispositivo validado com o sistema operacional DGX pré-configurado elimina a complexidade de configuração que antes restringia a implantação local de LLM a usuários com profundo conhecimento em Linux e CUDA.

Além de eliminar o atrito da infraestrutura, o Spark aborda questões críticas relacionadas à privacidade do código e à personalização do modelo. Assistentes de codificação baseados em nuvem necessariamente transmitem o código-fonte para servidores remotos, o que é um obstáculo para organizações que lidam com algoritmos proprietários, infraestrutura crítica de segurança ou dados regulamentados. A inferência local no Spark garante que o código nunca saia do ambiente de desenvolvimento. Além disso, a capacidade de memória de 128 GB permite o ajuste fino completo dos parâmetros dos modelos de codificação, permitindo que desenvolvedores experientes especializem modelos em bases de código internas. Esse recurso é particularmente valioso para organizações com linguagens de domínio específicas, estruturas personalizadas ou padrões arquitetônicos insuficientemente representados em dados de treinamento públicos.

Ajuste fino com NVIDIA NeMo no DGX Spark

A memória unificada de 128 GB do DGX Spark permite o ajuste fino completo dos parâmetros de modelos 8B, que tradicionalmente exigiam configurações caras em nuvem com várias GPUs. O ajuste fino completo do Qwen3 8B com otimização Adam padrão requer aproximadamente 132 GB (pesos de modelo de 16 GB, estados do otimizador de 96 GB, gradientes de 16 GB, além de ativações), excedendo as configurações H100 duplas de 80 GB. O uso de Adam de 8 bits com eficiência de memória reduz os requisitos para cerca de 70 GB, dependendo do tamanho do lote, cabendo confortavelmente no pool de memória do Spark. Isso é importante porque o ajuste fino completo oferece precisão de 4 a 6% maior do que LoRA em tarefas complexas de raciocínio. Enquanto as configurações 2× H100 de 80 GB baseadas em nuvem custam cerca de US$ 5 por hora com complexidade de treinamento distribuído, o Spark oferece treinamento em um único sistema com um investimento único de US$ 3,999.

O NVIDIA NeMo Automodel elimina o atrito da estrutura de treinamento empresarial, fornecendo suporte Day-0 para qualquer modelo Hugging Face sem conversão de ponto de verificação. Carregue o Qwen3 8B diretamente do HuggingFace Hub e configure o ajuste fino por meio de arquivos YAML, especificando fontes de conjuntos de dados, configurações do otimizador e alvos LoRA. O NeMo automatiza o checkpoint distribuído com compatibilidade com tensores de segurança, implementa kernels CUDA fundidos para acelerações de 2 a 5 vezes e lida com o acúmulo de gradiente.

Geração de imagens com Comfy UI

O ComfyUI fornece uma interface gráfica baseada em nós que transforma a Difusão Estável e modelos de difusão relacionados em pipelines criativos altamente personalizáveis. Ao contrário das interfaces web tradicionais que abstraem a complexidade por trás de controles deslizantes de parâmetros simplificados, o ComfyUI emprega uma arquitetura gráfica visual na qual os usuários constroem fluxos de trabalho conectando nós funcionais discretos, cada um representando operações específicas, como carregamento de modelo, codificação de prompts, amostragem de difusão latente, decodificação VAE ou transformações de upscaling. Este design modular permite controle granular sobre todo o pipeline de geração, tornando cada etapa computacional transparente e ajustável. Ele também permite que os usuários encadeiem vários modelos, implementem cronogramas de amostragem personalizados ou integrem técnicas avançadas como a orientação ControlNet, o que seria impossível em interfaces simplificadas.

No DGX Spark, o ComfyUI utiliza os Tensor Cores da GPU Blackwell para amostragem de difusão acelerada, normalmente completando gerações em 15 a 30 segundos, dependendo da complexidade da amostragem. A arquitetura de memória unificada de 128 GB se mostra particularmente vantajosa, mantendo múltiplos modelos de checkpoint, adaptadores LoRA e decodificadores VAE na memória simultaneamente, eliminando a sobrecarga de recarga que afeta sistemas com restrições de VRAM. Os usuários podem gerar arte de IA ilimitada localmente, sem limites de taxa de API, custos de nuvem por geração e preocupações com a privacidade associadas a fluxos de trabalho criativos proprietários. O modelo de persistência de fluxo de trabalho agrega valor operacional: pipelines completos são serializados em arquivos JSON que podem ser controlados por versão, compartilhados entre equipes ou incorporados diretamente em imagens geradas como metadados, permitindo reprodutibilidade essencial para organizações que criam pipelines de conjuntos de dados sintéticos ou mantêm estilos artísticos consistentes entre os ativos gerados.

Teste de desempenho do NVIDIA DGX Spark

vLLM Online Serving – Teste de Inferência LLM

O vLLM é o mecanismo de inferência e serviço de alto rendimento mais popular para LLMs. O benchmark de serviço online do vLLM é uma ferramenta de avaliação de desempenho projetada para medir as capacidades de serviço reais desse mecanismo de inferência ao lidar com solicitações simultâneas. Ele simula cargas de trabalho de produção enviando solicitações para um servidor vLLM em execução com parâmetros configuráveis, como taxa de solicitação, comprimento de entrada/saída e número de clientes simultâneos. O benchmark mede métricas-chave, incluindo rendimento, ou seja, tokens por segundo, tempo até o primeiro token e tempo por token de saída, ajudando os usuários a entender o desempenho do vLLM sob diferentes condições de carga.

Testamos o desempenho da inferência em um conjunto abrangente de modelos que representam as arquiteturas e os tipos de modelos mais populares em implantações de produção atualmente.

Mistura de Modelos de Especialistas

Avaliamos o Qwen3 Coder 30B-A3B, um dos modelos de codificação mais populares para implantações de inferência local. Essa arquitetura esparsa mantém um tamanho de modelo completo de 30 bilhões de parâmetros com precisão BF16, ativando apenas 3 bilhões de parâmetros por token gerado. Comparamos o modelo padrão e uma variante quantizada FP8 do Qwen. O modelo quantizado FP8 demonstra ganhos substanciais de desempenho: atingindo 46.5 tok/s na simultaneidade 1, escalando para impressionantes 482.6 tok/s no tamanho de lote 64. O modelo padrão BF16 fornece 27.8 tok/s na simultaneidade 1, atingindo 166.2 tok/s no tamanho de lote 64, um diferencial de desempenho de quase 3x.

Modelos Densos

Modelos densos representam a arquitetura LLM convencional, na qual todos os parâmetros e ativações são envolvidos durante a inferência, resultando em um processamento computacionalmente mais intensivo em comparação com suas contrapartes esparsas. Para avaliar de forma abrangente as características de desempenho em diferentes escalas de modelos e estratégias de quantização, comparamos cinco configurações de modelos densos.

Nosso conjunto de testes incluiu o Mistral Small 3.1 24B da Mistral AI com precisão BF16, juntamente com uma variante quantizada dinamicamente do Mistral Small 3.1 24B FP8 da RedHat AI. A quantização dinâmica emprega técnicas de quantização de peso seletivo para otimizar a relação desempenho-precisão, reduzindo estrategicamente a precisão e minimizando a degradação do modelo. Complementamos esses modelos densos maiores com avaliações do Meta Llama 3.1 8B em três formatos de precisão: a configuração BF16 padrão, além das versões quantizadas FP8 e FP4 da NVIDIA. Essa estratégia de seleção de modelos permite a comparação direta de desempenho entre escalas de modelo, ao mesmo tempo em que isola o impacto da quantização progressiva na taxa de transferência de inferência.

Análise de Desempenho: Modelos Grandes e Densos

O Mistral Small 3.1 24B com precisão BF16 apresenta uma taxa de transferência básica de 5.3 tok/s com simultaneidade 1, escalando para substanciais 158.9 tok/s com 128 solicitações simultâneas. A variante FP8 quantizada dinamicamente demonstra ganhos modestos com simultaneidade mais baixa, com 8.8 tok/s, mas oferece um multiplicador de desempenho de 2x em escala, atingindo 319.7 tok/s com simultaneidade 128 — ressaltando a eficácia da quantização dinâmica para cenários de serviço de alta taxa de transferência.

Análise de Desempenho: Modelos Compactos e Densos

A arquitetura Llama 3.1 8B revela características de desempenho marcadamente diferentes entre as estratégias de quantização. Na precisão BF16, o modelo fornece 13.6 tok/s na simultaneidade 1, expandindo para 408.6 tok/s em 128 solicitações simultâneas. A transição para a quantização FP8 produz 23.2 tok/s e 752.8 tok/s nos níveis de simultaneidade 1 e 128, respectivamente — representando uma melhoria de 84% na taxa de transferência em escala. A configuração FP4 eleva ainda mais o desempenho, atingindo 34.1 tok/s e 924.1 tok/s nos mesmos níveis de simultaneidade, demonstrando que estratégias de quantização agressivas podem fornecer ganhos de desempenho de 2.3x em relação à precisão de referência, mantendo a qualidade aceitável do modelo para muitas cargas de trabalho de produção.

Tipo de dados de microescala

A microescala representa uma abordagem avançada de quantização que aplica fatores de escala de granularidade fina a pequenos blocos de pesos, em vez de uma quantização uniforme em grandes grupos de parâmetros. O formato NVFP4 da NVIDIA implementa essa técnica por meio de uma representação de ponto flutuante em blocos, onde cada bloco de microescala de 8 a 32 valores compartilha um expoente comum como fator de escala. Essa abordagem granular preserva a precisão numérica, alcançando uma representação de 4 bits, mantendo a faixa dinâmica crítica para arquiteturas de transformadores. O formato integra-se à arquitetura Tensor Core da NVIDIA, permitindo computação eficiente de precisão mista com descompressão instantânea durante operações de matriz.

Avaliamos os modelos GPT OSS da OpenAI em escalas de parâmetros de 20B e 120B usando a quantização NVFP4. O modelo de parâmetros de 20B atinge 39.7 tok/s na simultaneidade 1, escalando para 611.7 tok/s com 128 solicitações simultâneas. A variante de parâmetros de 120B fornece 31.4 tok/s na simultaneidade 1 e 162.7 tok/s com 64 solicitações simultâneas.

Nota: A taxa de transferência de saída é a taxa de transferência entre solicitações e não a taxa de transferência por solicitação.

Devido ao tempo limitado, não conseguimos finalizar nossos testes do TensorRT. Fique de olho nos próximos artigos com o Spark, onde exploraremos o desempenho em mais estruturas de inferência.

Pré-preencher e decodificar inferência pesada

A inferência LLM pode ser fundamentalmente decomposta em duas fases computacionais distintas, cada uma exibindo características de desempenho e padrões de utilização de recursos marcadamente diferentes. A fase de pré-preenchimento processa todo o prompt de entrada em uma única operação paralela, computando mecanismos de atenção em todos os tokens de entrada simultaneamente, uma operação computacional intensiva que satura completamente os núcleos tensores e as unidades computacionais. Por outro lado, a fase de decodificação gera tokens de saída autorregressivamente, produzindo um token por vez por meio de operações sequenciais que exibem menor intensidade computacional, mas impõem demandas substanciais à largura de banda da memória, pois o modelo deve acessar repetidamente os pesos e o crescente cache de chave-valor. Isso cria perfis de gargalo fundamentalmente diferentes: as operações de pré-preenchimento são tipicamente limitadas à computação, enquanto as operações de decodificação tornam-se intensivas em largura de banda da memória, tornando-as particularmente suscetíveis a restrições do subsistema de memória.

Realizamos testes abrangentes em dois perfis distintos de carga de trabalho: inferência com alto nível de decodificação, com 512 tokens de entrada e 8,192 tokens de saída, e inferência com alto nível de pré-preenchimento, com 8,192 tokens de entrada e 512 tokens de saída. A caracterização do desempenho revela as compensações arquitetônicas esperadas: o Spark demonstra rendimento competitivo em cargas de trabalho com alto nível de pré-preenchimento, nas quais os recursos computacionais continuam sendo o principal gargalo, mas apresenta desempenho reduzido em cenários com alto nível de decodificação. Esse diferencial de desempenho se alinha precisamente às restrições de largura de banda da memória. A natureza sequencial das operações de decodificação e os padrões intensivos de acesso à memória expõem diretamente as limitações de largura de banda inerentes à arquitetura do Spark. Esses resultados fornecem um contexto crítico para a interpretação das medições do MAMF na próxima seção, visto que ambos os conjuntos de benchmarks identificam consistentemente a largura de banda da memória como o fator fundamental de limitação de desempenho em implantações de inferência no mundo real.

Máximo FLOPS de Matmul Alcançáveis ​​(MAMF)

MAMF (Maximum Achievable Matmul FLOPS) é uma métrica de desempenho prática projetada para medir o pico realista de operações de ponto flutuante por segundo que podem ser alcançadas em aceleradores de aprendizado de máquina durante operações de multiplicação de matrizes, oferecendo um benchmark mais preciso do que o pico teórico de FLOPS frequentemente anunciado em especificações de hardware. Estamos usando o benchmark mamf-finder por Stas Beckman.

Na precisão do BF16, observamos um MAMF de 99.8 TFLOPs, enquanto o FP8 (E4M3) demonstra um MAMF de 207.7 TFLOPs. Devido a restrições de tempo, não conseguimos realizar uma caracterização abrangente do MAMF do FP4; no entanto, extrapolando a partir dos padrões de escala baseados em precisão observados, prevemos um ganho de desempenho adicional de 2x em relação ao FP8, gerando aproximadamente 400 TFLOPs para operações densas do FP4. Ao considerar a otimização de esparsidade estruturada 2:1, isso se traduz em aproximadamente 80% das capacidades teóricas de desempenho do FP4, atingindo aproximadamente 800 TFLOPs sob cargas de trabalho computacionais esparsas. É importante observar que essas medições de MAMF podem ficar abaixo das especificações teoricamente anunciadas devido a vários motivos que não abordaremos nesta análise.

Armazenamento direto da GPU

Um dos testes que realizamos no Spark foi o MagnumIO GPU Direct Storage (GDS). O GDS é um recurso desenvolvido pela NVIDIA que permite que as GPUs ignorem a CPU ao acessar dados armazenados em unidades NVMe ou outros dispositivos de armazenamento de alta velocidade. Em vez de rotear os dados pela CPU e pela memória do sistema, o GDS permite a comunicação direta entre a GPU e o dispositivo de armazenamento, reduzindo significativamente a latência e melhorando a taxa de transferência de dados.

Como funciona o armazenamento direto da GPU

Tradicionalmente, quando uma GPU processa dados armazenados em uma unidade NVMe, os dados devem primeiro viajar pela CPU e pela memória do sistema antes de chegar à GPU. Esse processo introduz gargalos, pois a CPU se torna um intermediário, adicionando latência e consumindo recursos valiosos do sistema. O GPU Direct Storage elimina essa ineficiência ao permitir que a GPU acesse dados diretamente do dispositivo de armazenamento por meio do barramento PCIe. Esse caminho direto reduz a sobrecarga associada à movimentação de dados, permitindo transferências de dados mais rápidas e eficientes.

Cargas de trabalho de IA, especialmente aquelas que envolvem aprendizado profundo, são altamente intensivas em dados. Treinar grandes redes neurais requer o processamento de terabytes de dados, e qualquer atraso na transferência de dados pode levar a GPUs subutilizadas e tempos de treinamento mais longos. O GPU Direct Storage aborda esse desafio garantindo que os dados sejam entregues à GPU o mais rápido possível, minimizando o tempo ocioso e maximizando a eficiência computacional.

Além disso, o GDS é particularmente benéfico para cargas de trabalho que envolvem streaming de grandes conjuntos de dados, como processamento de vídeo, processamento de linguagem natural ou inferência em tempo real. Ao reduzir a dependência da CPU, o GDS acelera a movimentação de dados e libera recursos da CPU para outras tarefas, aprimorando ainda mais o desempenho geral do sistema.

GDSIO – M.2 interno de 4 TB

O NVIDIA DGX Spark tem uma opção interessante para armazenamento. Considerando o tamanho dentro do gabinete compacto, a NVIDIA optou pelo SSD M.2 Gen5 2242, menos comum. Para leitores não familiarizados com esse tipo de SSD, ele é uma versão menor, de 42 mm, em comparação com o modelo de 80 mm, mais comum em desktops. Há menos opções de unidades, sendo 4 TB a capacidade máxima nesse tamanho. O principal problema, porém, é o desempenho. SSDs pequenos, como os modelos 2242 e 2230, priorizam o tamanho, com a velocidade das unidades em segundo plano. Eles são comuns em consoles de jogos portáteis, tablets e alguns notebooks.

Não há muito espaço na PCB dos SSDs 2230 e 2242, resultando em menos espaço para controladores, DRAM e pacotes NAND. Observamos algumas dessas compensações durante nossos testes. Ao aplicar nossa carga de trabalho GDSIO em um espaço de 1 TB ou 128 GB, o SSD travava e era necessário recriar a imagem do Spark. Reduzir o espaço de teste para 64 GB, bem como reduzir a contagem de threads mais alta, resolveu esse problema. Esses problemas geralmente não ocorrem com SSDs de 80 mm de alto desempenho mais comuns.

Analisando o desempenho de leitura sequencial da unidade interna, vemos o maior rendimento no tamanho de bloco de 1 M com 16 threads, atingindo 11.4 GiB/s.

Considerando o desempenho de gravação sequencial, a unidade atinge a maior taxa de transferência em blocos de 32k com 128 threads. Em blocos maiores, o desempenho parece estagnar, com média em torno de 8.3 GiB/s.

Para compradores que desejam adquirir o NVIDIA DGX Spark para trabalhos de desenvolvimento mais pesados, especialmente empresas que podem criar pequenos clusters com ele, recomendamos fortemente aproveitar a placa de rede NVIDIA ConnectX-7 de 200 Gb integrada.

GDSIO – NVMe-oF sobre RDMA

Para testes de NVMe-oF RDMA com o NVIDIA DGX Spark, utilizamos o software da PEAK:AIO para criar um alvo NVMe-oF em um Dell PowerEdge R770 com seis SSDs Micron 9550 de 3.84 TB conectados via RDMA. Como mencionamos anteriormente, a placa de rede CX7 do Spark tem suas peculiaridades e, devido a restrições de tempo, só conseguimos testar o Spark com conectividade de 100G. Tanto o Spark quanto o PEAK:AIO podem atingir números significativamente maiores. Realizaremos testes adicionais de armazenamento e rede com o Spark em etapas subsequentes.

Analisando o desempenho de leitura sequencial da unidade interna, vemos a maior taxa de transferência com tamanho de bloco de 128k com 32 threads, atingindo 12.1 GiB/s.

Considerando o desempenho de gravação sequencial, a unidade atinge a maior taxa de transferência em blocos de 128k com 16 threads. Em blocos maiores, o desempenho parece estagnar, com média em torno de 11.3 GiB/s.

Há muitas nuances nesses resultados; estamos vendo apenas metade do máximo teórico devido aos motivos mencionados acima relacionados ao tempo e à rede. Além disso, a maior taxa de transferência com tamanho de bloco de 128k é influenciada por diversos fatores, como os discos corporativos que utilizamos ou como o PEAK:AIO lida com essa E/S. Sua quilometragem pode variar e pretendemos fazer mais testes com o Spark no futuro.

Ecossistema de software do primeiro dia

A NVIDIA e outros fornecedores investiram substancialmente na preparação de software, um grande avanço em relação aos lançamentos típicos de hardware, em que os primeiros usuários navegam por documentação incompleta e ferramentas ausentes. O Spark é lançado com manuais abrangentes que abrangem fluxos de trabalho comuns: ComfyUI para modelos de difusão, TRT-LLM para inferência otimizada, Ollama com Open WebUI para serviço de modelos locais, Unsloth para ajuste fino e arquiteturas multiagentes com LangGraph.

Essa maturidade do software transforma a experiência de avaliação. Em vez de passar dias configurando ambientes, os desenvolvedores podem avaliar imediatamente se o Spark atende aos seus requisitos executando cargas de trabalho representativas. cartilhas forneça não apenas instruções, mas ambientes em contêineres, conjuntos de dados de amostra e métricas de desempenho esperadas.

Disponibilidade e sistemas OEM

A Founders Edition da NVIDIA está disponível para encomenda por US$ 3,999 para a configuração de 4 TB, e a disponibilidade geral começa em 15 de outubro. Além da unidade da própria NVIDIA, vários desktops com GB10 estão chegando dos grandes OEMs. O hardware principal será bastante semelhante em todos os OEMs, mas pode haver uma pequena margem de manobra para que eles se diferenciem, embora a maior parte da variação de preço provavelmente venha da seleção de armazenamento. Já vimos muitos anúncios, incluindo o Dell Pro Max com GB 10, o Lenovo ThinkStation PGX, o Acer Veriton GN100 e o ASUS Ascent GX10.

Fonte: Nvidia

Conclusão

O NVIDIA DGX Spark representa um ponto de inflexão fundamental no paradigma de acessibilidade da infraestrutura de computação avançada de IA. Ao consolidar os recursos do superchip GB10 Grace Blackwell: 128 GB de memória unificada, desempenho de FP4 esparso de 1 petaFLOP, núcleos RT de quarta geração e rede ConnectX-7 em um dispositivo de 240 W e 1.13 litro com preço de US$ 3,999, a NVIDIA efetivamente eliminou as barreiras que historicamente segregavam os recursos de IA de nível de data center de pesquisadores individuais e pequenas equipes de desenvolvimento.

A abordagem de dispositivo validado aborda um ponto de atrito persistente na implantação de infraestrutura de IA: a sobrecarga operacional de manutenção de configurações personalizadas. Organizações que implantam unidades Spark se beneficiam dos testes e validação abrangentes da NVIDIA de toda a pilha, incluindo o DGX OS, o kit de ferramentas CUDA, os contêineres de estrutura e o firmware de hardware, eliminando assim a dívida de configuração que afeta as compilações de estações de trabalho personalizadas. O gerenciamento integrado de atualizações, o monitoramento do sistema e o provisionamento do JupyterLab do DGX Dashboard reduzem ainda mais a carga operacional, enquanto a distribuição automática de chaves SSH e o gerenciamento de túneis do NVIDIA Sync tornam o acesso remoto genuinamente sem atrito. Para organizações em expansão, isso se traduz em uma integração mensuravelmente mais rápida: novos pesquisadores recebem hardware padronizado, conectam-se à infraestrutura existente por meio da configuração de cluster de dois nós validada e começam o trabalho produtivo em poucas horas, em vez de dias, após a solução de conflitos de driver ou configuração da malha de rede.

O DGX Spark já oferece potência real de IA em um dispositivo compacto e silencioso, e nossos primeiros resultados mostram por que ele é importante para equipes que buscam recursos robustos sem a sobrecarga do data center. A história está apenas começando. Planejamos expandir nossos testes com a malha de 200G, alvos NVMe-oF e clustering de vários nós para explorar a eficiência de escala, maiores pegadas de modelo e arquiteturas de armazenamento compartilhado. À medida que o ecossistema de software e parceiros amadurece, esperamos que as implantações do Spark evoluam de poderosas configurações de nó único para miniclusters de alto rendimento e altamente integrados, que aprimoram ainda mais esta plataforma.

Página do produto

Demonstrações do Spark

Envolva-se com a StorageReview

Newsletter | YouTube | Podcast iTunes/Spotify | Instagram: | Twitter | TikTok | RSS feed

Divyansh Jain

Sou engenheiro de MLOps e Machine Learning, entusiasta de laboratórios domésticos e tecnologia. Na Storage Review, trabalho com IA e testes de cargas de trabalho emergentes para fornecer insights práticos e análises de desempenho.