La carte NVIDIA DGX Spark marque un tournant dans l'accessibilité des infrastructures d'IA. En 2017, l'article phare « Attention is All You Need » qui présentait l'architecture Transformer reposait sur une configuration serveur P100 à huit GPU, consommant des dizaines de kilowattheures et occupant une place importante dans un centre de données. Aujourd'hui, la carte DGX Spark offre des performances de calcul supérieures dans un format de bureau compact de 240 watts. Cette évolution spectaculaire en termes d'efficacité énergétique et de compression du format rend accessibles aux chercheurs individuels, aux petites équipes et aux organisations de développement distribué des capacités d'IA autrefois réservées aux centres de données.
Ce qui distingue Spark des précédentes solutions d'IA de bureau, c'est son approche globale du cycle de développement. Plutôt que d'imposer des compromis entre expérimentation, mise au point et déploiement, Spark offre de réelles capacités à toutes les phases. Son architecture mémoire unifiée de 128 Go permet un réglage fin complet des paramètres des modèles, ce qui nécessiterait des ressources cloud sur des postes de travail classiques, tout en offrant un débit de plusieurs centaines de jetons par seconde, adapté aux charges de travail d'inférence par lots, y compris la génération de données synthétiques. L'intégration du réseau ConnectX-7 avec une capacité de fabric de 200 Go permet aux entreprises de regrouper plusieurs systèmes Spark pour une exploration de modèles encore plus vaste. Comme nous le démontrerons, même une seule unité s'avère remarquablement performante.
Points clés à retenir
La puissance d'un centre de données dans un ordinateur de bureau:GB10 Grace Blackwell dans un boîtier de 1.13 litre et 240 W, au prix de 3 999 $, offrant jusqu'à 1 pétaFLOP de performances éparses FP4.
Une mémoire qui modifie les flux de travailUne mémoire unifiée de 128 Go permet un réglage précis et complet des paramètres des modèles 8B localement et une inférence à haut débit. Lors des tests, nous avons constaté que Llama 3.1 8B FP4 atteignait environ 924 tok/s avec une simultanéité de 128, et que Qwen3 Coder 30B-A3B FP8 atteignait environ 483 tok/s avec le lot 64.
Prêt à évoluer et à connecter un stockage rapideConnectX-7 intégré offre une structure 200G pour le clustering ou NVMe-oF. Le NVMe 2242 Gen5 interne est pratique, mais limité pour les E/S intensives. Le NVMe-oF externe sur RDMA est donc la meilleure solution pour un débit soutenu.
Maturité du logiciel dès le premier jour: Livré avec DGX OS, CUDA, cuDNN, TensorRT, AI Workbench, des conteneurs et des playbooks de workflow afin que les équipes puissent exécuter des charges de travail réelles immédiatement.
Des performances éprouvées dans le monde réel: MAMF a mesuré environ 99.8 TFLOPs BF16 et environ 207.7 TFLOPs FP8. Les lectures GDSIO ont atteint un pic d'environ 11.4 Gio/s en interne, avec un plafond plus élevé attendu sur la structure 200G.
Qu'est-ce que DGX Spark et qui devrait l'envisager ?
La NVIDIA DGX Spark est fondamentalement une plateforme de développement d'IA complète, et non un simple composant GPU. Son cœur repose sur la superpuce GB10 Grace Blackwell, qui intègre un GPU à architecture Blackwell doté de cœurs Tensor de cinquième génération et un processeur Arm à 20 cœurs (10 Cortex-X925 + 10 Cortex-A725) connectés via NVLink-C2C. Selon NVIDIA, cette architecture d'interconnexion cohérente permet une bande passante jusqu'à cinq fois supérieure à celle du PCIe Gen 5, créant ainsi une structure de calcul unifiée plutôt que des domaines de traitement distincts.
Pour faciliter la prise en main, NVIDIA fournit le système d'exploitation DGX basé sur Ubuntu Desktop avec la pile logicielle d'IA complète préconfigurée, incluant CUDA, cuDNN, TensorRT, NVIDIA Container Runtime et AI Workbench. Ceci élimine les problèmes de pilotes et les contraintes de configuration de l'environnement qui freinent généralement la création de postes de travail personnalisés. Le système offre des configurations de déploiement flexibles : connectez des périphériques et utilisez-le comme un poste de travail compact avec l'expérience Ubuntu Desktop complète, ou déployez-le comme une appliance réseau sans interface accessible via NVIDIA Sync, qui assure une intégration transparente avec JupyterLab, VS Code, Cursor IDE et les terminaux SSH.
Il s'agit d'une infrastructure spécialement conçue pour les praticiens de l'IA, les chercheurs qui peaufinent les modèles de langage, les data scientists qui accélèrent les workflows RAPIDS, les développeurs qui mettent en œuvre des systèmes agents ou les équipes qui expérimentent des architectures avec des modèles ablatifs à petite échelle. Spark s'adresse aux professionnels qui ont besoin de capacités de calcul d'IA performantes sans la complexité d'un centre de données.
Spécifications techniques de NVIDIA DGX Spark
| Spécifications | DÉTAILS |
|---|---|
| Architecture | |
| GPU | Architecture NVIDIA Blackwell |
| Processeur | Processeur Arm 20 cœurs (10x Cortex-X925 + 10x Cortex-A725) |
| Noyaux de tenseurs | 5th Generation |
| RT Cœurs | 4th Generation |
| NVENC/NVDEC | 1× / 1× |
| Mémoire | |
| Mémoire système | 128 Go LPDDR5X (mémoire système unifiée) |
| Interface de mémoire | 256-bits |
| Bande passante mémoire | 273 GB / s |
| Performances | |
| FP4 | jusqu'à 1 pétaFLOP (avec parcimonie) |
| Stockage | |
| Stockage | 1 To ou 4 To NVMe M.2 (auto-crypté) |
| Connectivité | |
| USB | 4 ports USB 3.2 Gen 2×2 de type C (20 Gbit/s) |
| Ethernet | 1 × 10 GbE RJ-45 |
| NIC | Carte réseau intelligente ConnectX-7 – 2x 200G QSFP (permet une bande passante maximale de 200G) |
| Sans-fil | Wi-Fi 7, Bluetooth 5.3 |
| Sorties audio | Sortie audio multicanal HDMI |
| Connecteurs d'affichage | 1 × HDMI 2.1a |
| Mécaniques | |
| Dimensions | 150 × 150 × 50.5 mm (5.9 × 5.9 × 1.98″) |
| Poids | 1.2 kg |
| Consommation d'énergie | 240 W |
Conception et construction de NVIDIA DGX Spark
Le NVIDIA DGX Spark perpétue le design industriel emblématique de NVIDIA, avec un châssis compact qui reprend l'esthétique et le confort des systèmes DGX de plus grande taille. La face avant présente des découpes miniatures pour la prise en main, un clin d'œil aux poignées des DGX d'origine, et une finition métallique mouchetée d'or offrant une texture raffinée et haut de gamme, rehaussée par le logo vert emblématique de NVIDIA.
Physiquement, le DGX Spark mesure 150 × 150 × 50.5 mm (5.9 × 5.9 × 1.98 pouces) et pèse 1.2 kg (2.6 livres), soit un volume interne total de 1.13 litre. Il se classe ainsi parmi les PC compacts de 1 litre. Malgré son encombrement minimal, le système offre une sensation de robustesse et de robustesse grâce à sa coque entièrement en alliage métallique qui fait également office de dissipateur thermique passif, privilégiant à la fois la forme et la fonctionnalité.
L'alimentation est assurée par un bloc d'alimentation externe USB-C de 240 W, visible à côté de l'unité principale sur l'image. Compact et robuste, ce bloc utilise un connecteur C5 standard (en trèfle) pour l'entrée secteur et s'intègre parfaitement au design épuré et efficace du DGX Spark.
À l'arrière, le DGX Spark reprend la même finition texturée mouchetée dorée que l'avant, conservant ainsi une conception cohérente à l'ensemble du châssis. En partant de la gauche, le bouton d'alimentation se trouve à côté de quatre ports USB-C, dont l'un assure l'alimentation de l'appareil. Viennent ensuite une sortie HDMI 2.1a et un port RJ-45 10 GbE. L'intérêt de ce modèle réside dans ses deux interfaces QSFP56 200 GbE pilotées par une carte réseau NVIDIA ConnectX-7 SmartNIC intégrée.
À première vue, on pourrait penser que le Spark offre une connectivité de 400 G ; malheureusement, en raison des limitations du PCIe, il ne peut offrir qu'une connectivité de 200 G. Pour en savoir plus, nous avons étudié la topologie du Spark :
Grâce à lstopo, nous observons les deux interconnexions de la carte réseau CX7. Électriquement, la CX7 est connectée via deux liaisons Gen5 x4. Dans le système d'exploitation, ces connexions apparaissent comme quatre interfaces, chacune prenant en charge une bande passante maximale de 200 G. En raison du temps de test limité, nous n'avons pas pu identifier toutes les particularités réseau de cette plateforme en dehors de nos tests NVMe-oF, détaillés plus loin dans cet article. Cependant, nous prévoyons d'explorer cette plateforme plus en détail et publierons de futurs articles approfondissant ses fonctionnalités, comme le regroupement de plusieurs Sparks pour former un mini-cluster.
En regardant les autres appareils connectés, le prochain est le minuscule SSD M.2 au format 2242 connecté à Gen5 x4, suivi du contrôleur Realtek RJ45 10GbE connecté à une liaison PCIe Gen4 x1 et du contrôleur Wi-Fi MediaTek connecté à une liaison PCIe Gen3 x1.
Concernant le processeur, le Spark intègre un processeur Arm à 20 cœurs doté d'une architecture hétérogène, similaire aux derniers processeurs Intel, composée de 10 cœurs Cortex-A725 performants et de 10 cœurs Cortex-X925 performants, répartis sur deux clusters de cache L3. Le premier cluster (8 Mo de cache L3) contient les processeurs 0 à 4 (Cortex-A725, max. 2808 MHz) et 5 à 9 (Cortex-X925, max. 3900 MHz), tandis que le second cluster (16 Mo de cache L3) contient les processeurs 10 à 14 (Cortex-A725, max. 2860 MHz) et 15 à 19 (Cortex-X925, max. 3978-4004 MHz). Chaque cœur dispose de 64 Ko de caches de données L1 privés et de 64 Ko de caches d'instructions L1. Cependant, le cache L2 varie considérablement selon le type de cœur : les cœurs Cortex-A725 performants disposent de 512 Ko de caches L2, tandis que les cœurs Cortex-X925 performants disposent de caches L2 nettement plus importants (4 fois plus grands) de 2 Mo. Les cœurs les plus rapides sont les processeurs 15 à 19, qui bénéficient à la fois d'un cache L3 plus important (16 Mo) et de fréquences plus élevées, le processeur 19 étant le cœur le plus performant à 4 004 MHz. Ces différences de puissance/fréquence sont indiquées par les lignes pointillées sur le cœur dans la topologie illustrée ci-dessus.
En zoomant à nouveau, nous retournons le DGX Spark ; le seul composant plastique visible est le cache de la base, qui se fixe magnétiquement au bas du châssis. Cette conception préserve la propreté de l'extérieur tout en permettant un accès rapide aux composants internes. Une fois la base magnétique retirée, quatre vis apparaissent, donnant accès au compartiment principal.
À l'intérieur, on peut voir le câblage de l'antenne acheminé vers la partie supérieure de l'appareil, confirmant la présence des connectivités Wi-Fi 7 et Bluetooth 5.3. Cela offre des options réseau flexibles, particulièrement utiles pour les déploiements mobiles ou en laboratoire où l'accès filaire n'est pas toujours disponible.
La solution de stockage de l'unité est également visible : un SSD M.2 PCIe Gen5 2242, un format moins courant pour un matériel aussi performant. La configuration présentée ici inclut un disque NVMe Samsung de 4 To.
En plongeant plus profondément dans le DGX Spark, on découvre le cœur du système : la superpuce GB10 de NVIDIA Grace Blackwell. À ses côtés se trouvent huit mémoires système unifiées LPDDR5X soudées, offrant une bande passante de 273 Go/s, garantissant un accès rapide aux données pour les opérations CPU et GPU.
Juste à côté de la puce se trouve la carte réseau CX7 qui, comme mentionné précédemment, offre une connectivité de 200 G. Cela permet aux utilisateurs de connecter le Spark à un stockage haut débit ou même de regrouper plusieurs instances du Spark. NVIDIA a validé et commercialisé un cluster de deux Sparks directement connectables pour prendre en charge des modèles d'IA encore plus volumineux.
Enfin, en retournant la carte, on découvre toute la connectivité PCIe, y compris le SSD PCIe Gen5 x4 2242 M.2 et l'adaptateur Wi-Fi PCIe Gen3x1 MediaTek.
Où Spark devient indispensable : l'appliance de développement d'IA moderne
Le DGX Spark s'avère particulièrement convaincant dans plusieurs contextes professionnels distincts, chacun bénéficiant de sa combinaison unique de mémoire unifiée, de facteur de forme compact et d'intégration logicielle complète.
Accélération de la science des données : des pandas à la production
Pour les data scientists, NVIDIA DGX Spark représente une amélioration significative de la vitesse et de l'expérience de travail. Le réseau ConnectX-7, offrant une bande passante de 200 Gbit/s, combiné aux bibliothèques accélérées CUDA X, transforme le prétraitement des données. L'IA et la science des données reposent sur des données entrantes et sortantes de qualité. Traditionnellement, la phase la plus chronophage de tout projet de machine learning conventionnel est le nettoyage des données et l'extraction de caractéristiques. Les workflows classiques impliquent généralement le chargement d'ensembles de données dans des outils comme Pandas et la réalisation de transformations sur les cœurs de processeur, une opération généralement lente. L'exploration manuelle et l'ingénierie des caractéristiques peuvent également constituer un frein important. Spark permet une accélération GPU de bout en bout grâce à RAPIDS.
Un scénario typique de science des données en entreprise implique l'ingénierie des caractéristiques sur des jeux de données de 40 à 80 Go : jointure de plusieurs tables, calcul d'agrégations sur des fenêtres temporelles, gestion de l'encodage catégoriel et normalisation des distributions. Sur une infrastructure CPU, ce prétraitement peut prendre des heures. Avec RAPIDS cuDF chargeant l'intégralité du jeu de données dans la mémoire unifiée de 128 Go de Spark, ces opérations s'exécutent en quelques minutes avec une accélération 10x ou supérieure. L'entraînement ultérieur du modèle bénéficie des mêmes avantages, qu'il s'agisse de ML classique avec cuML ou de deep learning avec PyTorch, éliminant ainsi le goulot d'étranglement traditionnel qui oblige les data scientists à attendre l'infrastructure au lieu d'itérer sur des hypothèses.
Génération de données synthétiques : robotique et simulation
L'intégration de cœurs RT de quatrième génération positionne Spark de manière unique pour un flux de travail émergent : la génération de données synthétiques pour l'entraînement de modèles globaux. L'entraînement de politiques de manipulation robustes nécessite traditionnellement des dizaines de milliers de démonstrations en conditions réelles, ce qui est extrêmement coûteux et chronophage. La simulation photoréaliste sur des plateformes comme Isaac Sim ou Omniverse offre une alternative, mais le rendu d'images ray-tracées avec un éclairage, des reflets et des matériaux physiquement précis exigeait traditionnellement des GPU de station de travail coûteux comme ceux de NVIDIA. L40S et RTX 6000 Ada.
Source : Nvidia
Spark consolide ce flux de travail. Les cœurs RT permettent aux charges de travail OpenUSD de gérer la génération de données synthétiques, tandis que les cœurs Tensor sont utilisés pour l'inférence IA dans un plan directeur/flux de travail. Auparavant, les entreprises déployaient plusieurs machines pour le rendu et un serveur distinct optimisé pour l'inférence. Désormais, cela est réalisable avec une seule appliance de 240 W. Pour les startups en robotique, les laboratoires universitaires ou les constructeurs automobiles qui explorent la manipulation autonome, cette intégration réduit considérablement les délais de développement et les dépenses d'investissement.
Nous avons déjà exploré des pipelines de génération de données synthétiques similaires en utilisant des systèmes de rendu L40S dédiés associés à H100 pour l'inférence dans notre couverture antérieure de NVIDIA L40S. La consolidation architecturale de ces fonctionnalités au sein d'une appliance de développement unifiée par le GB10 représente une évolution significative de ce flux de travail. Nous prévoyons de réaliser des tests supplémentaires des performances du cœur RT de Spark sur ces configurations distinctes lors d'une prochaine analyse, en examinant le rendu et d'autres charges de travail pour des scénarios de manipulation robotique représentatifs.
La révolution du codage Vibe
Andrej Karpathy, ancien directeur de l'IA chez Tesla et membre fondateur d'OpenAI, a inventé le terme « vibe coding » pour décrire une approche émergente du développement logiciel rapide assisté par l'IA. Plutôt que d'écrire méticuleusement du code ligne par ligne, le vibe coding s'appuie sur les LLM comme des binômes de programmeurs interactifs : ils décrivent les fonctionnalités en langage naturel, génèrent des échafaudages d'implémentation, itèrent par raffinement conversationnel et prototypent rapidement des fonctionnalités. Ce workflow transforme le codage, passant d'une construction délibérée à une conversation guidée avec une IA qui comprend le contexte, les API et les modèles d'architecture, permettant ainsi aux développeurs individuels de créer des systèmes remarquablement sophistiqués à une vitesse sans précédent.
L’ampleur de l’adoption du codage assisté par l’IA est démontrée par Classement d'utilisation d'OpenRouter, Là où les modèles axés sur le codage dominent systématiquement le volume d'inférence. Les professionnels techniques, principal segment démographique du codage, opèrent généralement en tant qu'utilisateurs expérimentés, exécutant plusieurs agents de codage en parallèle dans différents contextes. De plus, les modèles ouverts s'alignent de plus en plus sur les alternatives propriétaires. repères clés, Les développeurs explorent les déploiements d'inférence locaux pour éliminer la limitation de débit, garantir la disponibilité pendant les fenêtres de développement critiques et maintenir la confidentialité du code pour les projets propriétaires.
La communauté r/LocalLLaMA présente des configurations personnalisées vraiment impressionnantes, allant des stations de travail multi-GPU aux serveurs assemblés avec du ruban adhésif exécutant des modèles locaux, en passant par l'inférence distribuée sur du matériel grand public et des solutions de refroidissement élaborées permettant une production à haut débit soutenue. Cependant, ces configurations présentent des obstacles importants : des investissements dépassant souvent des dizaines de milliers de dollars, une consommation énergétique importante, des défis de gestion thermique nécessitant des espaces dédiés plutôt que des environnements de bureau standard, et une expertise technique considérable pour la configuration, l'optimisation et le dépannage.
Spark révolutionne cette proposition de valeur. À 3 999 $ avec 128 Go de mémoire unifiée, il offre des performances d'inférence de modèles impressionnantes dans un appareil silencieux, compact et économe en énergie, ne consommant que 240 W. Les utilisateurs souhaitant mettre en place une infrastructure locale d'assistants de codage n'ont plus besoin de laboratoires domestiques complexes, gourmands en kilowattheures et générant une chaleur importante. L'approche validée de l'appareil avec le système d'exploitation DGX préconfiguré élimine la complexité de configuration qui limitait auparavant le déploiement local de LLM aux utilisateurs possédant une expertise approfondie de Linux et CUDA.
Au-delà de l'élimination des frictions liées à l'infrastructure, Spark répond aux préoccupations cruciales en matière de confidentialité du code et de personnalisation des modèles. Les assistants de codage cloud transmettent nécessairement le code source à des serveurs distants, ce qui est un obstacle pour les organisations gérant des algorithmes propriétaires, des infrastructures critiques pour la sécurité ou des données réglementées. L'inférence locale sur Spark garantit que le code ne quitte jamais l'environnement de développement. De plus, la capacité de mémoire de 128 Go permet un réglage fin complet des paramètres des modèles de codage, permettant aux développeurs expérimentés de les spécialiser sur des bases de code internes. Cette fonctionnalité est particulièrement précieuse pour les organisations utilisant des langages spécifiques à un domaine, des frameworks personnalisés ou des modèles d'architecture insuffisamment représentés dans les données d'apprentissage publiques.
Réglages précis avec NVIDIA NeMo sur DGX Spark
La mémoire unifiée de 128 Go du DGX Spark permet un réglage fin complet des paramètres des modèles 8B, qui nécessitaient traditionnellement des configurations cloud multi-GPU coûteuses. Le réglage fin complet du Qwen3 8B avec l'optimisation Adam standard nécessite environ 132 Go (16 Go de pondération des modèles, 96 Go d'états d'optimisation, 16 Go de gradients, plus les activations), ce qui dépasse les configurations doubles H100 80 Go. L'utilisation d'Adam 8 bits, économe en mémoire, réduit les besoins à environ 70 Go, selon la taille du lot, et s'intègre parfaitement au pool de mémoire de Spark. Cet aspect est important car le réglage fin complet offre une précision 4 à 6 % supérieure à celle de LoRA sur les tâches de raisonnement complexes. Alors que les configurations cloud 2× H100 80 Go coûtent environ 5 $ de l'heure avec une complexité d'apprentissage distribuée, Spark propose un entraînement sur un seul système pour un investissement unique de 3 999 $.
NVIDIA NeMo Automodel élimine les frictions liées à l'infrastructure de formation d'entreprise en offrant une prise en charge immédiate de tout modèle HuggingFace sans conversion de point de contrôle. Chargez Qwen3 8B directement depuis HuggingFace Hub et configurez les réglages via des fichiers YAML spécifiant les sources des jeux de données, les paramètres d'optimisation et les cibles LoRA. NeMo automatise les points de contrôle distribués grâce à la compatibilité Safetensors, implémente des noyaux CUDA fusionnés pour des accélérations de 2 à 5 fois supérieures et gère l'accumulation de gradient.
Génération d'images avec Comfy UI
ComfyUI propose une interface graphique basée sur des nœuds qui transforme la diffusion stable et les modèles de diffusion associés en pipelines créatifs hautement personnalisables. Contrairement aux interfaces web traditionnelles qui résument la complexité derrière des curseurs de paramètres simplifiés, ComfyUI utilise une architecture graphique visuelle où les utilisateurs construisent des workflows en connectant des nœuds fonctionnels discrets, chacun représentant des opérations spécifiques telles que le chargement du modèle, l'encodage des prompts, l'échantillonnage par diffusion latente, le décodage VAE ou les transformations de mise à l'échelle. Cette conception modulaire permet un contrôle précis de l'ensemble du pipeline de génération, rendant chaque étape de calcul transparente et personnalisable. Elle permet également d'enchaîner plusieurs modèles, d'implémenter des programmes d'échantillonnage personnalisés ou d'intégrer des techniques avancées comme le guidage ControlNet, ce qui serait impossible avec des interfaces simplifiées.
Sur DGX Spark, ComfyUI exploite les cœurs Tensor du GPU Blackwell pour un échantillonnage par diffusion accéléré, réalisant généralement les générations en 15 à 30 secondes selon la complexité de l'échantillonnage. L'architecture mémoire unifiée de 128 Go s'avère particulièrement avantageuse, conservant simultanément en mémoire plusieurs modèles de points de contrôle, adaptateurs LoRA et décodeurs VAE, éliminant ainsi la surcharge de rechargement qui pénalise les systèmes limités en VRAM. Les utilisateurs peuvent générer localement un nombre illimité d'illustrations IA, sans les limites de débit des API, les coûts cloud par génération et les problèmes de confidentialité associés aux workflows créatifs propriétaires. Le modèle de persistance des workflows apporte une valeur opérationnelle : les pipelines complets sont sérialisés en fichiers JSON pouvant être contrôlés par version, partagés entre les équipes ou intégrés directement aux images générées sous forme de métadonnées, ce qui permet une reproductibilité essentielle pour les organisations qui créent des pipelines de jeux de données synthétiques ou maintiennent des styles artistiques cohérents entre les ressources générées.
Tests de performances NVIDIA DGX Spark
Service en ligne vLLM – Test d'inférence LLM
vLLM est le moteur d'inférence et de service haut débit le plus populaire pour les LLM. Le benchmark de service en ligne vLLM est un outil d'évaluation des performances conçu pour mesurer les capacités de service réelles de ce moteur d'inférence lors du traitement de requêtes simultanées. Il simule des charges de travail de production en envoyant des requêtes à un serveur vLLM en fonctionnement avec des paramètres configurables, tels que le débit de requêtes, la longueur des entrées/sorties et le nombre de clients simultanés. Le benchmark mesure des indicateurs clés, notamment le débit (nombre de jetons par seconde), le temps d'obtention du premier jeton et le temps par jeton de sortie, permettant ainsi aux utilisateurs de comprendre les performances de vLLM sous différentes conditions de charge.
Nous avons testé les performances d’inférence sur une suite complète de modèles représentant les architectures et les types de modèles les plus populaires dans les déploiements de production actuels.
Mélange de modèles d'experts
Nous avons évalué le codeur Qwen3 30B-A3B, l'un des modèles de codage les plus populaires pour les déploiements d'inférence locale. Cette architecture parcimonieuse conserve une taille de modèle complète de 30 B paramètres avec une précision BF16, tout en n'activant que 3 B paramètres par jeton généré. Nous avons comparé le modèle standard et une variante quantifiée FP8 de Qwen. Le modèle quantifié FP8 affiche des gains de performances substantiels : il atteint 46.5 tok/s à la concurrence 1, puis atteint un impressionnant 482.6 tok/s avec une taille de lot de 64. Le modèle standard BF16 atteint 27.8 tok/s à la concurrence 1, puis 166.2 tok/s avec une taille de lot de 64, soit un différentiel de performances presque triplé.
Modèles denses
Les modèles denses représentent l'architecture LLM conventionnelle, où tous les paramètres et activations sont activés lors de l'inférence, ce qui entraîne un traitement plus intensif en calculs que leurs homologues clairsemés. Afin d'évaluer de manière exhaustive les performances à différentes échelles de modèle et stratégies de quantification, nous avons comparé cinq configurations de modèles denses.
Notre suite de tests comprenait le Mistral Small 3.1 24B de Mistral AI avec une précision BF16, ainsi qu'une variante quantifiée dynamiquement du Mistral Small 3.1 24B FP8 de RedHat AI. La quantification dynamique utilise des techniques de pondération sélective pour optimiser le compromis performances-précision, réduisant ainsi stratégiquement la précision tout en minimisant la dégradation du modèle. Nous avons complété ces modèles denses et plus volumineux par des évaluations Meta Llama 3.1 8B sur trois formats de précision : la configuration BF16 standard, ainsi que les versions quantifiées FP8 et FP4 de NVIDIA. Cette stratégie de sélection de modèles permet une comparaison directe des performances entre les différentes échelles de modèles tout en isolant l'impact de la quantification progressive sur le débit d'inférence.
Analyse des performances : grands modèles denses
Le Mistral Small 3.1 24B, avec une précision BF16, affiche un débit de base de 5.3 tok/s à une concurrence de 1, pouvant atteindre 158.9 tok/s à 128 requêtes simultanées. La variante FP8 à quantification dynamique affiche des gains modestes à une concurrence plus faible (8.8 tok/s), mais offre un multiplicateur de performance de 2x convaincant à grande échelle, atteignant 319.7 tok/s à 128 requêtes simultanées, soulignant l'efficacité de la quantification dynamique pour les scénarios de service à haut débit.
Analyse des performances : modèles compacts et denses
L'architecture Llama 3.1 8B présente des performances très différentes selon les stratégies de quantification. Avec une précision BF16, le modèle atteint 13.6 tok/s en simultanéité 1, puis 408.6 tok/s avec 128 requêtes simultanées. La transition vers la quantification FP8 produit respectivement 23.2 tok/s et 752.8 tok/s aux niveaux de simultanéité 1 et 128, soit une amélioration du débit de 84 % à grande échelle. La configuration FP4 optimise encore les performances, atteignant 34.1 tok/s et 924.1 tok/s aux mêmes niveaux de simultanéité, démontrant ainsi que des stratégies de quantification agressives peuvent multiplier par 2.3 la précision de base, tout en maintenant une qualité de modèle acceptable pour de nombreuses charges de travail de production.
Type de données de microscaling
La microscaling représente une approche de quantification avancée qui applique des facteurs d'échelle précis à de petits blocs de pondérations plutôt qu'une quantification uniforme sur de grands groupes de paramètres. Le format NVFP4 de NVIDIA implémente cette technique grâce à une représentation en virgule flottante bloquée où chaque bloc de microscaling de 8 à 32 valeurs partage un exposant commun comme facteur d'échelle. Cette approche granulaire préserve la précision numérique tout en obtenant une représentation 4 bits, préservant ainsi la plage dynamique essentielle aux architectures de transformateurs. Ce format s'intègre à l'architecture Tensor Core de NVIDIA, permettant un calcul efficace en précision mixte avec décompression à la volée lors des opérations matricielles.
Nous avons évalué les modèles OSS GPT d'OpenAI à des échelles de paramètres de 20 et 120 milliards de bits grâce à la quantification NVFP4. Le modèle à 20 milliards de bits atteint 39.7 tok/s à la concurrence 1, puis 611.7 tok/s à 128 requêtes simultanées. La variante à 120 milliards de bits atteint 31.4 tok/s à la concurrence 1 et 162.7 tok/s à 64 requêtes simultanées.
À noter: Le débit de sortie est le débit entre les requêtes et non le débit par requête.
En raison du temps limité, nous n'avons pas pu terminer nos tests TensorRT, gardez un œil sur les articles de suivi avec Spark où nous explorerons les performances sur davantage de frameworks d'inférence.
Préremplir et décoder les inférences lourdes
L'inférence LLM peut être fondamentalement décomposée en deux phases de calcul distinctes, chacune présentant des caractéristiques de performance et des schémas d'utilisation des ressources sensiblement différents. La phase de préremplissage traite l'intégralité de l'invite d'entrée en une seule opération parallèle, calculant simultanément les mécanismes d'attention sur tous les jetons d'entrée ; une opération gourmande en ressources qui sature entièrement les cœurs de tenseurs et les unités de calcul. À l'inverse, la phase de décodage génère des jetons de sortie de manière autorégressive, produisant un jeton à la fois par le biais d'opérations séquentielles moins gourmandes en ressources, mais sollicitant fortement la bande passante mémoire, car le modèle doit accéder de manière répétée aux pondérations et au cache clé-valeur croissant. Cela crée des profils de goulots d'étranglement fondamentalement différents : les opérations de préremplissage sont généralement limitées en ressources de calcul, tandis que les opérations de décodage consomment beaucoup de bande passante mémoire, ce qui les rend particulièrement sensibles aux contraintes des sous-systèmes mémoire.
Nous avons réalisé des tests complets sur deux profils de charge de travail distincts : une inférence intensive en décodage avec 512 jetons d'entrée et 8 192 jetons de sortie, et une inférence intensive en pré-remplissage avec 8 192 jetons d'entrée et 512 jetons de sortie. La caractérisation des performances révèle les compromis architecturaux attendus : Spark affiche un débit compétitif sur les charges de travail intensives en pré-remplissage, où les ressources de calcul restent le principal goulot d'étranglement, mais affiche des performances réduites sur les scénarios intensifs en décodage. Cet écart de performances correspond précisément aux contraintes de bande passante mémoire. La nature séquentielle des opérations de décodage et les schémas d'accès mémoire intensifs révèlent directement les limitations de bande passante inhérentes à l'architecture de Spark. Ces résultats fournissent un contexte essentiel pour l'interprétation des mesures MAMF dans la section suivante, car les deux suites de tests identifient systématiquement la bande passante mémoire comme le facteur limitant fondamental des performances dans les déploiements d'inférence en conditions réelles.
FLOPS Matmul maximum atteignables (MAMF)
MAMF (Maximum Achievable Matmul FLOPS) est une mesure de performance pratique conçue pour mesurer le nombre maximal d'opérations en virgule flottante par seconde réalisables sur les accélérateurs d'apprentissage automatique lors des opérations de multiplication matricielle. Elle offre une référence plus précise que le nombre maximal théorique de FLOPS souvent annoncé dans les spécifications matérielles. Nous utilisons Test de référence mamf-finder par Stas Beckman.
À la précision BF16, nous observons une MAMF de 99.8 TFLOP, tandis que FP8 (E4M3) affiche une MAMF de 207.7 TFLOP. Faute de temps, nous n'avons pas pu réaliser une caractérisation complète de la MAMF FP4 ; cependant, en extrapolant à partir des schémas de mise à l'échelle basés sur la précision observés, nous anticipons un gain de performance supplémentaire de 2 x par rapport à FP8, soit environ 400 TFLOP pour les opérations FP4 denses. En prenant en compte l'optimisation de parcimonie structurée 2:1, cela se traduit par environ 80 % des performances théoriques de FP4, atteignant environ 800 TFLOP sous des charges de calcul peu denses. Il est important de noter que ces mesures de MAMF peuvent être inférieures aux spécifications théoriques annoncées pour de nombreuses raisons que nous n'aborderons pas dans cette analyse.
Stockage direct du GPU
L'un des tests que nous avons menés sur le Spark était le test MagnumIO GPU Direct Storage (GDS). GDS est une fonctionnalité développée par NVIDIA qui permet aux GPU de contourner le CPU lors de l'accès aux données stockées sur des disques NVMe ou d'autres périphériques de stockage haute vitesse. Au lieu de faire transiter les données par le CPU et la mémoire système, GDS permet une communication directe entre le GPU et le périphérique de stockage, réduisant ainsi considérablement la latence et améliorant le débit.
Comment fonctionne le stockage direct GPU
Traditionnellement, lorsqu'un GPU traite des données stockées sur un disque NVMe, les données doivent d'abord transiter par le processeur et la mémoire système avant d'atteindre le GPU. Ce processus introduit des goulots d'étranglement, car le processeur devient un intermédiaire, ce qui ajoute de la latence et consomme de précieuses ressources système. Le stockage direct GPU élimine cette inefficacité en permettant au GPU d'accéder directement aux données depuis le périphérique de stockage via le bus PCIe. Ce chemin direct réduit la surcharge associée au déplacement des données, permettant des transferts de données plus rapides et plus efficaces.
Les charges de travail de l’IA, en particulier celles impliquant l’apprentissage profond, sont très gourmandes en données. La formation de grands réseaux neuronaux nécessite le traitement de téraoctets de données, et tout retard dans le transfert de données peut entraîner une sous-utilisation des GPU et des temps de formation plus longs. Le stockage direct GPU relève ce défi en garantissant que les données sont transmises au GPU le plus rapidement possible, en minimisant les temps d’inactivité et en maximisant l’efficacité de calcul.
En outre, GDS est particulièrement utile pour les charges de travail impliquant la diffusion de grands ensembles de données, comme le traitement vidéo, le traitement du langage naturel ou l'inférence en temps réel. En réduisant la dépendance au processeur, GDS accélère le déplacement des données et libère les ressources du processeur pour d'autres tâches, améliorant ainsi encore les performances globales du système.
GDSIO – M.2 interne 4 To
Le NVIDIA DGX Spark offre un choix intéressant en termes de stockage. Pour des raisons d'encombrement dans un boîtier compact, NVIDIA a opté pour le SSD M.2 Gen5 2242, moins courant. Pour les lecteurs qui ne connaissent pas ce type de SSD, il s'agit d'une version plus courte de 42 mm, contre 80 mm, plus courante sur les ordinateurs de bureau. Le choix de disques est plus restreint, 4 To étant la capacité maximale dans ce format. Le principal problème, cependant, réside dans les performances. Les petits SSD, comme les modèles 2242 et 2230, privilégient l'encombrement, la vitesse venant au second plan. On les retrouve couramment dans les consoles de jeux portables, les tablettes et certains ordinateurs portables.
L'espace disponible sur les circuits imprimés des SSD 2230 et 2242 est limité, ce qui réduit l'espace disponible pour les contrôleurs, la DRAM et les boîtiers NAND. Nous avons constaté certains de ces compromis lors de nos tests. Lors de l'application de notre charge de travail GDSIO sur une empreinte de 1 To ou 128 Go, le SSD se bloquait et nécessitait de réinstaller l'image du Spark. La réduction de l'empreinte de test à 64 Go et du nombre de threads plus élevé a permis de contourner ce problème. Ces problèmes ne se produisent généralement pas sur les SSD 80 mm hautes performances plus courants.
En examinant les performances de lecture séquentielle du lecteur interne, nous constatons le débit le plus élevé à une taille de bloc de 1 Mo avec 16 threads, atteignant 11.4 Gio/s.
En ce qui concerne les performances d'écriture séquentielle, le disque atteint son débit maximal avec des blocs de 32 Ko et 128 threads. Avec des blocs plus importants, les performances semblent stagner, atteignant en moyenne 8.3 Gio/s.
Pour les acheteurs souhaitant acquérir le NVIDIA DGX Spark pour des travaux de développement plus lourds, en particulier les entreprises susceptibles d'en faire de petits clusters, nous recommandons vivement d'utiliser la carte réseau NVIDIA ConnectX-7 200 Go intégrée.
GDSIO – NVMe-oF sur RDMA
Pour les tests NVMe-oF RDMA avec le NVIDIA DGX Spark, nous avons utilisé le logiciel PEAK:AIO pour créer une cible NVMe-oF sur un Dell PowerEdge R770 équipé de six SSD Micron 9550 de 3.84 To et connecté via RDMA. Comme indiqué précédemment, la carte réseau CX7 du Spark présente des caractéristiques particulières et, faute de temps, nous n'avons pu tester le Spark qu'avec une connectivité 100G. Le Spark et PEAK:AIO atteignent des valeurs nettement supérieures. Nous effectuerons des tests supplémentaires de stockage et de réseau avec le Spark dans les prochains articles.
En examinant les performances de lecture séquentielle du lecteur interne, nous constatons le débit le plus élevé à une taille de bloc de 128 Ko avec 32 threads, atteignant 12.1 Gio/s.
En ce qui concerne les performances d'écriture séquentielle, le disque atteint son débit maximal avec des blocs de 128 Ko et 16 threads. Avec des blocs plus importants, les performances semblent stagner, atteignant en moyenne 11.3 Gio/s.
Ces résultats sont très nuancés : nous n'observons que la moitié du maximum théorique pour des raisons de temps et de réseau mentionnées précédemment. De plus, le débit maximal, avec une taille de bloc de 128 kbits, est influencé par plusieurs facteurs, tels que les disques d'entreprise utilisés ou la gestion de ces E/S par PEAK:AIO. Votre consommation peut varier et nous prévoyons d'approfondir les tests avec Spark à l'avenir.
Écosystème logiciel Day-One
NVIDIA et d'autres fournisseurs ont investi massivement dans la préparation des logiciels, ce qui contraste fortement avec les lancements de matériel classiques, où les premiers utilisateurs se heurtent à une documentation incomplète et à des outils manquants. Spark est lancé avec des manuels complets couvrant les workflows courants : ComfyUI pour les modèles de diffusion, TRT-LLM pour l'inférence optimisée, Ollama avec Open WebUI pour la diffusion de modèles locaux, Unsloth pour le réglage fin et les architectures multi-agents avec LangGraph.
Cette maturité logicielle transforme l'expérience d'évaluation. Plutôt que de passer des jours à configurer des environnements, les développeurs peuvent immédiatement évaluer si Spark répond à leurs exigences en exécutant des charges de travail représentatives. playbooks fournir non seulement des instructions, mais également des environnements conteneurisés, des exemples d'ensembles de données et des mesures de performances attendues.
Disponibilité et systèmes OEM
L'Édition Founders de NVIDIA est disponible à la commande au prix de 3 999 $ pour la configuration 4 To, et sa disponibilité générale débute le 15 octobre. Outre la version NVIDIA, plusieurs ordinateurs de bureau équipés de la technologie GB10 seront commercialisés par les principaux constructeurs. Le matériel de base sera assez similaire chez tous les constructeurs, mais il pourrait y avoir une certaine marge de manœuvre pour se différencier, même si la majeure partie des variations de prix proviendra probablement du choix de stockage. De nombreuses annonces ont déjà été faites, notamment le Dell Pro Max équipé de la technologie GB10, la Lenovo ThinkStation PGX, l'Acer Veriton GN100 et l'ASUS Ascent GX10.
Source : Nvidia
Conclusion
La NVIDIA DGX Spark représente un tournant fondamental dans le paradigme de l'accessibilité des infrastructures informatiques d'IA avancées. En consolidant les capacités de la superpuce GB10 Grace Blackwell : 128 Go de mémoire unifiée, des performances FP4 éparses de 1 pétaflop, des cœurs RT de quatrième génération et une connectivité réseau ConnectX-7 dans un appareil de 240 W et 1.13 litre vendu 3 999 $, NVIDIA a fait tomber les barrières qui séparaient historiquement les capacités d'IA de niveau centre de données des chercheurs individuels et des petites équipes de développement.
L'approche par appliance validée résout un point de friction persistant dans le déploiement d'infrastructures d'IA : la charge opérationnelle liée à la maintenance des configurations personnalisées. Les organisations déployant des unités Spark bénéficient des tests et de la validation complets de NVIDIA sur l'ensemble de la pile, incluant le système d'exploitation DGX, la boîte à outils CUDA, les conteneurs d'infrastructure et le micrologiciel matériel, éliminant ainsi la charge de configuration qui freine la création de postes de travail personnalisés. La gestion intégrée des mises à jour, la surveillance du système et le provisionnement JupyterLab du tableau de bord DGX réduisent encore davantage la charge opérationnelle, tandis que la distribution automatique des clés SSH et la gestion des tunnels de NVIDIA Sync simplifient considérablement l'accès à distance. Pour les organisations en pleine expansion, cela se traduit par une intégration nettement plus rapide : les nouveaux chercheurs reçoivent du matériel standardisé, se connectent à l'infrastructure existante via la configuration de clustering à deux nœuds validée et commencent à travailler de manière productive en quelques heures, au lieu de plusieurs jours de résolution de conflits de pilotes ou de configuration de la structure réseau.
DGX Spark offre déjà une véritable puissance d'IA dans une appliance compacte et silencieuse, et nos premiers résultats montrent son importance pour les équipes qui recherchent des capacités importantes sans surcharger leur datacenter. Ce n'est que le début. Nous prévoyons d'étendre nos tests à la structure 200G, aux cibles NVMe-oF et au clustering multi-nœuds afin d'explorer l'efficacité de la mise à l'échelle, les empreintes de modèles plus importantes et les architectures de stockage partagé. À mesure que l'écosystème logiciel et partenaire gagnera en maturité, nous prévoyons que les déploiements Spark évolueront, passant de puissantes configurations mono-nœud à des mini-clusters haut débit étroitement intégrés, qui optimiseront encore davantage cette plateforme.





Amazon