StorageReview.com

Aperçu de la carte mère Intel Arc Pro B60 Battlematrix : 192 Go de VRAM pour l’IA sur site

Consommateur  ◇  Poste de travail

Le projet Battlematrix d'Intel constitue une solution attrayante pour une infrastructure d'IA accessible, offrant une capacité de mémoire GPU considérable aux châssis de stations de travail grâce à une architecture multi-GPU. Basée sur le GPU professionnel Battlemage Arc Pro B60 (nom de code : Battlemage), cette plateforme cible les organisations souhaitant déployer localement des modèles de langage complexes sans frais d'abonnement au cloud ni problèmes de confidentialité des données. Avec jusqu'à 192 Go de VRAM répartis sur huit GPU dans un seul système, Battlematrix se positionne comme une alternative relativement économique aux autres écosystèmes GPU professionnels pour les charges de travail d'inférence IA.

Ce qui distingue Battlematrix des configurations de stations de travail traditionnelles, c'est la conception à double GPU d'Intel, qui intègre deux GPU B60 complets sur un seul circuit imprimé nécessitant la prise en charge de la bifurcation PCIe. Cette approche optimisée en termes de densité permet des configurations qui exigeraient autrement des cartes mères de serveur, tandis que les 24 Go de GDDR6 par GPU de l'Arc Pro B60 la rendent particulièrement adaptée aux modèles de transformateurs gourmands en mémoire. Les premiers tests révèlent un potentiel prometteur, bien que l'optimisation logicielle reste en deçà des capacités matérielles.

Divulgation

Les tests ont été réalisés avec des versions préliminaires des logiciels et des pilotes, notamment des branches de développement d'Intel LLM Scaler. De plus, notre plateforme de test utilise des processeurs AMD EPYC plutôt que la plateforme Intel Xeon. Intel présente Battlematrix comme une solution 100 % Intel avec des processeurs Xeon 6, et les systèmes de production équipés de processeurs Intel pourraient afficher des performances supérieures à celles que nos résultats suggèrent. Ces résultats sont à considérer comme préliminaires, étant entendu que la maturité logicielle et l'optimisation de la plateforme devraient s'améliorer tout au long de l'année 2026. 

Spécifications et architecture

Spécifications Détails
Collection de produits Carte graphique Intel® Arc™ Pro série B
Nom du code Battlemage
Architecture GPU Xe2 (TSMC N5)
xe-couleurs 20
Tranches de rendu 5
Unités de lancer de rayons 20
Moteurs XMX 160
Moteurs vectoriels Xe 160
Horloge graphique 2400 MHz
Horloge graphique (mode LP) 2000 MHz
Performances GPU FP32 12.28 TFLOPS
GPU Peak TOPS (INT8) 197
Puissance totale de la carte (TBP) 200 W
Mémoire 24 GB GDDR6
Interface de mémoire 192-bits
Bande passante mémoire 456 GB / s
Vitesse de Mémoire 19 Gbps
Interface PCIe PCIe 5.0 x8
Affichages pris en charge 4
Sortie graphique HDMI 2.1 | DP2.1 (UHBR 13.5) | DP2.1 (UHBR10)
Résolution maximale (HDMI) 7680 x 4320 @ 120Hz
Résolution maximale (DP) 7680 x 4320 @ 60Hz
Fréquence de rafraîchissement variable HDMI Oui
Synchronisation adaptative VESA Oui
Encodage/Décodage H.264 / H.265 / AV1 Oui
Prise en charge du lancer de rayons Oui
Prise en charge d'une API Oui
Assistance OpenVINO Oui
Prise en charge Intel IPEX Oui
Prise en charge d'Intel XeSS Oui


Le Intel Arc Pro B60 partage sa base en silicium avec le secteur axé sur les jeux Intel Arc B580Les deux modèles utilisent la même puce gravée en 5 nm par TSMC. Cette puce de 272 mm² contient 19.6 milliards de transistors et intègre 20 cœurs Xe2, offrant une puissance de calcul de 12.28 TFLOPS en FP32 et de 197 TOPS en IA INT8 par GPU. La principale différence réside dans la configuration mémoire : le B580 est équipé de 12 Go de GDDR6, tandis que le B60 double sa capacité à 24 Go.

Chaque GPU B60 fonctionne à 2 400 MHz sur une interface mémoire 192 bits, offrant une bande passante de 456 Go/s par GPU. L’architecture intègre 160 moteurs d’IA XMX (Xe Matrix Extensions) par GPU, spécialement conçus pour accélérer les opérations matricielles dans l’inférence IA.

Conception à double GPU et bifurcation PCIe

Le Maxsun Arc Pro B60 Dual 48G Turbo Ce modèle illustre la stratégie de densité d'Intel : deux GPU complets montés sur une seule carte double emplacement, connectés indépendamment via des interfaces PCIe 5.0 x8. Contrairement aux architectures bi-GPU classiques qui utilisent des puces jumelées pour fonctionner comme un seul GPU, chaque GPU B60 est reconnu comme un périphérique distinct par le système, nécessitant une carte mère compatible avec la bifurcation PCIe x8/x8. Un emplacement x16 unique est divisé électriquement en deux connexions x8, chaque GPU bénéficiant d'une bande passante dédiée.

L'interface PCIe 5.0 x8 offre une bande passante bidirectionnelle de 128 Go/s par GPU, équivalente à celle de la PCIe 4.0 x16. La configuration à deux cartes mesure 300 mm de long, occupe deux emplacements avec un refroidissement de type turbine et consomme… 400W Alimentation totale de la carte via un seul connecteur 12V-2×6 d'une puissance nominale de 600W.

Chaque carte double offre quatre sorties vidéo : deux ports DisplayPort 2.1 UHBR20 et deux ports HDMI 2.1a, un par GPU, permettant des configurations de sortie vidéo distinctes pour les environnements de bureau virtualisés ou les systèmes multi-utilisateurs. Il est important de noter que chaque GPU ne peut utiliser qu'une seule des deux sorties vidéo à la fois.

Configuration Battlematrix à huit GPU

La spécification de référence Battlematrix d'Intel prend en charge jusqu'à huit GPU Arc Pro B60 dans un châssis de station de travail, grâce à l'utilisation de quatre cartes double GPU. Cette configuration offre :

  • 192 Go de mémoire vidéo système totale (8 × 24 Go)
  • 1 280 moteurs d'IA XMX
  • 1,576 HAUTS INT8 calcul agrégé
  • 3.6 To / s bande passante mémoire combinée

La plateforme nécessite des cartes mères dotées de quatre emplacements PCIe 5.0 x16 prenant en charge la bifurcation, et la spécification Battlematrix inclura également un processeur Xeon 6 ; cependant, d’autres informations concernant la configuration Battlematrix ne sont actuellement pas disponibles.

Cas d'utilisation et proposition de valeur

Public cible

Le projet Battlematrix d'Intel cible trois segments de marché : les équipes de développement d'IA nécessitant une infrastructure sur site, les entreprises d'ingénierie logicielle mettant en œuvre des flux de travail assistés par l'IA avec des bases de code sensibles, et les organisations recherchant des alternatives économiques aux services d'inférence dans le cloud. La proposition de valeur principale de la plateforme repose sur la souveraineté des données et un coût total de possession inférieur aux avantages des abonnements cloud pluriannuels.

Développement privé d'IA et d'agents

Le principal atout de la plateforme Battlematrix réside dans sa capacité à prendre en charge les flux de travail de développement pour les grands modèles de langage qui nécessitent des fenêtres de contexte étendues et un nombre important de paramètres.

Les équipes de développement qui conçoivent des systèmes agentiques tirent particulièrement profit de la marge de mémoire disponible. Les implémentations d'agents RAG gèrent généralement plusieurs composants simultanément dans la mémoire GPU : le modèle de langage de base, les modèles d'embeddings pour la recherche vectorielle et les modèles de réordonnancement. De plus, les flux de travail agentiques effectuent un raisonnement en plusieurs étapes, l'utilisation d'outils et l'auto-correction, générant ainsi d'importantes fenêtres de contexte par itération. Un agent de codage analysant une base de code volumineuse peut accumuler plus de 100 000 jetons au cours de son cycle de vie opérationnel.

L'avenir des VDI et des jeux virtualisés

La feuille de route d'Intel prévoit l'activation de la prise en charge de SR-IOV (Single Root I/O Virtualization) sur les GPU Arc Pro B60, transformant ainsi le matériel en une plateforme graphique multi-utilisateurs. SR-IOV permet de subdiviser un GPU physique en plusieurs GPU virtuels, chacun pouvant être affecté à une machine virtuelle distincte avec un accès matériel direct et des espaces mémoire isolés.

Cette fonctionnalité permet de déployer une infrastructure de bureau virtuel (VDI) sans licence, où un seul système Battlematrix à huit GPU prend en charge des dizaines d'utilisateurs simultanés grâce à une accélération GPU dédiée pour les applications de CAO, le montage vidéo ou les jeux vidéo exigeants. Les solutions VDI traditionnelles impliquent des frais de licence élevés en plus du coût du matériel, ce qui nécessite souvent des GPU professionnels ou pour centres de données plus onéreux. L'engagement d'Intel en faveur de la virtualisation sans licence élimine ces frais d'exploitation.

Proposition de prix et de valeur

Intel a annoncé que l'Arc Pro B60 sera proposé à environ 600 $ par GPU. Pour les phases initiales de test et de développement, les configurations à une ou deux cartes (de 600 $ à 1 200 $) constituent des solutions d'entrée de gamme accessibles. Une carte bi-GPU avec 48 Go de VRAM offre une capacité suffisante pour les modèles quantifiés et couvre une part importante des applications LLM open source les plus courantes.

La configuration Maxsun Dual Arc Pro B60 Dual 48G Turbo que nous avons testée coûte 1 200 $ directement chez Maxsun, conformément à l'annonce initiale d'Intel. Cependant, les récentes fluctuations des prix de la mémoire pourraient modifier ce prix.

Un rapport qualité-prix exceptionnel dès l'entrée de gamme

Les configurations à une ou deux cartes graphiques offrent des avantages économiques considérables pour les petites équipes, les développeurs indépendants et les amateurs de prototypage à domicile. À 600 $ pour 24 Go de mémoire GPU et à 1 200 $ pour 48 Go, cette plateforme est nettement plus abordable que les GPU professionnels, qui coûtent généralement au moins deux fois plus cher.

Cette proposition de valeur trouve un écho particulier auprès des organisations qui explorent l'intégration de l'IA sans engager de budgets d'entreprise.

Performances de référence du service en ligne vLLM

vLLM est le moteur d'inférence et de diffusion à haut débit le plus populaire pour les LLM. Le benchmark de diffusion en ligne vLLM est un outil d'évaluation des performances qui mesure les performances de diffusion en conditions réelles, sous des requêtes simultanées. Il simule les charges de travail de production en envoyant des requêtes à un serveur vLLM en cours d'exécution, avec des paramètres configurables tels que le débit de requêtes, la longueur des entrées/sorties et le nombre de clients simultanés. Ce benchmark mesure des indicateurs clés, notamment le débit (jetons par seconde), le temps d'obtention du premier jeton (TTFT) et le temps d'exécution par jeton de sortie (TPOT), permettant ainsi aux utilisateurs de comprendre les performances de vLLM sous différentes conditions de charge.

Plateforme de test :

Support et limitations de la quantification

Ces GPU devraient exceller dans l'inférence à faible précision, en ciblant la quantification INT4 pour des performances optimales. Cependant, en raison de la version de développement très préliminaire du LLM Scaler d'Intel que nous testions, seuls les modèles GPT OSS initialement entraînés avec le format de micro-échelle MXFP4 fonctionnaient correctement. Les autres formats de quantification, notamment INT4, FP8 et AWQ, n'ont pas pu démarrer. Cette limitation a considérablement restreint notre capacité à tester ces GPU de manière approfondie, même si nous prévoyons une prise en charge plus large de la quantification à mesure que la pile logicielle évoluera.

Nous avons testé la plupart des modèles avec deux configurations : la configuration complète Battlematrix à huit GPU et le nombre minimal de GPU nécessaires pour que le modèle tienne en mémoire. Cette comparaison révèle des caractéristiques de mise à l’échelle intéressantes, notamment en ce qui concerne la surcharge de communication pour les petits lots.

Types de données à micro-échelle

La micro-échelle représente une approche de quantification avancée qui applique des facteurs d'échelle précis à de petits blocs de poids plutôt qu'une quantification uniforme à de grands groupes de paramètres. Le format MXFP4 implémente cette technique à l'aide d'une représentation en virgule flottante par blocs, où chaque bloc de micro-échelle partage un exposant commun comme facteur d'échelle, préservant ainsi la précision numérique tout en atteignant une précision de 4 bits. Un avantage clé du type de données MXFP4 est que la quantification des modèles en INT4 ne dégrade pas significativement la qualité de la réponse, contrairement à la quantification à partir de formats de plus haute précision comme BF16. Les modèles GPT OSS sont exécutés avec une quantification INT4 sur les B60 car ces derniers ne prennent pas en charge nativement le format MXFP4.

OpenAI GPT-OSS 20B

Le modèle à 20 milliards de paramètres met clairement en évidence le phénomène de surcharge de communication. Avec une taille de lot de 1, un seul GPU offre un débit de 49.22 tok/s par utilisateur, contre seulement 22.83 tok/s lorsqu'il est réparti sur les huit GPU. La configuration à GPU unique est donc plus de deux fois plus performante. Cependant, la configuration à huit GPU excelle en cas de forte concurrence, atteignant un débit total de 511.99 tok/s avec une taille de lot de 16.

La configuration GPU minimale atteint en réalité un débit total plus élevé pour une taille de lot de 16 : 626.84 tok/s avec TP=4 contre 511.99 tok/s avec TP=8. Ce résultat contre-intuitif souligne que pour les modèles et les longueurs de contexte qui tiennent aisément sur un nombre réduit de GPU, l’ajout de matériel supplémentaire introduit une surcharge de communication sans gains de performance proportionnels.

OpenAI GPT-OSS 120B

Le modèle 120B, plus grand, nécessite au moins 4 GPU, ce qui rend impossible la comparaison avec un seul GPU. Les performances des configurations à quatre et huit GPU convergent davantage, avec un débit par utilisateur quasiment identique pour une taille de lot de 1 (16.28 tok/s dans les deux cas). La configuration à huit GPU offre des gains modestes pour des tailles de lot plus importantes grâce au parallélisme des données.

Équipe d'experts : Qwen3 Codeur 30B-A3B

Les architectures MoE éparses conservent un grand nombre de paramètres tout en n'activant qu'un sous-ensemble lors de l'inférence. Qwen3 Coder 30B-A3B active environ 3 milliards de paramètres par jeton sur son pool complet de 30 milliards, ce qui explique sa popularité pour les déploiements locaux d'assistants de codage.


Lors de tests effectués avec une précision BF16, la configuration à quatre GPU démontre à nouveau ses avantages pour les petits lots. Le débit par utilisateur atteint 15.34 tok/s avec TP=4, contre 14.15 tok/s avec TP=8, pour une taille de lot de 1.

Modèles denses

Les modèles denses suivent l'architecture LLM conventionnelle, où tous les paramètres et activations sont utilisés lors de l'inférence, ce qui entraîne un traitement plus intensif en ressources de calcul que leurs homologues épars. Sans quantification INT4 fonctionnelle pendant notre période de test, ces modèles ont fonctionné à une précision BF16.

Lama 3.1 8B Instruire

Le modèle compact 8B tient aisément sur un seul GPU, mais a été testé sur différentes configurations afin de caractériser son comportement en termes de montée en charge. Les résultats confirment la tendance : quatre GPU offrent un débit total de 240.48 tok/s pour une taille de lot de 8, contre 227.90 tok/s avec huit GPU pour la même taille de lot. Le débit par utilisateur pour une taille de lot de 1 reste quasiment identique (22.37 tok/s contre 22.83 tok/s).

Instructions pour Mistral Small 3.1 24B

Le modèle Mistral à 24 milliards de paramètres représente une charge de travail plus exigeante. À une précision BF16, ce modèle affiche une forte augmentation du débit pour des tailles de lots plus importantes, atteignant 574.16 tok/s pour une taille de lot de 256 sur l'ensemble des huit GPU.


Résultats

Un schéma cohérent se dégage de tous les modèles testés : Avec notre configuration de jetons d'entrée/sortie à 256 entrées/sorties et des tailles de lots faibles, l'utilisation du nombre minimal de GPU requis pour ajuster le modèle offre de meilleures performances par utilisateur que la distribution sur les huit GPU.. La surcharge de communication inter-GPU via PCIe, même à des vitesses PCIe 5.0, introduit une latence qui dépasse les avantages de la parallélisation pour les scénarios mono-utilisateur ou à faible concurrence.

Cette découverte a des implications pratiques pour la planification des déploiements. Les organisations utilisant des assistants de programmation monoposte ou des flux de travail d'agents à faible concurrence peuvent se contenter de configurations GPU plus modestes tout en obtenant des performances acceptables. La configuration complète Battlematrix à huit GPU est particulièrement avantageuse pour les charges de travail d'inférence par lots, la génération de données synthétiques ou les scénarios de service à haute concurrence où le débit total prime sur la latence par requête, notamment lors de l'utilisation de modèles plus volumineux nécessitant davantage de mémoire.

Expérience avec les Arc Pro B60

Lors des tests limités que nous avons effectués, l'expérience s'est avérée remarquablement simple. La mise en service des cartes a été aisée, et la configuration de LLM-Scaler, la branche de développement de vLLM compatible avec Battlemage, s'est révélée tout aussi simple. Cependant, le logiciel est encore en développement préliminaire. Au début de nos tests, nous n'avons pas pu récupérer de statistiques GPU, et outre le parallélisme tensoriel, nous n'avons pas réussi à faire fonctionner d'autres stratégies de parallélisme, telles que le parallélisme expert ou le parallélisme pipeline, pour la mise à l'échelle sur plusieurs systèmes. Cela dit, nous nous attendions à ces limitations, étant donné l'état de pré-production de la pile logicielle.

Le refroidissement a suscité de nombreux débats suite à notre court métrage initial sur YouTubeDe nombreux commentateurs ont exprimé leur inquiétude quant à une possible surchauffe des cartes sur notre banc d'essai ouvert. Faute de système de surveillance thermique, nous avons finalement installé les cartes dans un châssis serveur afin de garantir une ventilation adéquate. Nous prévoyons de tester les performances de refroidissement en configuration station de travail pour notre test complet, car la configuration finale de la Battlematrix, telle qu'illustrée dans les rendus marketing d'Intel ci-dessus, place ces cartes dans un châssis de station de travail, empilées les unes sur les autres. 

En termes de format, ces cartes sont légèrement plus longues que les GPU standard pour stations de travail, ce qui peut poser des problèmes de compatibilité avec les boîtiers. Cependant, elles s'intègrent sans problème dans les châssis de serveurs, la plupart des boîtiers offrant un espace supplémentaire à l'avant de la carte pour les supports.

Plans d'essais futurs

Nous prévoyons de réexaminer la plateforme Intel Battlematrix et de réaliser une analyse plus approfondie après la sortie officielle et la disponibilité générale des B60. Nous évaluerons les performances d'inférence LLM grâce à des tests vLLM supplémentaires sur un large éventail de modèles et de configurations de déploiement. Bien que cela ne soit pas présenté dans cet aperçu, nous avons constaté que ces GPU, dans leur état logiciel actuel, sont plus performants pour les opérations de préremplissage que pour les opérations de décodage. L'analyse complète explorera plus en détail les charges de travail d'inférence intensives en préremplissage et en décodage afin de caractériser ce comportement.

La communauté des passionnés de serveurs domestiques a manifesté son intérêt pour l'utilisation de ces GPU pour l'une des charges de travail les plus courantes : les serveurs multimédias. Nous prévoyons de les tester avec Plex et éventuellement Jellyfin avec les membres de notre communauté. Discord. Nous nous intéressons également aux charges de travail professionnelles, notamment SolidWorks et Autodesk pour les tests de performance CAO. Nous prévoyons aussi d'étudier SR-IOV avec Proxmox afin de déployer un serveur VDI multi-utilisateurs pour les membres de Discord, dans le but d'évaluer la densité de postes de travail simultanés et le jeu en nuage.

Conclusion

La carte mère Intel Arc Pro B60 Battlematrix est une plateforme innovante qui rend la mémoire GPU haute capacité accessible à un prix abordable pour les stations de travail. Son architecture à double GPU répond aux contraintes de densité, l'allocation de 24 Go par GPU est adaptée aux charges de travail d'inférence LLM, et sa structure tarifaire en fait une alternative intéressante aux écosystèmes GPU professionnels établis. Pour les organisations qui privilégient la souveraineté des données et la maîtrise des coûts aux performances de pointe, cette plateforme mérite toute votre attention.

La maturité logicielle demeure la principale contrainte. L'investissement d'Intel dans l'optimisation du framework via LLM Scaler et l'amélioration continue des pilotes témoigne de sa volonté de maintenir la gamme de GPU Arc comme un produit d'une grande valeur. 

On ignore encore la popularité que rencontrera la configuration Battlematrix à huit GPU par rapport aux performances exceptionnelles offertes par NVIDIA DGX SparkLe véritable enjeu réside peut-être dans les configurations à une ou deux cartes, où des prix d'entrée de 600 à 1 200 dollars réduisent considérablement les barrières à l'exploration des infrastructures d'IA privées.

Nous continuerons d'étendre nos tests à mesure que les mises à jour des pilotes seront disponibles et que les frameworks logiciels gagneront en maturité. Si vous souhaitez les tester vous-même, rejoignez notre équipe. Serveur Discord, où nous avons un serveur communautaire avec un accès B60 limité.

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS

Divyansh Jain

Ingénieur en apprentissage automatique, passionné de laboratoires personnels et de technologies, je travaille chez Storage Review sur l'IA et les tests de charges de travail émergentes afin de fournir des analyses de performance et des informations pratiques.