Accueil EntrepriseAI Évaluation de l'impact des canaux DRAM sur les performances d'inférence de l'IA

Évaluation de l'impact des canaux DRAM sur les performances d'inférence de l'IA

by Jordan Ranous

Pour valider les avantages de la DRAM dans les systèmes d'IA, nous avons effectué une série de tests en utilisant huit modules de mémoire Kingston KSM56R46BD4PMI-64HAI DDR5.

La DRAM système joue un rôle important dans l’IA, en particulier dans l’inférence CPU. À mesure que les applications d’IA deviennent de plus en plus complexes, la demande de solutions de mémoire plus rapides et plus efficaces devient de plus en plus critique. Nous voulions examiner l'importance de la DRAM système dans l'IA, en nous concentrant sur l'inférence CPU et le rôle vital de l'utilisation de plusieurs canaux de mémoire.

Kingston KSM56R46BD4PMI-64HAI DDR5

Kingston KSM56R46BD4PMI-64HAI DDR5

L’importance de la DRAM système dans l’IA

La DRAM système est la plaque tournante centrale des données dans les systèmes d’IA. Les données sont temporairement stockées pour un accès rapide par le processeur, permettant un traitement rapide des données.

Ceci est particulièrement crucial dans les applications d’IA, où le traitement rapide et efficace de grands ensembles de données n’est pas seulement un avantage mais une nécessité. Voici un aperçu plus approfondi du rôle multiforme de la DRAM système dans l’amélioration des capacités de l’IA :

  • Vitesse et efficacité : les algorithmes d'IA, en particulier en matière d'inférence, nécessitent une mémoire à haute vitesse pour traiter de grandes quantités de données. La DRAM système offre cette vitesse, réduisant ainsi la latence et augmentant les performances globales du système.
  • Capacité : les applications d’IA modernes nécessitent de grandes capacités de mémoire. La DRAM haute capacité garantit que des ensembles de données plus volumineux peuvent être traités en mémoire, évitant ainsi le processus plus lent de récupération des données à partir des périphériques de stockage.
  • Fiabilité : en IA, l'intégrité des données est primordiale. La DRAM système, grâce à ses capacités de correction d'erreurs, garantit que la corruption des données est minimisée, ce qui est essentiel dans les applications où la précision est essentielle.
  • Évolutivité : à mesure que les modèles d'IA deviennent de plus en plus complexes, la capacité à faire évoluer les ressources de mémoire devient extrêmement importante. La DRAM système offre l’évolutivité nécessaire pour répondre aux demandes croissantes des applications d’IA en évolution et à leurs besoins croissants en données.
  • Bande passante : la bande passante plus élevée de la DRAM système permet des taux de transfert de données plus rapides, permettant un accès plus rapide aux données. Ceci est particulièrement bénéfique pour la formation de réseaux neuronaux complexes et la gestion de tâches de traitement de données à grande échelle.

Inférence CPU et DRAM

En intelligence artificielle, l'inférence CPU (le processus d'utilisation d'un modèle entraîné pour faire des prédictions ou des décisions) et le rôle de la DRAM sont des composants essentiels qui influencent considérablement l'efficacité et la vitesse des applications d'IA. Cette phase est gourmande en mémoire en raison de la nécessité d'accéder et de traiter rapidement de grands ensembles de données. Cette technologie est particulièrement gourmande en mémoire système en raison de la nature complexe et de la taille des données impliquées.

La DRAM joue un rôle essentiel dans l’optimisation de l’inférence CPU pour les opérations d’IA grâce à plusieurs améliorations clés. Premièrement, il fournit la bande passante nécessaire pour atteindre un débit de données élevé, ce qui est essentiel pour un traitement rapide des données et une prise de décision en matière d'inférence CPU. Ce débit accru se traduit directement par des performances plus rapides dans les tâches complexes.

De plus, en stockant les données à proximité du processeur, la DRAM système réduit considérablement le temps d'accès aux données, minimisant ainsi la latence globale d'inférence. Cette proximité est cruciale pour maintenir un système rapide et réactif. Enfin, comme les données sont traitées rapidement et que les temps d'accès sont raccourcis, la puissance globale requise pour les tâches d'inférence du processeur est considérablement réduite. Cela conduit à des opérations plus économes en énergie et garantit un environnement plus durable et plus rentable pour les applications d’IA.

Le rôle de plusieurs canaux de mémoire

L'architecture de la mémoire système est un élément essentiel dans la définition des performances des applications d'IA. Utiliser plusieurs canaux de mémoire revient à élargir une autoroute : cela facilite simultanément un plus grand flux de trafic de données, améliorant considérablement les performances globales du système. Voici comment l’utilisation de plusieurs canaux peut optimiser les opérations d’IA :

  • Bande passante accrue : plusieurs canaux augmentent la bande passante mémoire. Ceci est crucial pour les applications d’IA, car elles peuvent traiter et analyser davantage de données simultanément, ce qui accélère les temps d’inférence.
  • Traitement parallèle : avec plusieurs canaux, les données peuvent être traitées en parallèle, ce qui accélère considérablement les calculs d'IA qui impliquent de grands ensembles de données.
  • Goulots d'étranglement réduits : plusieurs canaux de mémoire aident à réduire les goulots d'étranglement du système. La répartition de la charge mémoire permet à chaque canal de fonctionner plus efficacement, améliorant ainsi les performances globales du système.

Données de test

Pour valider les avantages de la DRAM dans les systèmes d'IA, en particulier l'inférence CPU, nous avons effectué une série de tests en utilisant huit modules de mémoire Kingston KSM56R46BD4PMI-64HAI DDR5 sur différentes configurations de canaux.

KSM48R40BD4TMM-64HMR 64 Go 2Rx4 8G x 80 bits PC5-4800 CL40 enregistré EC8 288 broches DIMM KSM56R46BD4PMI-64HAI 64 Go 2Rx4 8G x 80 bits PC5-5600 CL46 enregistré EC8 288 broches DIMM
Vitesse de transfert 4800 MT / s 5600 MT / s
CL(IDD) cycles 40 cycles 46
Temps de cycle de rangée (tRCmin) 48ns (minutes) 48ns (minutes)
Actualiser à l'heure de commande active/Actualiser (tRFCmin) 295ns (minutes) 295ns (minutes)
Temps d'activité de la ligne 32ns (minutes) 32ns (minutes)
Temps de précharge de ligne 16ns (minutes) 16ns (minutes)
Classement UL 94V-0 94V-0
Température de fonctionnement 0 C à +95 C 0 C à +95 C
Température de stockage -55 C à + 100 C -55 C à + 100 C

Pour établir une référence, nous avons lancé des tests de performance ciblés sur le processeur et des tests Geekbench, évaluant les capacités isolées du processeur. Pour solliciter sérieusement l'ensemble du système, y compris la mémoire et le stockage, nous avons sélectionné y-cruncher pour ses exigences rigoureuses. Cette approche nous permet d'évaluer la cohésion et l'endurance de l'ensemble du système dans des conditions extrêmes, fournissant ainsi une image claire des performances et de la stabilité globales.

En fin de compte, ces résultats fourniront des données concrètes sur l’impact direct de la DRAM système et du nombre de canaux mémoire sur la vitesse de calcul, l’efficacité et les performances globales du système dans les applications d’IA.

Geekbench 6

Le premier est Geekbench 6, une référence multiplateforme qui mesure les performances globales du système. Vous pouvez trouver des comparaisons avec n'importe quel système de votre choix dans le Navigateur de Geekbench. Les scores les plus élevés sont meilleurs.

Geekbench 6 DDR5 de Kingston
Chaînes 2
DDR5 de Kingston
Chaînes 4
DDR5 de Kingston
Chaînes 8
Référence du processeur :
Single-Core
2,083 2,233 2,317
Référence du processeur :
Multi-Core
14,404 18,561 19,752

Les résultats du Geekbench 6 pour la Kingston DDR5 montrent une gamme de variations lorsque l'on compare les configurations à 2, 4 et 8 canaux. Dans les tests monocœur, les scores augmentent modestement mais régulièrement, passant de 2,083 2,317 avec deux canaux à 14,404 19,752 avec huit canaux, ce qui indique une efficacité et un débit améliorés pour les opérations de base individuelles à mesure que le nombre de canaux augmente. Cependant, l'amélioration des performances la plus spectaculaire est observée dans les tests multicœurs, où les scores passent de XNUMX XNUMX avec deux canaux à XNUMX XNUMX avec huit canaux.

croque-y

y-cruncher, un programme multithread et évolutif, peut calculer Pi et d'autres constantes mathématiques jusqu'à des milliards de chiffres. Depuis son lancement en 2009, y-cruncher est devenu une application d'analyse comparative et de test de stress populaire auprès des overclockeurs et des passionnés de matériel. Plus vite, c'est mieux dans ce test.

croque-y
(Temps de calcul total)
DDR5 de Kingston
Chaînes 2
DDR5 de Kingston
Chaînes 4
DDR5 de Kingston
Chaînes 8
1 milliard de chiffres 18.117 secondes 10.856 secondes 7.552 secondes
2.5 milliard de chiffres 51.412 secondes 31.861 XNUMX secondes 20.981 XNUMX secondes
5 milliard de chiffres 110.728 secondes 64.609 XNUMX secondes 46.304 XNUMX secondes
10 milliard de chiffres 240.666 secondes 138.402 XNUMX secondes 103.216 XNUMX secondes
25 milliards de chiffres 693.835 secondes 396.997 XNUMX secondes  N/D

Le benchmark y-cruncher sur 2, 4 et 8 canaux démontre une amélioration claire et constante de la vitesse de calcul à mesure que le nombre de canaux augmente. Pour calculer 1 milliard de chiffres de Pi, le temps de calcul total diminue considérablement, passant de 18.117 secondes avec deux canaux à seulement 7.552 secondes avec huit canaux.

Cette tendance à la réduction du temps de calcul se poursuit sur toutes les échelles testées, le temps de calcul de 25 milliards de chiffres passant de 693.835 secondes à 396.997 secondes en passant de 2 à 4 canaux.

3DMark – Profil du processeur

Le test CPU Profile dans 3DMark mesure spécifiquement les performances du processeur sur une gamme de nombres de threads, offrant un aperçu détaillé de l'impact des différentes configurations de canaux RAM DDR5 sur la gestion de la charge de travail et l'efficacité du processeur. Ce test est utile pour comprendre les nuances de performances dans les opérations gourmandes en mémoire et les applications multithread lors de l'utilisation de diverses configurations de canaux RAM DDR5.

3DMark – Profil CPU – Scores
Nombre de threads DDR5 de Kingston
Chaînes 2
DDR5 de Kingston
Chaînes 4
DDR5 de Kingston
Chaînes 8
Nombre maximum de fils 15,822 15,547 15,457
Fils 16 10,632 9,515 10,367
Fils 8 4,957 6,019 5,053
Fils 4 3,165 3,366 3,323
Fils 2 1,726 1,765 1,781
fil 1 907 911 884

Les scores du profil CPU 3DMark pour la RAM Kingston DDR5 montrent une image quelque peu complexe, indiquant que le nombre optimal de canaux peut varier en fonction du nombre de threads et de la charge de travail spécifique.

Au nombre maximum de threads, les scores sont les plus élevés avec deux canaux (15,822 4) et diminuent légèrement avec plus de canaux, ce qui suggère que les canaux supplémentaires n'apportent pas d'avantages pour les tâches hautement parallèles. Cependant, avec huit threads, la configuration à 6,019 canaux obtient le score le plus élevé (4 2), indiquant un point idéal où les canaux supplémentaires améliorent la gestion du parallélisme de niveau intermédiaire. Les scores sont similaires dans toutes les configurations de canaux avec un nombre de threads inférieur (1, XNUMX et XNUMX thread).

Ces résultats suggèrent que même si un plus grand nombre de canaux peut bénéficier à certaines opérations multithread, l'impact varie en fonction de la nature de la tâche et de l'architecture du système. Autrement dit, plus n’est pas toujours mieux pour chaque cas d’utilisation.

Effet du canal DRAM sur l'inférence de l'IA

Tous les tests ont été effectués sur un processeur Intel Xeon w9-3475X, en utilisant l'API Intel OpenVINO via le benchmark Procyon d'UL Labs.

Doté d'une gamme de moteurs d'inférence d'IA provenant de fournisseurs de premier plan, le test d'inférence d'IA UL Procyon répond à un large éventail de configurations et d'exigences matérielles. Le score de référence fournit un résumé pratique et standardisé des performances d'inférence sur l'appareil. Cela nous permet de comparer différentes configurations matérielles dans des situations réelles sans avoir recours à des solutions internes.

Les résultats sont dans la marge d'erreur sur FP32, mais les choses deviennent intéressantes lorsque vous passez à INT, en regardant les scores granulaires plutôt que le score global.

Un plus grand nombre est meilleur pour le score global, un petit nombre est meilleur pour les temps.

Le premier est le FP32 Precision

FP 32
La précision 8 Canal 2 Canal
Note globale 629 630
Temps d'inférence moyen MobileNet V3 0.81 0.77
Temps d'inférence moyen ResNet 50 1.96 1.82
Temps d'inférence moyen Inception V4 6.93 7.31
Temps d'inférence moyen DeepLab V3 6.27 6.17
Temps d'inférence moyen YOLO V3 12.99 13.99
Temps d'inférence moyen REAL-ESRGAN 280.59 282.45

La prochaine étape est FP16 Precision

FP 16
La précision 8 Canal 2 Canal
Note globale 645 603
Temps d'inférence moyen MobileNet V3 0.81 0.76
Temps d'inférence moyen ResNet 50 1.91 1.94
Temps d'inférence moyen Inception V4 7.11 7.27
Temps d'inférence moyen DeepLab V3 6.27 7.13
Temps d'inférence moyen YOLO V3 12.93 15.01
Temps d'inférence moyen REAL-ESRGAN 242.24 280.91

Et enfin INT

INT
La précision 8 Canal 2 Canal
Note globale 1,033 1004
Temps d'inférence moyen MobileNet V3 0.71 0.73
Temps d'inférence moyen ResNet 50 1.48 1.48
Temps d'inférence moyen Inception V4 4.42 4.47
Temps d'inférence moyen DeepLab V3 4.33 4.99
Temps d'inférence moyen YOLO V3 5.15 5.12
Temps d'inférence moyen REAL-ESRGAN 122.40 123.57

Débit et latence de la DRAM

Tout d’abord, examinons la latence de la configuration DRAM à 2 et 8 canaux. Nous avons profilé l'intégralité du processeur et de la mémoire, mais notre seul objectif était la transition du cache du processeur vers la DRAM. Étant donné que notre processeur Xeon W9-3475X ne dispose que de 82.50 Mo de cache L3, nous avons extrait le graphique au début de cette transition.

Taille du test (Ko) Bande passante à 2 canaux
Latence 8 canaux (ns)
65,536 48.70080 47.24411
98,304 68.16823 66.25920
131,072 85.38640 82.16685
262,144 114.32570 107.57450
393,216 121.74860 115.40340
524,288 129.38970 123.22100
1,048,576 144.32880 138.28380

Ici, nous pouvons voir que l’ajout de canaux supplémentaires a légèrement amélioré la latence.

Passant à la bande passante sur les instructions AVX512, nous pouvons constater une différence un peu plus spectaculaire de bande passante entre 2 canaux et 8 canaux. Le Delta est ici la performance hit entre 2 et 8 canaux.

Taille du test (Ko) AVX512 Bande passante à 2 canaux (Go/s) Bande passante à 8 canaux (Go/s) Delta (différence en Go/s)
65,536 3,455.28 3,767.91 - 312.63
98,304 1,801.88 2,011.83 - 209.95
131,072 1,009.21 1,436.50 - 427.28
262,144 178.52 508.65 - 330.13
393,216 114.76 433.91 - 319.15
524,288 94.81 396.90 - 302.09
1,048,576 71.12 293.26 - 222.13
1,572,864 66.98 267.44 - 200.46
2,097,152 65.08 262.50 - 197.42
3,145,728 63.63 253.12 - 189.50

Conclusion

En résumé, la DRAM système est la pierre angulaire de l’architecture des systèmes d’IA, en particulier dans l’inférence CPU. Sa capacité à fournir une mémoire rapide, fiable et étendue est indispensable. De plus, l’exploitation de plusieurs canaux de mémoire peut améliorer considérablement les performances des applications d’IA en augmentant la bande passante, en permettant le traitement parallèle et en minimisant les goulots d’étranglement. À mesure que l’IA continue d’évoluer, l’optimisation de la DRAM système restera un objectif clé pour garantir les plus hauts niveaux de performances et d’efficacité.

Image générée par l'IA, à l'invite de Jordan Ranous

De plus, les données de test renforcent cette notion, démontrant les avantages tangibles des configurations de mémoire améliorées. Alors que nous repoussons les limites de l’IA et du traitement des données, l’amélioration stratégique de la mémoire système sera cruciale pour soutenir la prochaine génération d’innovation en IA et d’applications dans le monde réel.

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS