Accueil EntrepriseAI Pliops XDP LightningAI optimise le cache KV pour optimiser l'inférence LLM avec NVIDIA Dynamo

Pliops XDP LightningAI optimise le cache KV pour optimiser l'inférence LLM avec NVIDIA Dynamo

by Divyansh Jain

Pliops XDP LightningAI améliore l'inférence LLM en déchargeant le cache KV, permettant une IA plus rapide et évolutive avec l'intégration de NVIDIA Dynamo.

Pliops est à la pointe de l'accélération des données et se spécialise dans les solutions matérielles et logicielles conçues pour optimiser et dynamiser les charges de travail gourmandes en données dans le cloud et les centres de données d'entreprise. Le processeur Pliops Extreme Data Processor (XDP) est conçu pour améliorer les performances et l'efficacité des infrastructures de données modernes en gérant les flux de données entre les applications et le stockage, en éliminant les goulots d'étranglement et en réduisant la latence. Le XDP est particulièrement adapté aux environnements exigeants nécessitant un débit élevé et une latence minimale, tels que ceux qui sous-tendent l'IA, les bases de données complexes, l'analyse avancée et les systèmes de stockage à grande échelle.

Architecture Pliops XDP LightningAI

Alors que l'IA devient de plus en plus un élément clé des opérations et de l'innovation des entreprises, les exigences en matière d'infrastructures de centres de données ont explosé, notamment pour les charges de travail d'inférence IA. Ces charges de travail nécessitent le traitement rapide et efficace de vastes volumes de données, ce qui sollicite considérablement les ressources de calcul et de stockage existantes. Les entreprises sont confrontées à des défis croissants pour déployer des infrastructures évolutives, rentables et économes en énergie, capables de respecter en permanence des SLA de performance rigoureux.

Pliops XDP LightningAI répond à ces défis urgents. Cette solution innovante intègre un moteur universel d'accélération du stockage conçu pour s'intégrer parfaitement à principales plateformes de serveurs, tels que les systèmes Dell PowerEdge, et fonctionnent de concert avec des solutions d'inférence avancées telles que NVIDIA Dynamo, promettant des opérations d’IA efficaces.

Pourquoi la mise en cache KV est essentielle pour une inférence LLM évolutive

La mécanique et l'importance de la mise en cache KV

Au cœur de l'optimisation des grands modèles de langage basés sur les transformateurs se trouve la mise en cache KV, une technique fondamentale qui atténue les redondances de calcul lors de l'inférence autorégressive. Dans les architectures de transformateurs, la génération de chaque nouveau jeton nécessite un calcul d'attention entre la requête du jeton actuel et les clés et valeurs de tous les jetons précédents.

Sans mécanisme de mise en cache efficace, ce processus recalculerait de manière redondante ces clés et valeurs pour chaque jeton de la séquence à chaque étape de génération. Il en résulte une complexité de calcul de O(n²), ou complexité quadratique, pour une séquence de longueur n. La mise en cache KV contourne ce problème en stockant les matrices de clés et valeurs calculées des jetons précédents directement dans la mémoire du GPU ; le modèle peut réutiliser ces tenseurs précalculés pour les étapes suivantes. Cette réutilisation réduit considérablement la complexité de calcul à O(n) après le traitement initial du jeton, accélérant ainsi considérablement les vitesses d'inférence.

Ce gain d’efficacité est primordial pour les applications d’IA en temps réel telles que les chatbots interactifs, les services de traduction instantanée et la génération de code dynamique, où la latence est un facteur critique ayant un impact direct sur l’expérience utilisateur et la viabilité des applications.

Contraintes de mémoire GPU : le goulot d'étranglement caché

Bien que la mise en cache KV améliore considérablement la vitesse d'inférence, elle sollicite les ressources mémoire du GPU. La taille du cache KV croît linéairement avec la longueur de la séquence (fenêtre contextuelle) et la taille du lot (nombre de requêtes simultanées).

Dans les environnements cloud multi-locataires ou les systèmes d'entreprise traitant des centaines, voire des milliers de requêtes simultanées, cette consommation de mémoire peut rapidement épuiser même l'infrastructure GPU la plus performante. Cet épuisement impose des compromis difficiles : réduire la taille des lots (diminution du débit), raccourcir la longueur des contextes ou investir dans davantage de GPU (augmentation des dépenses d'investissement).

De plus, une pratique courante parmi les fournisseurs d'inférence consiste à ne pas conserver les caches KV entre les tours ou les messages des utilisateurs. Cela signifie que la complexité quadratique des calculs des jetons précédemment calculés est réappliquée à chaque interaction ultérieure, annulant ainsi certains gains d'efficacité potentiels. 

NVIDIA Dynamo : repenser l'inférence LLM à grande échelle

Qu'est-ce que NVIDIA Dynamo ?

NVIDIA Dynamo, un framework open source révolutionnaire récemment publié, est conçu pour relever les défis complexes de l'inférence LLM distribuée et désagrégée. Prenant en charge divers backends, dont PyTorch, SGLang, TensorRT-LLM et vLLM, Dynamo est spécifiquement conçu pour une mise à l'échelle fluide des opérations d'inférence, des déploiements mono-GPU aux clusters de milliers de GPU. Il introduit des innovations architecturales significatives pour lutter contre les contraintes de mémoire induites par le cache KV, tout en optimisant le débit et la latence.

Architecture de service désagrégée

L'une des innovations majeures de NVIDIA Dynamo réside dans son approche de service désagrégée. Cette architecture dissocie stratégiquement la phase de pré-remplissage, gourmande en calculs, de la phase de décodage, gourmande en mémoire (génération des jetons suivants). En allouant intelligemment ces phases distinctes à des pools de GPU spécialisés distincts, Dynamo permet une optimisation indépendante de chacune d'elles, ce qui se traduit par une utilisation plus efficace des ressources et des performances globales améliorées.

Progrès du cache KV

NVIDIA Dynamo intègre également des fonctionnalités sophistiquées de gestion du cache KV. Son routeur intelligent compatible avec le cache KV suit l'état et l'emplacement des données du cache KV sur l'ensemble du parc GPU. Cela lui permet d'acheminer intelligemment les requêtes d'inférence entrantes vers les GPU disposant des entrées de cache pertinentes, minimisant ainsi les coûts de recalcul et de transfert de données.

De plus, le gestionnaire de cache KV distribué Dynamo résout directement les limitations de capacité mémoire en implémentant un déchargement hiérarchisé. Cette fonctionnalité permet de déplacer les blocs de cache KV moins fréquemment consultés ou de moindre priorité d'un HBM rapide et coûteux vers des solutions de stockage plus économiques, telles que la mémoire CPU partagée, les SSD locaux ou le stockage objet en réseau. Cette approche de stockage hiérarchique permet aux entreprises de gérer et de stocker des volumes de données de cache KV nettement plus importants à moindre coût, améliorant ainsi les performances d'inférence et la rentabilité.

Il est important de préciser qu'à ce jour, les capacités de déchargement du cache KV décrites ci-dessus font partie des feuille de route future et ne sont pas encore disponibles dans la version open source. Par conséquent, les déploiements open source Dynamo actuels ne prennent pas en charge le déchargement du cache KV vers le stockage hiérarchisé. Cela signifie qu'en pratique, les performances de Dynamo sont toujours limitées par la mémoire GPU disponible.

Pliops XDP LightningAI : résoudre le problème du cache KV à grande échelle

Découvrez Pliops XDP LightningAI, qui établit une couche mémoire ultra-rapide et évolutive de plusieurs pétaoctets, stratégiquement positionnée sous le HBM du GPU. Cette solution répond aux compromis critiques des entreprises entre taille des lots, longueur du contexte, complexité des modèles et coûts matériels croissants. La solution Pliops combine son ASIC XDP-PRO de pointe et son KVIO Store. Elle permet aux serveurs GPU de transférer efficacement de grandes quantités de données de cache KV vers un stockage SSD NVMe économique, tout en maintenant des latences d'accès exceptionnellement faibles, inférieures à la milliseconde.

Dans les déploiements pratiques, l'utilisation de Pliops XDP LightningAI pour le déchargement du cache KV se traduit par pratiquement pas de différence perceptible en TTFT (Time-To-First-Token) par rapport aux scénarios où l'intégralité du cache KV est conservée dans le HBM, rare et coûteux. Cela permet aux entreprises d'augmenter considérablement leur capacité mémoire effective pour la mise en cache KV sans compromettre les performances critiques à faible latence exigées par les applications d'IA temps réel.

 

Intégration transparente grâce à une conception basée sur des normes

L'un des avantages de Pliops XDP LightningAI réside dans son utilisation de normes ouvertes, garantissant une adoption aisée. L'architecture native NVMe-oF de la solution garantit une compatibilité étendue avec les écosystèmes de serveurs GPU existants, ne nécessitant aucune modification matérielle des serveurs pour le déploiement. Elle utilise la norme NVMe-oF sur RDMA pour une synchronisation du cache à haut débit et à faible latence entre les clusters GPU. Cela optimise l'infrastructure réseau existante des centres de données, simplifiant le déploiement et réduisant les difficultés d'intégration. 

Pliops y parvient grâce à une solution cohérente construite à partir de deux technologies complémentaires : XDP LightningAI et FusIOnX. Bien que ces composants fonctionnent ensemble au sein de l'architecture globale, ils remplissent des rôles distincts. La solution Pliops XDP LightningAI est conçue autour d'un dispositif matériel dédié doté d'une carte d'extension PCIe alimentée par un ASIC XDP personnalisé et une gamme de SSD. 

FusIOnX, quant à lui, est la plateforme logicielle complémentaire qui orchestre et gère l'utilisation intelligente du matériel XDP LightningAI. Il s'agit d'un système de déchargement de cache KV désagrégé qui élimine les calculs redondants en stockant et en réutilisant les caches KV précédemment calculés. FusIOnX fournit l'intelligence nécessaire pour identifier, stocker et récupérer efficacement les données contextuelles qui nécessiteraient autrement un recalcul, accélérant ainsi l'inférence LLM. La pile logicielle offre plusieurs configurations adaptées à différents scénarios de déploiement, notamment une pile de production vLLM avec routage intelligent sur plusieurs nœuds GPU et intégration avec des frameworks comme Dynamo et SGLang.

Architecture Pliops LightningAI FusIOnX

L'architecture du système repose sur des nœuds initiateurs, qui hébergent les GPU, et des nœuds cibles LightningAI, chargés de décharger le cache KV vers un stockage haute performance. Ces nœuds communiquent sur un réseau haut débit utilisant le protocole NVMe-oF et les cartes réseau standard des DPU.

En approfondissant le flux de données, le worker Nvidia Dynamo interagit avec le SDK client FusIOnX au sein du conteneur d'applications sur le serveur GPU. Ce SDK facilite ensuite la communication via NVMe-oF, via des DPU ou des cartes réseau standard, avec le serveur de stockage XDP LightningAI hébergeant le FusIOnX KV Store et une carte d'accélération Pliops XDP Pro1.

LightningAI rencontre NVIDIA Dynamo : tests de performances

Les tests d'intégration FusIOnX-Dynamo révèlent des gains de performances impressionnants sur plusieurs configurations. Les tests ont été réalisés avec le modèle Meta-Llama-3.1-70B-Instruct-FP8-dynamic avec un parallélisme tensoriel de 2 (TP2).

Configuration du test

  • Initiateur (serveur GPU) : Serveur Dell PowerEdge XE9680, configuré avec :
    • GPU : 8 x NVIDIA H100 SXM, chacune avec 80 Go de HBM3
    • DRACHME: 2TB
    • Processeurs : Processeurs Intel Xeon Platinum 8568Y+ à double socket
    • Mise en réseau: 2 adaptateurs NVIDIA ConnectX-7 (400 Gbit/s)

  • Cible (serveur de stockage Pliops) : Un nœud Dell PowerEdge R860, configuré avec :
    • DRACHME: 512GB
    • Processeurs : Processeurs Intel Xeon Gold 6418H à quatre sockets
    • Accélération de Pliops : 1 carte Pliops XDP Pro1
    • Stockage: 24 SSD NVMe Samsung PM1733a 3.84 To, offrant une capacité brute substantielle pour le déchargement du cache KV
    • Mise en réseau: 1 carte adaptateur NVIDIA ConnectX-7 HHHL (400 GbE, OSFP à port unique, PCIe 5.0 x16)
  • Interconnexion réseau : Ces deux serveurs sont connectés via un commutateur Ethernet NVIDIA SN5600 Spectrum-X 800 Gbps, garantissant une communication à bande passante élevée et à faible latence pour le trafic NVMe-oF.

Indicateurs clés mesurés :

  • Temps jusqu'au premier jeton (TTFT): À quelle vitesse les utilisateurs commencent à voir le contenu généré
  • Temps par jeton de sortie (TPOT): Temps entre les jetons générés
  • Requêtes par seconde (RPS): Débit du système
  • Jetons par seconde (TPS):Vitesse de génération

Les tests de référence ont simulé des conversations à plusieurs tours avec des longueurs d'invite moyennes de 2,200 100 jetons et de 230 à 2 jetons de sortie par tour, avec des conversations s'étendant sur 28 à XNUMX tours.

Performances des travailleurs individuels Dynamo

Configuration TTFT (ms) TPOT (ms) #clients Pierre-papier-ciseaux
vLLM 310 33 8 1.35
Pliops FusIOnX 111 30 16 3.03
Gain 2.79x - 2x 2.24x

Performance Dynamo à deux travailleurs

Configuration TTFT (ms) TPOT (ms) #clients Pierre-papier-ciseaux
vLLM 557 40 26 3.49
vLLM 1P1D 753 36 26 3.76
Pliops FusIOnX 166 38 56 8.43
Gain 3.3-4.5x - 2.15x 2.24-2.4x

Performance des quatre travailleurs du Dynamo

Configuration TTFT (ms) TPOT (ms) #clients Pierre-papier-ciseaux
vLLM 1192 41 60 7.32
vLLM 2P2D 719 39 60 7.99
Pliops FusIOnX 329 40 148 20.7
Gain 2.2-3.6x - 2.46x 2.6-2.8x

Avec un SLO TPOT typique de 40 ms (soit environ 25 TPS/utilisateur), FusIOnX affiche une efficacité 2.8 fois supérieure à celle de Dynamo standard et 2.24 fois supérieure à celle de la configuration désagrégée pré-remplie-décodage de Dynamo en termes de RPS/GPU. À un SLO TPOT moins strict, par exemple 60 ms (~17 TPS/utilisateur), l'efficacité est multipliée par plus de 3.

De plus, le graphique suivant illustre le gain RPS moyen obtenu par Pliops par rapport à Dynamo standard dans la configuration à quatre nœuds, mesuré pendant toute la durée de l'expérience. Tout au long de la période de test, Pliops a maintenu une amélioration de plus de deux fois supérieure à celle de Dynamo, démontrant ainsi la capacité de la solution à maintenir des performances élevées dans des conditions de charge réalistes, proches de celles de la production. Ce gain de débit soutenu se traduit directement par une meilleure simultanéité des utilisateurs et une meilleure réactivité du service, validant ainsi l'efficacité du déchargement du cache KV à grande échelle.

Quantification des avantages : avantages concrets du déchargement du cache KV

Quelles sont les conséquences pour les entreprises et l'écosystème de l'IA au sens large ? La réduction drastique du temps de réponse (TTFT) se traduit directement par une expérience utilisateur nettement améliorée, avec des interactions plus rapides et plus réactives. Ceci est particulièrement crucial pour les applications interactives telles que les chatbots, les assistants virtuels et les copilotes de codage en temps réel, où la latence peut être un facteur déterminant de la convivialité.

Au-delà de l'expérience utilisateur individuelle, la capacité à gérer deux à trois fois plus d'utilisateurs simultanés tout en respectant scrupuleusement les objectifs de niveau de service (SLO) permet aux entreprises de servir une clientèle considérablement plus large grâce à leur infrastructure matérielle existante. Cette capacité accrue est cruciale pour les déploiements d'inférence cloud, où l'évolutivité pour répondre aux fluctuations de la demande est primordiale.

De plus, la capacité de stockage quasi illimitée des caches KV, facilitée par Pliops XDP LightningAI, permet de prendre en charge des fenêtres de contexte beaucoup plus longues et une densité d'utilisateurs simultanés supérieure à celle des approches traditionnelles basées uniquement sur HBM. Cette capacité n'est plus réservée aux seuls grands laboratoires de recherche en IA. Les fournisseurs d'inférence de toutes tailles peuvent désormais exploiter la solution Pliops pour mettre en œuvre des mécanismes sophistiqués de mise en cache KV, similaires à ceux utilisés par de grandes entreprises d'IA comme OpenAI, Anthropic et Google.

De plus, ces fournisseurs peuvent réduire leur consommation énergétique globale en éliminant les calculs redondants et en optimisant l'utilisation de la mémoire, contribuant ainsi à une infrastructure d'IA plus durable. À terme, ces gains d'efficacité peuvent être répercutés sur les utilisateurs finaux grâce à des services d'IA à prix plus compétitifs, permettant ainsi aux fournisseurs d'optimiser l'utilisation et le retour sur investissement de leurs équipements avec un minimum de dépenses d'investissement supplémentaires. 

Ce que cela signifie pour l'infrastructure de l'IA

Pliops XDP LightningAI, avec son architecture FusIOnX, représente une avancée significative dans l'optimisation de l'inférence LLM. La résolution du goulot d'étranglement critique de la gestion du cache KV grâce à un déchargement intelligent vers un stockage économique offre des améliorations de performances substantielles sur tous les indicateurs clés.

L'intégration transparente de la solution avec NVIDIA Dynamo et vLLM s'applique immédiatement à divers scénarios de déploiement. Qu'elle soit utilisée avec les fonctionnalités de service distribué sophistiquées de Dynamo ou directement avec vLLM, les entreprises peuvent s'attendre à des gains significatifs en termes de débit, de latence et de rentabilité.

À mesure que les LLM augmentent en taille et en capacité et que leurs applications deviennent de plus en plus critiques, des solutions comme Pliops XDP LightningAI seront un outil essentiel pour les organisations cherchant à créer une infrastructure d'IA évolutive, efficace et rentable.

Conclusion

Pliops XDP LightningAI, optimisé par l'architecture FusIOnX, offre une amélioration significative de l'efficacité de l'inférence LLM en résolvant le goulot d'étranglement persistant du cache KV. Grâce au déchargement intelligent des données du cache KV vers un stockage performant et économique, Pliops permet aux entreprises d'étendre considérablement leurs fenêtres de contexte, de prendre en charge davantage d'utilisateurs simultanés et de maintenir des SLO de latence stricts sans investissement GPU supplémentaire. L'intégration transparente avec des frameworks tels que NVIDIA Dynamo et vLLM garantit une large applicabilité aux piles de serveurs d'IA modernes.

À mesure que les LLM gagnent en complexité et que leur adoption par les entreprises s'accélère, il devient crucial de dissocier la mise à l'échelle de la mémoire des ressources GPU coûteuses. Pliops XDP LightningAI est un catalyseur pour les infrastructures d'IA de nouvelle génération, permettant aux fournisseurs de fournir des services d'IA plus rapides, plus évolutifs et plus rentables à grande échelle. Pour les entreprises qui cherchent à pérenniser leurs déploiements d'IA et à maximiser le retour sur investissement matériel, Pliops offre une solution performante et prête à la production pour relever l'un des défis les plus urgents de l'inférence à grande échelle.

Demandez une démo Pliops

S'engager avec StorageReview

Newsletter |  YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | Flux RSS