Pliops XDP LightningAI améliore l'inférence LLM en déchargeant le cache KV, permettant une IA plus rapide et évolutive avec l'intégration de NVIDIA Dynamo.
Pliops est à la pointe de l'accélération des données et se spécialise dans les solutions matérielles et logicielles conçues pour optimiser et dynamiser les charges de travail gourmandes en données dans le cloud et les centres de données d'entreprise. Le processeur Pliops Extreme Data Processor (XDP) est conçu pour améliorer les performances et l'efficacité des infrastructures de données modernes en gérant les flux de données entre les applications et le stockage, en éliminant les goulots d'étranglement et en réduisant la latence. Le XDP est particulièrement adapté aux environnements exigeants nécessitant un débit élevé et une latence minimale, tels que ceux qui sous-tendent l'IA, les bases de données complexes, l'analyse avancée et les systèmes de stockage à grande échelle.
Alors que l'IA devient de plus en plus un élément clé des opérations et de l'innovation des entreprises, les exigences en matière d'infrastructures de centres de données ont explosé, notamment pour les charges de travail d'inférence IA. Ces charges de travail nécessitent le traitement rapide et efficace de vastes volumes de données, ce qui sollicite considérablement les ressources de calcul et de stockage existantes. Les entreprises sont confrontées à des défis croissants pour déployer des infrastructures évolutives, rentables et économes en énergie, capables de respecter en permanence des SLA de performance rigoureux.
Pliops XDP LightningAI répond à ces défis urgents. Cette solution innovante intègre un moteur universel d'accélération du stockage conçu pour s'intégrer parfaitement à principales plateformes de serveurs, tels que les systèmes Dell PowerEdge, et fonctionnent de concert avec des solutions d'inférence avancées telles que NVIDIA Dynamo, promettant des opérations d’IA efficaces.
Au cœur de l'optimisation des grands modèles de langage basés sur les transformateurs se trouve la mise en cache KV, une technique fondamentale qui atténue les redondances de calcul lors de l'inférence autorégressive. Dans les architectures de transformateurs, la génération de chaque nouveau jeton nécessite un calcul d'attention entre la requête du jeton actuel et les clés et valeurs de tous les jetons précédents.
Sans mécanisme de mise en cache efficace, ce processus recalculerait de manière redondante ces clés et valeurs pour chaque jeton de la séquence à chaque étape de génération. Il en résulte une complexité de calcul de O(n²), ou complexité quadratique, pour une séquence de longueur n. La mise en cache KV contourne ce problème en stockant les matrices de clés et valeurs calculées des jetons précédents directement dans la mémoire du GPU ; le modèle peut réutiliser ces tenseurs précalculés pour les étapes suivantes. Cette réutilisation réduit considérablement la complexité de calcul à O(n) après le traitement initial du jeton, accélérant ainsi considérablement les vitesses d'inférence.
Ce gain d’efficacité est primordial pour les applications d’IA en temps réel telles que les chatbots interactifs, les services de traduction instantanée et la génération de code dynamique, où la latence est un facteur critique ayant un impact direct sur l’expérience utilisateur et la viabilité des applications.
Bien que la mise en cache KV améliore considérablement la vitesse d'inférence, elle sollicite les ressources mémoire du GPU. La taille du cache KV croît linéairement avec la longueur de la séquence (fenêtre contextuelle) et la taille du lot (nombre de requêtes simultanées).
Dans les environnements cloud multi-locataires ou les systèmes d'entreprise traitant des centaines, voire des milliers de requêtes simultanées, cette consommation de mémoire peut rapidement épuiser même l'infrastructure GPU la plus performante. Cet épuisement impose des compromis difficiles : réduire la taille des lots (diminution du débit), raccourcir la longueur des contextes ou investir dans davantage de GPU (augmentation des dépenses d'investissement).
De plus, une pratique courante parmi les fournisseurs d'inférence consiste à ne pas conserver les caches KV entre les tours ou les messages des utilisateurs. Cela signifie que la complexité quadratique des calculs des jetons précédemment calculés est réappliquée à chaque interaction ultérieure, annulant ainsi certains gains d'efficacité potentiels.
NVIDIA Dynamo, un framework open source révolutionnaire récemment publié, est conçu pour relever les défis complexes de l'inférence LLM distribuée et désagrégée. Prenant en charge divers backends, dont PyTorch, SGLang, TensorRT-LLM et vLLM, Dynamo est spécifiquement conçu pour une mise à l'échelle fluide des opérations d'inférence, des déploiements mono-GPU aux clusters de milliers de GPU. Il introduit des innovations architecturales significatives pour lutter contre les contraintes de mémoire induites par le cache KV, tout en optimisant le débit et la latence.
L'une des innovations majeures de NVIDIA Dynamo réside dans son approche de service désagrégée. Cette architecture dissocie stratégiquement la phase de pré-remplissage, gourmande en calculs, de la phase de décodage, gourmande en mémoire (génération des jetons suivants). En allouant intelligemment ces phases distinctes à des pools de GPU spécialisés distincts, Dynamo permet une optimisation indépendante de chacune d'elles, ce qui se traduit par une utilisation plus efficace des ressources et des performances globales améliorées.
NVIDIA Dynamo intègre également des fonctionnalités sophistiquées de gestion du cache KV. Son routeur intelligent compatible avec le cache KV suit l'état et l'emplacement des données du cache KV sur l'ensemble du parc GPU. Cela lui permet d'acheminer intelligemment les requêtes d'inférence entrantes vers les GPU disposant des entrées de cache pertinentes, minimisant ainsi les coûts de recalcul et de transfert de données.
De plus, le gestionnaire de cache KV distribué Dynamo résout directement les limitations de capacité mémoire en implémentant un déchargement hiérarchisé. Cette fonctionnalité permet de déplacer les blocs de cache KV moins fréquemment consultés ou de moindre priorité d'un HBM rapide et coûteux vers des solutions de stockage plus économiques, telles que la mémoire CPU partagée, les SSD locaux ou le stockage objet en réseau. Cette approche de stockage hiérarchique permet aux entreprises de gérer et de stocker des volumes de données de cache KV nettement plus importants à moindre coût, améliorant ainsi les performances d'inférence et la rentabilité.
Il est important de préciser qu'à ce jour, les capacités de déchargement du cache KV décrites ci-dessus font partie des feuille de route future et ne sont pas encore disponibles dans la version open source. Par conséquent, les déploiements open source Dynamo actuels ne prennent pas en charge le déchargement du cache KV vers le stockage hiérarchisé. Cela signifie qu'en pratique, les performances de Dynamo sont toujours limitées par la mémoire GPU disponible.
Découvrez Pliops XDP LightningAI, qui établit une couche mémoire ultra-rapide et évolutive de plusieurs pétaoctets, stratégiquement positionnée sous le HBM du GPU. Cette solution répond aux compromis critiques des entreprises entre taille des lots, longueur du contexte, complexité des modèles et coûts matériels croissants. La solution Pliops combine son ASIC XDP-PRO de pointe et son KVIO Store. Elle permet aux serveurs GPU de transférer efficacement de grandes quantités de données de cache KV vers un stockage SSD NVMe économique, tout en maintenant des latences d'accès exceptionnellement faibles, inférieures à la milliseconde.
Dans les déploiements pratiques, l'utilisation de Pliops XDP LightningAI pour le déchargement du cache KV se traduit par pratiquement pas de différence perceptible en TTFT (Time-To-First-Token) par rapport aux scénarios où l'intégralité du cache KV est conservée dans le HBM, rare et coûteux. Cela permet aux entreprises d'augmenter considérablement leur capacité mémoire effective pour la mise en cache KV sans compromettre les performances critiques à faible latence exigées par les applications d'IA temps réel.
L'un des avantages de Pliops XDP LightningAI réside dans son utilisation de normes ouvertes, garantissant une adoption aisée. L'architecture native NVMe-oF de la solution garantit une compatibilité étendue avec les écosystèmes de serveurs GPU existants, ne nécessitant aucune modification matérielle des serveurs pour le déploiement. Elle utilise la norme NVMe-oF sur RDMA pour une synchronisation du cache à haut débit et à faible latence entre les clusters GPU. Cela optimise l'infrastructure réseau existante des centres de données, simplifiant le déploiement et réduisant les difficultés d'intégration.
Pliops y parvient grâce à une solution cohérente construite à partir de deux technologies complémentaires : XDP LightningAI et FusIOnX. Bien que ces composants fonctionnent ensemble au sein de l'architecture globale, ils remplissent des rôles distincts. La solution Pliops XDP LightningAI est conçue autour d'un dispositif matériel dédié doté d'une carte d'extension PCIe alimentée par un ASIC XDP personnalisé et une gamme de SSD.
FusIOnX, quant à lui, est la plateforme logicielle complémentaire qui orchestre et gère l'utilisation intelligente du matériel XDP LightningAI. Il s'agit d'un système de déchargement de cache KV désagrégé qui élimine les calculs redondants en stockant et en réutilisant les caches KV précédemment calculés. FusIOnX fournit l'intelligence nécessaire pour identifier, stocker et récupérer efficacement les données contextuelles qui nécessiteraient autrement un recalcul, accélérant ainsi l'inférence LLM. La pile logicielle offre plusieurs configurations adaptées à différents scénarios de déploiement, notamment une pile de production vLLM avec routage intelligent sur plusieurs nœuds GPU et intégration avec des frameworks comme Dynamo et SGLang.
L'architecture du système repose sur des nœuds initiateurs, qui hébergent les GPU, et des nœuds cibles LightningAI, chargés de décharger le cache KV vers un stockage haute performance. Ces nœuds communiquent sur un réseau haut débit utilisant le protocole NVMe-oF et les cartes réseau standard des DPU.
En approfondissant le flux de données, le worker Nvidia Dynamo interagit avec le SDK client FusIOnX au sein du conteneur d'applications sur le serveur GPU. Ce SDK facilite ensuite la communication via NVMe-oF, via des DPU ou des cartes réseau standard, avec le serveur de stockage XDP LightningAI hébergeant le FusIOnX KV Store et une carte d'accélération Pliops XDP Pro1.
Les tests d'intégration FusIOnX-Dynamo révèlent des gains de performances impressionnants sur plusieurs configurations. Les tests ont été réalisés avec le modèle Meta-Llama-3.1-70B-Instruct-FP8-dynamic avec un parallélisme tensoriel de 2 (TP2).
Configuration du test
Indicateurs clés mesurés :
Les tests de référence ont simulé des conversations à plusieurs tours avec des longueurs d'invite moyennes de 2,200 100 jetons et de 230 à 2 jetons de sortie par tour, avec des conversations s'étendant sur 28 à XNUMX tours.
Performances des travailleurs individuels Dynamo
Configuration | TTFT (ms) | TPOT (ms) | #clients | Pierre-papier-ciseaux |
---|---|---|---|---|
vLLM | 310 | 33 | 8 | 1.35 |
Pliops FusIOnX | 111 | 30 | 16 | 3.03 |
Gain | 2.79x | - | 2x | 2.24x |
Performance Dynamo à deux travailleurs
Configuration | TTFT (ms) | TPOT (ms) | #clients | Pierre-papier-ciseaux |
---|---|---|---|---|
vLLM | 557 | 40 | 26 | 3.49 |
vLLM 1P1D | 753 | 36 | 26 | 3.76 |
Pliops FusIOnX | 166 | 38 | 56 | 8.43 |
Gain | 3.3-4.5x | - | 2.15x | 2.24-2.4x |
Performance des quatre travailleurs du Dynamo
Configuration | TTFT (ms) | TPOT (ms) | #clients | Pierre-papier-ciseaux |
---|---|---|---|---|
vLLM | 1192 | 41 | 60 | 7.32 |
vLLM 2P2D | 719 | 39 | 60 | 7.99 |
Pliops FusIOnX | 329 | 40 | 148 | 20.7 |
Gain | 2.2-3.6x | - | 2.46x | 2.6-2.8x |
Avec un SLO TPOT typique de 40 ms (soit environ 25 TPS/utilisateur), FusIOnX affiche une efficacité 2.8 fois supérieure à celle de Dynamo standard et 2.24 fois supérieure à celle de la configuration désagrégée pré-remplie-décodage de Dynamo en termes de RPS/GPU. À un SLO TPOT moins strict, par exemple 60 ms (~17 TPS/utilisateur), l'efficacité est multipliée par plus de 3.
De plus, le graphique suivant illustre le gain RPS moyen obtenu par Pliops par rapport à Dynamo standard dans la configuration à quatre nœuds, mesuré pendant toute la durée de l'expérience. Tout au long de la période de test, Pliops a maintenu une amélioration de plus de deux fois supérieure à celle de Dynamo, démontrant ainsi la capacité de la solution à maintenir des performances élevées dans des conditions de charge réalistes, proches de celles de la production. Ce gain de débit soutenu se traduit directement par une meilleure simultanéité des utilisateurs et une meilleure réactivité du service, validant ainsi l'efficacité du déchargement du cache KV à grande échelle.
Quelles sont les conséquences pour les entreprises et l'écosystème de l'IA au sens large ? La réduction drastique du temps de réponse (TTFT) se traduit directement par une expérience utilisateur nettement améliorée, avec des interactions plus rapides et plus réactives. Ceci est particulièrement crucial pour les applications interactives telles que les chatbots, les assistants virtuels et les copilotes de codage en temps réel, où la latence peut être un facteur déterminant de la convivialité.
Au-delà de l'expérience utilisateur individuelle, la capacité à gérer deux à trois fois plus d'utilisateurs simultanés tout en respectant scrupuleusement les objectifs de niveau de service (SLO) permet aux entreprises de servir une clientèle considérablement plus large grâce à leur infrastructure matérielle existante. Cette capacité accrue est cruciale pour les déploiements d'inférence cloud, où l'évolutivité pour répondre aux fluctuations de la demande est primordiale.
De plus, la capacité de stockage quasi illimitée des caches KV, facilitée par Pliops XDP LightningAI, permet de prendre en charge des fenêtres de contexte beaucoup plus longues et une densité d'utilisateurs simultanés supérieure à celle des approches traditionnelles basées uniquement sur HBM. Cette capacité n'est plus réservée aux seuls grands laboratoires de recherche en IA. Les fournisseurs d'inférence de toutes tailles peuvent désormais exploiter la solution Pliops pour mettre en œuvre des mécanismes sophistiqués de mise en cache KV, similaires à ceux utilisés par de grandes entreprises d'IA comme OpenAI, Anthropic et Google.
De plus, ces fournisseurs peuvent réduire leur consommation énergétique globale en éliminant les calculs redondants et en optimisant l'utilisation de la mémoire, contribuant ainsi à une infrastructure d'IA plus durable. À terme, ces gains d'efficacité peuvent être répercutés sur les utilisateurs finaux grâce à des services d'IA à prix plus compétitifs, permettant ainsi aux fournisseurs d'optimiser l'utilisation et le retour sur investissement de leurs équipements avec un minimum de dépenses d'investissement supplémentaires.
Pliops XDP LightningAI, avec son architecture FusIOnX, représente une avancée significative dans l'optimisation de l'inférence LLM. La résolution du goulot d'étranglement critique de la gestion du cache KV grâce à un déchargement intelligent vers un stockage économique offre des améliorations de performances substantielles sur tous les indicateurs clés.
L'intégration transparente de la solution avec NVIDIA Dynamo et vLLM s'applique immédiatement à divers scénarios de déploiement. Qu'elle soit utilisée avec les fonctionnalités de service distribué sophistiquées de Dynamo ou directement avec vLLM, les entreprises peuvent s'attendre à des gains significatifs en termes de débit, de latence et de rentabilité.
À mesure que les LLM augmentent en taille et en capacité et que leurs applications deviennent de plus en plus critiques, des solutions comme Pliops XDP LightningAI seront un outil essentiel pour les organisations cherchant à créer une infrastructure d'IA évolutive, efficace et rentable.
Pliops XDP LightningAI, optimisé par l'architecture FusIOnX, offre une amélioration significative de l'efficacité de l'inférence LLM en résolvant le goulot d'étranglement persistant du cache KV. Grâce au déchargement intelligent des données du cache KV vers un stockage performant et économique, Pliops permet aux entreprises d'étendre considérablement leurs fenêtres de contexte, de prendre en charge davantage d'utilisateurs simultanés et de maintenir des SLO de latence stricts sans investissement GPU supplémentaire. L'intégration transparente avec des frameworks tels que NVIDIA Dynamo et vLLM garantit une large applicabilité aux piles de serveurs d'IA modernes.
À mesure que les LLM gagnent en complexité et que leur adoption par les entreprises s'accélère, il devient crucial de dissocier la mise à l'échelle de la mémoire des ressources GPU coûteuses. Pliops XDP LightningAI est un catalyseur pour les infrastructures d'IA de nouvelle génération, permettant aux fournisseurs de fournir des services d'IA plus rapides, plus évolutifs et plus rentables à grande échelle. Pour les entreprises qui cherchent à pérenniser leurs déploiements d'IA et à maximiser le retour sur investissement matériel, Pliops offre une solution performante et prête à la production pour relever l'un des défis les plus urgents de l'inférence à grande échelle.
S'engager avec StorageReview
Infolettre | YouTube | Podcast iTunes/Spotify | Followers | Twitter | TikTok | Flux RSS
Le SSD D5-P5336 122.88 To de Solidigm établit une nouvelle référence en matière de densité de stockage, maximisant l'espace rack et l'efficacité énergétique pour les données modernes…
Le PNY CS2150 est l’un des SSD PCIe Gen5 les plus abordables du marché, ce qui en fait une option tentante…
Le Crucial X10 s'appuie sur ses prédécesseurs avec des capacités plus élevées, une conception plus robuste et de meilleures performances globales. (suite…)
Le NM1090 PRO de Lexar offre de solides performances SSD Gen5, une prise en charge DirectStorage et une valeur de premier ordre pour les joueurs et les créateurs. (suite…)
Ubiquiti Dream Router 7 combine le WiFi 7, le 10GbE, le PoE, les applications UniFi et une sécurité robuste dans une passerelle tout-en-un compacte pour…
La RX 9060 XT d'AMD apporte RDNA 4 aux joueurs à petit budget avec des performances solides, des fonctionnalités modernes et jusqu'à 16 Go de…