Entreprise

MinIO présente MemKV pour la mémoire d'inférence IA à l'échelle du pétaoctet

MinIO a annoncé MemKV, un mémoire contextuelle Boutique conçue pour répondre à un goulot d'étranglement croissant dans les environnements d'inférence IA à grande échelle. Elle se positionne comme le deuxième élément clé du portefeuille de l'entreprise, aux côtés de AIStorMemKV étend l'infrastructure de données de MinIO à la couche mémoire, ciblant un contexte persistant et partagé pour les charges de travail d'IA agentielle fonctionnant sur des clusters GPU.

À mesure que les systèmes d'IA évoluent des interactions à réponse unique vers le raisonnement et l'exécution de tâches en plusieurs étapes, la préservation du contexte tout au long des cycles d'inférence devient cruciale. Dans les architectures actuelles, le contexte est fréquemment perdu en raison de la capacité limitée des couches de mémoire adjacentes au GPU, telles que la HBM et la DRAM. Ceci contraint les GPU à recalculer le contexte précédemment généré, ce qui augmente la latence, l'utilisation des ressources de calcul et la consommation d'énergie. MinIO qualifie ce phénomène de surcharge de recalcul qui s'accroît à grande échelle, notamment dans les environnements hyperscale et cloud.

MemKV est conçu pour atténuer ce problème en fournissant une couche de mémoire partagée et persistante capable d'une récupération en quelques microsecondes à l'échelle du pétaoctet. En conservant le contexte lors des opérations d'inférence, la plateforme réduit les calculs redondants et améliore l'efficacité globale du système. Lors de tests internes, MinIO a constaté des améliorations du temps d'obtention du premier jeton aux niveaux de concurrence de production. Dans un déploiement représentatif avec 128 GPU et des fenêtres de contexte de 128 000 jetons, l'utilisation des GPU est passée d'environ 50 % à plus de 90 %, ce qui a permis de réaliser d'importantes économies sur les coûts de calcul annuels.

La direction de MinIO a souligné que la surcharge liée au recalcul, historiquement masquée dans les déploiements de petite taille, devient une source d'inefficacité structurelle à grande échelle. Avec la croissance des clusters GPU, le coût de la régénération répétée du contexte augmente, tant en termes de consommation d'énergie que d'exigences d'infrastructure, rendant indispensables des systèmes de mémoire dédiés pour des opérations d'IA durables.

Résoudre le compromis entre la mémoire et l'échelle

L'infrastructure d'IA traditionnelle impose un compromis entre vitesse et échelle. Les couches de mémoire haute performance telles que HBM La mémoire DRAM offre une latence de l'ordre de la microseconde, mais sa capacité est limitée et son coût élevé. À l'inverse, les systèmes de stockage offrent une grande évolutivité, mais introduisent une latence de l'ordre de la milliseconde, ce qui les rend inadaptés à l'inférence en temps réel et au raisonnement sur des contextes longs.

MemKV est conçu pour combler cet écart en introduisant une couche de mémoire partagée qui combine un accès à faible latence et une capacité à grande échelle. Conçue pour fonctionner sur NVIDIA BlueField-4 STX et intégrée à NVIDIA Dynamo et NIXL, la plateforme permet à un cluster GPU entier d'accéder à un pool commun de données de contexte à des vitesses adaptées aux exigences d'inférence. Cette approche élimine la nécessité de transférer le contexte entre différentes couches de mémoire et de stockage, réduisant ainsi la latence et améliorant le débit.

Architecture optimisée pour les charges de travail d'inférence

MemKV est spécialement conçu pour le traitement des données d'inférence et correspond à la description de la couche G3.5 de MinIO dans la hiérarchie mémoire du GPU. Il offre une capacité de l'ordre du pétaoctet sur une infrastructure NVMe tout en conservant des temps d'accès de l'ordre de la microseconde, découplant ainsi efficacement la capacité mémoire des ressources de calcul du GPU.

Le système évite les abstractions de stockage traditionnelles en déplaçant les données directement du NVMe vers le chemin de données de l'IA via une connexion de bout en bout. Transport RDMACela élimine les surcharges liées aux protocoles HTTP, à la traduction du système de fichiers et aux serveurs de stockage intermédiaires, qui sont courantes dans les architectures orientées objet et fichiers.

Source: Google

Les éléments architecturaux clés comprennent l'exécution native sur NVIDIA BlueField-4 STX MemKV est un binaire ARM64 intégré à la couche de stockage, réduisant ainsi la dépendance aux nœuds de stockage x86 externes. Les transferts de données s'effectuent via RDMA de la mémoire GPU vers NVMe, contournant les architectures de stockage classiques. MemKV utilise également des blocs de plus grande taille, de 2 Mo à 16 Mo, optimisés pour le débit du GPU plutôt que pour les anciens blocs de stockage de 4 Ko. Les performances réseau sont compatibles avec les infrastructures haut débit modernes, notamment NVIDIA Spectrum-X Ethernet et PCIe Gen6, permettant des transferts de données quasi instantanés au sein du cluster.

Disponibilité

MinIO MemKV est disponible immédiatement.

Harold Fritt

Je suis dans l'industrie de la technologie depuis qu'IBM a créé Selectric. Ma formation, cependant, est l'écriture. J'ai donc décidé de sortir de l'avant-vente et de revenir à mes racines, en écrivant un peu mais en restant impliqué dans la technologie.

Derniers Articles

Intel lance le Xeon 6+ sur le serveur 18A avec 288 cœurs E, Ethernet 200 GbE E835 et GPU Crescent Island. Détails techniques

Intel a annoncé une série de mises à jour pour ses centres de données lors du Computex 2026 à Taipei, couvrant le calcul, la mise en réseau et son accélérateur d'IA…

Il y a 2 jours

NetApp et Cisco étendent FlexPod avec des architectures d'IA validées et la réponse de stockage SOAR de Splunk

NetApp et Cisco ont introduit un ensemble élargi de solutions validées FlexPod pour simplifier le déploiement d'une infrastructure d'IA sécurisée et évolutive.

Il y a 2 jours

Nutanix Unified Storage obtient la certification NVIDIA de niveau entreprise pour les charges de travail d'IA en production

Nutanix a annoncé que sa solution Nutanix Unified Storage (NUS) est désormais certifiée NVIDIA au niveau entreprise, validant ainsi la plateforme pour…

Il y a 2 jours

ZutaCore lève 100 millions de dollars en série C pour développer une solution de refroidissement diphasique sans eau pour les centres de données d'IA.

ZutaCore a levé 100 millions de dollars lors d'un tour de table de série C, avec la participation de Mitsubishi Electric, Carrier Ventures, Samsung Electronics et d'autres…

Il y a 3 jours

CoolIT Systems présente une plaque froide de 15 kW, étendant la durée de vie du DLC monophasé au-delà de 2030.

CoolIT Systems a annoncé le développement de ce qu'elle décrit comme la première conception de plaque froide à refroidissement liquide direct (DLC) de 15 kW…

Il y a 3 jours

Record HPE XD230 STAC-A2 : Intel Xeon 6980P et Micron MRDIMM en tête des indicateurs de risque financier

L'infrastructure des services financiers continue d'être définie par la nécessité de traiter des modèles de risque plus vastes dans des limites de puissance et d'espace fixes…

Il y a 4 jours