inicio EmpresaAI Pliops XDP LightningAI potencia la caché KV para optimizar la inferencia LLM con NVIDIA Dynamo

Pliops XDP LightningAI potencia la caché KV para optimizar la inferencia LLM con NVIDIA Dynamo

by Divyansh Jain

Pliops XDP LightningAI mejora la inferencia LLM al descargar el caché KV, lo que permite una IA más rápida y escalable con la integración de NVIDIA Dynamo.

Pliops se sitúa a la vanguardia de la aceleración de datos, especializándose en soluciones de hardware y software diseñadas para optimizar y potenciar las cargas de trabajo con uso intensivo de datos en la nube y centros de datos empresariales. El procesador de datos Pliops Extreme (XDP) está diseñado para mejorar el rendimiento y la eficiencia de las infraestructuras de datos modernas mediante la gestión del flujo de datos entre aplicaciones y almacenamiento, eliminando cuellos de botella y reduciendo la latencia. El XDP es ideal para entornos exigentes que requieren un alto rendimiento y una latencia mínima, como los que sustentan la IA, bases de datos complejas, análisis avanzados y sistemas de almacenamiento expansivos a gran escala.

Arquitectura de Pliops XDP LightningAI

A medida que la IA se convierte cada vez más en un pilar fundamental de las operaciones comerciales y la innovación, las exigencias a la infraestructura de los centros de datos han aumentado exponencialmente, en particular para las cargas de trabajo de inferencia de IA. Estas cargas de trabajo requieren el procesamiento rápido y eficiente de grandes volúmenes de datos, lo que supone una enorme presión sobre los recursos informáticos y de almacenamiento existentes. Las organizaciones se enfrentan a crecientes desafíos para implementar una infraestructura escalable, rentable y energéticamente eficiente, capaz de cumplir constantemente con los estrictos acuerdos de nivel de servicio (SLA) de rendimiento.

Pliops XDP LightningAI aborda estos desafíos urgentes de frente. Esta innovadora solución presenta un motor universal de aceleración de almacenamiento diseñado para integrarse a la perfección con plataformas de servidores líderes, como los sistemas Dell PowerEdge, y funcionan en conjunto con soluciones de inferencia avanzadas como NVIDIA Dynamo, prometiendo operaciones de IA eficientes.

Por qué el almacenamiento en caché de KV es fundamental para la inferencia LLM escalable

La mecánica y la importancia del almacenamiento en caché de KV

La clave para optimizar los Modelos de Lenguaje Grandes basados ​​en transformadores reside en el almacenamiento en caché KV, una técnica fundamental que mitiga las redundancias computacionales durante la inferencia autorregresiva. En las arquitecturas de transformadores, la generación de cada nuevo token requiere calcular la atención entre la consulta del token actual y las claves y valores de todos los tokens anteriores.

Sin un mecanismo de almacenamiento en caché eficaz, este proceso recalcularía de forma redundante estas claves y valores para cada token de la secuencia en cada paso de generación. Esto resulta en una complejidad computacional de O(n²), o complejidad cuadrática, para una secuencia de longitud n. El almacenamiento en caché KV evita esto almacenando las matrices de clave y valor calculadas de los tokens anteriores directamente en la memoria de la GPU; el modelo puede reutilizar estos tensores precalculados para pasos posteriores. Esta reutilización reduce drásticamente la complejidad computacional a O(n) tras el procesamiento inicial del token, lo que acelera significativamente la velocidad de inferencia.

Esta ganancia en eficiencia es fundamental para aplicaciones de IA en tiempo real, como chatbots interactivos, servicios de traducción instantánea y generación de código dinámico, donde la latencia es un factor crítico que impacta directamente en la experiencia del usuario y la viabilidad de la aplicación.

Restricciones de memoria de la GPU: el cuello de botella oculto

Si bien el almacenamiento en caché KV mejora considerablemente la velocidad de inferencia, ejerce presión sobre los recursos de memoria de la GPU. El tamaño de la caché KV crece linealmente con la longitud de la secuencia (ventana de contexto) y el tamaño del lote (número de solicitudes simultáneas).

En entornos de nube multiusuario o sistemas empresariales que atienden cientos, si no miles, de solicitudes simultáneas, este consumo de memoria puede agotar rápidamente incluso la infraestructura de GPU más avanzada. Este agotamiento obliga a tomar decisiones difíciles: reducir el tamaño de los lotes (lo que disminuye el rendimiento), acortar la duración de los contextos o invertir en más GPU (lo que aumenta la inversión en capital).

Además, una práctica común entre los proveedores de inferencia es no conservar las cachés KV entre turnos o mensajes de usuario. Esto implica que la complejidad computacional cuadrática de los tokens previamente calculados se reinicia en cada interacción subsiguiente, anulando así posibles mejoras de eficiencia. 

NVIDIA Dynamo: Repensando la inferencia LLM a escala

¿Qué es NVIDIA Dynamo?

NVIDIA Dynamo, un innovador framework de código abierto lanzado recientemente, está diseñado para abordar los complejos desafíos de la inferencia LLM distribuida y desagregada. Compatible con diversos backends, como PyTorch, SGLang, TensorRT-LLM y vLLM, Dynamo está diseñado específicamente para escalar sin problemas las operaciones de inferencia desde implementaciones de una sola GPU hasta clústeres de mil GPU. Introduce importantes innovaciones arquitectónicas para combatir las limitaciones de memoria inducidas por la caché KV, a la vez que optimiza el máximo rendimiento y la mínima latencia.

Arquitectura de servicio desagregada

Una innovación fundamental de NVIDIA Dynamo es su enfoque de servicio desagregado. Esta arquitectura desacopla estratégicamente la fase de precarga, que requiere un uso intensivo de recursos, de la fase de decodificación limitada a la memoria (que genera tokens posteriores). Al asignar inteligentemente estas fases a grupos de GPU especializados, Dynamo permite la optimización independiente de cada una, lo que se traduce en un uso más eficiente de los recursos y un rendimiento general mejorado.

Avances en la caché KV

NVIDIA Dynamo también incorpora sofisticadas funciones de gestión de caché KV. Su enrutador inteligente con reconocimiento de caché KV rastrea el estado y la ubicación de los datos de caché KV en toda la flota de GPU. Esto le permite enrutar de forma inteligente las solicitudes de inferencia entrantes a las GPU con entradas de caché relevantes, minimizando así los costosos recálculos y la sobrecarga de transferencia de datos.

Además, Dynamo Distributed KV Cache Manager aborda directamente las limitaciones de capacidad de memoria mediante la implementación de la descarga por niveles. Esta función permite migrar bloques de caché KV de acceso menos frecuente o de menor prioridad desde un HBM rápido y costoso a soluciones de almacenamiento más rentables, como memoria de CPU compartida, SSD locales o almacenamiento de objetos en red. Este enfoque de almacenamiento jerárquico permite a las organizaciones gestionar y almacenar volúmenes significativamente mayores de datos de caché KV a un costo mucho menor, lo que mejora el rendimiento de inferencia y la eficiencia económica.

Es importante aclarar que, a partir de hoy, las capacidades de descarga de caché KV descritas anteriormente son parte de Dynamo. hoja de ruta futura y aún no están disponibles en la versión de código abierto. Por lo tanto, las implementaciones actuales de Dynamo de código abierto no admiten la descarga de caché KV al almacenamiento por niveles. Esto significa que, en la práctica, el rendimiento de Dynamo aún está limitado por la memoria GPU disponible.

Pliops XDP LightningAI: Solución de caché KV a escala

Presentamos Pliops XDP LightningAI, que establece una capa de memoria ultrarrápida, escalable y de nivel petabyte, estratégicamente ubicada debajo del HBM de la GPU. Esto aborda las cruciales compensaciones que las organizaciones deben afrontar entre el tamaño del lote, la longitud del contexto, la complejidad del modelo y el aumento de los costos de hardware. La solución Pliops combina su vanguardista ASIC XDP-PRO y su KVIO Store. Permite a los servidores GPU transferir eficientemente grandes cantidades de datos de caché KV a un almacenamiento SSD NVMe rentable, manteniendo latencias de acceso excepcionalmente bajas, inferiores a milisegundos.

En implementaciones prácticas, el aprovechamiento de Pliops XDP LightningAI para la descarga de caché KV da como resultado virtualmente ninguna diferencia perceptible en TTFT (Tiempo hasta el Primer Token), en comparación con escenarios donde toda la caché KV se conserva en el HBM, un recurso limitado y costoso. Esto permite a las organizaciones ampliar drásticamente su capacidad de memoria efectiva para el almacenamiento en caché KV sin comprometer el rendimiento crítico de baja latencia que exigen las aplicaciones de IA en tiempo real.

 

Integración perfecta mediante diseño basado en estándares

Una ventaja de Pliops XDP LightningAI es el uso de estándares abiertos, lo que garantiza una adopción sin complicaciones. La arquitectura nativa NVMe-oF de la solución garantiza una amplia compatibilidad con los ecosistemas de servidores GPU existentes, sin necesidad de modificar el hardware de los servidores para su implementación. Utiliza el estándar NVMe-oF sobre RDMA para una sincronización de caché de alta velocidad y baja latencia entre clústeres de GPU. Esto aprovecha la infraestructura de red existente del centro de datos, simplificando la implementación y reduciendo la fricción de la integración. 

Pliops logra esto mediante una solución cohesiva construida a partir de dos tecnologías complementarias: XDP LightningAI y FusIOnX. Si bien estos componentes funcionan juntos como parte de la arquitectura general, desempeñan funciones distintas. La solución Pliops XDP LightningAI está diseñada en torno a un dispositivo de hardware dedicado que incluye una tarjeta complementaria PCIe alimentada por un ASIC XDP personalizado y una serie de SSD. 

FusIOnX, por otro lado, es la plataforma de software complementaria que orquesta y gestiona el uso inteligente del hardware XDP LightningAI. Se trata de un sistema de descarga de caché KV desagregada que elimina la computación redundante mediante el almacenamiento y la reutilización de cachés KV previamente calculadas. FusIOnX proporciona la inteligencia para identificar, almacenar y recuperar eficientemente datos de contexto que, de otro modo, requerirían recálculo, acelerando así la inferencia LLM. La pila de software ofrece múltiples configuraciones adaptadas a diferentes escenarios de implementación, incluyendo una pila de producción vLLM con enrutamiento inteligente entre múltiples nodos de GPU e integración con frameworks como Dynamo y SGLang.

Arquitectura Pliops LightningAI FusIOnX

La arquitectura del sistema se basa en nodos iniciadores, que albergan las GPU, y nodos de destino LightningAI, responsables de transferir la caché KV al almacenamiento de alto rendimiento. Estos nodos se comunican a través de una red de alta velocidad mediante el protocolo NVMe-oF y las NIC estándar de ambas DPU.

Profundizando en el flujo de datos, el trabajador de Nvidia Dynamo interactúa con el SDK de cliente FusIOnX dentro del contenedor de aplicaciones en el servidor GPU. Este SDK facilita la comunicación mediante NVMe-oF mediante DPU o NIC estándar con el servidor de almacenamiento XDP LightningAI que aloja FusIOnX KV Store y una tarjeta de aceleración Pliops XDP Pro1.

LightningAI se une a NVIDIA Dynamo: puntos de referencia de rendimiento

Las pruebas de rendimiento de integración de FusIOnX-Dynamo revelan mejoras impresionantes en múltiples configuraciones. Las pruebas se realizaron con el modelo Meta-Llama-3.1-70B-Instruct-FP8-dynamic, con paralelismo tensorial de 2 (TP2).

Configuración de prueba

  • Iniciador (Servidor GPU): Servidor Dell PowerEdge XE9680, configurado con:
    • GPU: 8 x NVIDIA H100 SXM, cada una con 80 GB de HBM3
    • DRACMA: 2TB
    • CPU: Procesadores Intel Xeon Platinum 8568Y+ de doble socket
    • Networking: 2 adaptadores NVIDIA ConnectX-7 (400 Gbps)

  • Destino (servidor de almacenamiento Pliops): Un nodo Dell PowerEdge R860, configurado con:
    • DRACMA: 512GB
    • CPU: Procesadores Intel Xeon Gold 6418H de cuatro sockets
    • Aceleración de Pliops: 1 tarjeta Pliops XDP Pro1
    • Almacenamiento: 24 SSD NVMe Samsung PM1733a de 3.84 TB que proporcionan una capacidad bruta sustancial para la descarga de caché KV
    • Networking: 1 tarjeta adaptadora NVIDIA ConnectX-7 HHHL (400 GbE, OSFP de un solo puerto, PCIe 5.0 x16)
  • Interconexión de red: Estos dos servidores están conectados a través del conmutador Ethernet NVIDIA SN5600 Spectrum-X de 800 Gbps, lo que garantiza una comunicación de alto ancho de banda y baja latencia para el tráfico NVMe-oF.

Métricas clave medidas:

  • Tiempo hasta el primer token (TTFT):Con qué rapidez los usuarios empiezan a ver el contenido generado
  • Tiempo por token de salida (TPOT): Tiempo entre tokens generados
  • Solicitudes por segundo (RPS):Rendimiento del sistema
  • Tokens por segundo (TPS):Velocidad de generación

Los puntos de referencia simularon conversaciones de varios turnos con longitudes de indicaciones promedio de 2,200 tokens y 100-230 tokens de salida por turno, con conversaciones que abarcaron entre 2 y 28 turnos.

Rendimiento de un solo trabajador de Dynamo

Configuration Transición temporal (ms) Tiempo de transferencia de calor (ms) #clientela RPS
vllm 310 33 8 1.35
Pliops FusIOnX 111 30 16 3.03
Obten 2.79x 2x 2.24x

Rendimiento de dos trabajadores del dínamo

Configuration Transición temporal (ms) Tiempo de transferencia de calor (ms) #clientela RPS
vllm 557 40 26 3.49
Máster 1P1D 753 36 26 3.76
Pliops FusIOnX 166 38 56 8.43
Obten 3.3–4.5x 2.15x 2.24–2.4x

Rendimiento de cuatro trabajadores del dínamo

Configuration Transición temporal (ms) Tiempo de transferencia de calor (ms) #clientela RPS
vllm 1192 41 60 7.32
Máster 2P2D 719 39 60 7.99
Pliops FusIOnX 329 40 148 20.7
Obten 2.2–3.6x 2.46x 2.6–2.8x

Con un SLO de TPOT típico de 40 ms (que representa aproximadamente 25 TPS/usuario), FusIOnX muestra una eficiencia 2.8 veces mayor que la de Dynamo estándar y 2.24 veces mayor que la configuración desagregada de prellenado y decodificación de Dynamo en términos de RPS/GPU. Y con un SLO de TPOT menos estricto, por ejemplo, 60 ms (~17 TPS/usuario), la eficiencia se triplica.

Además, el siguiente gráfico visualiza la ganancia promedio de RPS lograda por Pliops en comparación con Dynamo estándar en la configuración de cuatro trabajadores, medida durante el experimento. Durante el período de prueba, Pliops mantuvo una mejora de más del doble respecto a Dynamo, lo que demuestra la capacidad de la solución para mantener un alto rendimiento en condiciones de carga realistas, similares a las de producción. Esta ganancia sostenida de rendimiento se traduce directamente en una mayor concurrencia de usuarios y una mejor capacidad de respuesta del servicio, lo que valida la eficacia de la descarga de caché KV a escala.

Cuantificación de la ventaja: beneficios reales de la descarga de caché KV

¿Qué significa esto para las empresas y el ecosistema de IA en general? La drástica reducción del tiempo hasta el primer token (TTFT) se traduce directamente en una experiencia de usuario significativamente mejorada, con interacciones más rápidas y con mayor capacidad de respuesta. Esto es especialmente crucial para aplicaciones interactivas como chatbots, asistentes virtuales y copilotos de codificación en tiempo real, donde la latencia puede ser determinante para la usabilidad.

Más allá de la experiencia de usuario individual, la capacidad de gestionar de dos a tres veces más usuarios simultáneos, manteniendo estrictamente los Objetivos de Nivel de Servicio (SLO), permite a las organizaciones atender a una base de clientes considerablemente mayor utilizando su infraestructura de hardware existente. Esta mayor capacidad es crucial para las implementaciones de inferencia basadas en la nube, donde la escalabilidad para satisfacer la demanda fluctuante es fundamental.

Además, la capacidad de almacenamiento prácticamente ilimitada para cachés KV, facilitada por Pliops XDP LightningAI, permite ventanas de contexto mucho más extensas y una mayor densidad de usuarios simultáneos que la que admiten los enfoques tradicionales basados ​​únicamente en HBM. Esta capacidad ya no se limita a los grandes laboratorios de investigación de IA. Los proveedores de inferencia de todos los tamaños ahora pueden aprovechar la solución de Pliops para implementar sofisticados mecanismos de almacenamiento en caché KV, similares a los que emplean grandes empresas de IA como OpenAI, Anthropic y Google.

Además, estos proveedores pueden reducir el consumo energético general al eliminar la computación redundante y optimizar el uso de la memoria, lo que contribuye a una infraestructura de IA más sostenible. En última instancia, estas eficiencias pueden trasladarse a los usuarios finales mediante servicios de IA con precios más competitivos, lo que permite a los proveedores maximizar la utilización y el retorno de la inversión en hardware con una mínima inversión de capital adicional. 

Qué significa esto para la infraestructura de IA

Pliops XDP LightningAI, con su arquitectura FusIOnX, representa un avance significativo en la optimización de la inferencia LLM. Abordar el cuello de botella crítico de la gestión de caché KV mediante la descarga inteligente a un almacenamiento rentable ofrece mejoras sustanciales de rendimiento en todas las métricas clave.

La integración fluida de la solución con NVIDIA Dynamo y vLLM se aplica de inmediato a diversos escenarios de implementación. Ya sea que se utilice con las sofisticadas capacidades de servicio distribuido de Dynamo o directamente con vLLM, las organizaciones pueden esperar mejoras significativas en rendimiento, latencia y rentabilidad.

A medida que los LLM aumentan en tamaño y capacidad y sus aplicaciones se vuelven cada vez más críticas para la misión, soluciones como Pliops XDP LightningAI serán una herramienta esencial para las organizaciones que buscan construir una infraestructura de IA escalable, eficiente y rentable.

Conclusión

Pliops XDP LightningAI, mejorado con la arquitectura FusIOnX, ofrece un gran avance en la eficiencia de la inferencia LLM al resolver el persistente cuello de botella de la caché KV. Mediante la descarga inteligente de datos de la caché KV a un almacenamiento rentable y de alto rendimiento, Pliops permite a las organizaciones ampliar drásticamente las ventanas de contexto, admitir más usuarios simultáneos y mantener SLO de latencia estrictos sin inversión adicional en GPU. La integración fluida con frameworks como NVIDIA Dynamo y vLLM garantiza una amplia aplicabilidad en las pilas de servicios de IA modernas.

A medida que los LLM aumentan en complejidad y la adopción empresarial se acelera, será crucial desvincular el escalado de memoria de los costosos recursos de GPU. Pliops XDP LightningAI facilita la infraestructura de IA de próxima generación, permitiendo a los proveedores ofrecer servicios de IA más rápidos, escalables y rentables a escala. Para las organizaciones que buscan asegurar el futuro de sus implementaciones de IA y maximizar el retorno de la inversión (ROI) en hardware, Pliops ofrece una solución atractiva y lista para producción que aborda uno de los desafíos más urgentes de la inferencia a gran escala actual.

Solicitar una demostración de Pliops

Interactuar con StorageReview

Boletín | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed