Inicio EmpresaAI Pliops y vLLM: Almacenamiento en caché KV más inteligente para la inferencia LLM

Pliops y vLLM: Almacenamiento en caché KV más inteligente para la inferencia LLM

by harold fritts

Optimice la inferencia LLM con Pliops y vLLM. Mejore el rendimiento, reduzca costos y escale las cargas de trabajo de IA con la aceleración de caché KV.

Pliops ha anunciado una asociación estratégica con la Pila de producción de vLLM, una implementación de referencia de código abierto para todo el clúster, diseñada para optimizar grandes cargas de trabajo de inferencia de modelos de lenguaje (LLM). Esta colaboración es crucial mientras la comunidad de IA se prepara para reunirse en la conferencia GTC 2025. Al combinar el backend avanzado de almacenamiento de clave-valor (KV) de Pliops con la robusta arquitectura de la pila de producción vLLM, la colaboración establece un nuevo estándar de rendimiento, eficiencia y escalabilidad en IA.

Junchen Jiang, director del Laboratorio LMCache de la Universidad de Chicago, destacó el potencial de la colaboración, destacando su capacidad para mejorar la eficiencia y el rendimiento de la inferencia LLM. La solución conjunta ofrece capacidades avanzadas de búsqueda y recuperación de vectores al introducir un nuevo nivel de memoria a escala de petabytes por debajo de la memoria de alto ancho de banda (HBM). Las cachés KV calculadas se retienen y recuperan eficientemente mediante almacenamiento inteligente desagregado, lo que acelera la inferencia vLLM.

Para obtener una introducción a Pliops, consulte nuestra artículo de análisis profundo.

Acerca de KVCache

La mayoría de los modelos de lenguaje grandes utilizan arquitecturas de transformadores, que se basan en mecanismos de atención que incluyen matrices de consulta, clave y valor. Al generar tokens secuencialmente, los transformadores calculan la atención repetidamente, lo que requiere el recálculo de las matrices de clave y valor (KV) previas, lo que aumenta el coste computacional. El almacenamiento en caché de KV soluciona este problema almacenando las matrices KV previamente calculadas, lo que permite su reutilización en predicciones de tokens posteriores y mejora significativamente la eficiencia y el rendimiento de la generación.

Sin embargo, esto presenta nuevos desafíos. Las cachés KV pueden alcanzar un tamaño considerable, especialmente durante generaciones largas o inferencias por lotes, con tamaños de lote típicos de 32, lo que eventualmente supera la memoria disponible. Para abordar esta limitación, un backend de almacenamiento de caché KV se vuelve esencial.

Pliops XDP LightningAI

La implementación de XDP LightningAI de Pliops en centros de datos representa un cambio radical en la rentabilidad, ofreciendo ahorros sustanciales en comparación con las arquitecturas tradicionales. Al incorporar servidores XDP LightningAI dedicados a la infraestructura existente, las organizaciones pueden lograr ahorros notables, incluyendo una optimización del 67 % del espacio en rack, una reducción del 66 % en el consumo de energía, un ahorro anual del 58 % en gastos operativos y una disminución del 69 % en los costos de inversión inicial.

Pliops continúa avanzando con su procesador de datos extremo (XDP), el ASIC XDP-PRO, complementado con una completa pila de software de IA y nodos distribuidos. Mediante una interfaz de E/S clave-valor iniciada por GPU, esta solución permite una escalabilidad y un rendimiento sin precedentes. XDP LightningAI de Pliops ofrece mejoras sustanciales de rendimiento de extremo a extremo, logrando hasta 8 veces más en la inferencia vLLM, acelerando significativamente las cargas de trabajo de IA generativa (GenAI). Con la integración de tendencias vanguardistas del sector como DeepSeek, Pliops garantiza una sólida adaptabilidad para futuros desarrollos de IA.

Pliops presentó estos avances en AI DevWorld, destacando cómo XDP LightningAI revoluciona el rendimiento de LLM al reducir significativamente la potencia computacional y el coste. Esta demostración ilustró el compromiso de Pliops con la innovación sostenible en IA a escala empresarial.

Colaboración continua

Pliops posiciona a las organizaciones para maximizar el potencial de los conocimientos impulsados ​​por IA y mantener una ventaja competitiva en un panorama tecnológico en rápida evolución al brindar acceso instantáneo a datos procesables y garantizar una ruta de integración perfecta.

La hoja de ruta futura para la colaboración incluye la integración esencial de la pila KV-IO de Pliops en la pila de producción, progresando hacia capacidades avanzadas como almacenamiento en caché rápido en conversaciones de múltiples turnos, descarga de caché KV escalable y estrategias de enrutamiento optimizadas.

pliops

Interactuar con StorageReview

Boletín | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed