StorageReview.com

WEKA integra NeuralMesh con NVIDIA STX para solucionar los cuellos de botella de memoria en la inferencia de IA.

AI  ◇  Empresa

WEKA anunció la integración de su Malla neuronal La plataforma, junto con la arquitectura de referencia NVIDIA STX, posiciona su Augmented Memory Grid como un componente clave para la infraestructura de IA de próxima generación. Esta solución combinada aborda una de las principales limitaciones en entornos de inferencia a gran escala: las restricciones de memoria que afectan el rendimiento, el costo y la escalabilidad.

La arquitectura de memoria aumentada de WEKA, que se ejecuta en NeuralMesh, extiende la memoria de la GPU externalizando y persistiendo la caché de clave-valor. En las implementaciones de NVIDIA STX, esta arquitectura admite el almacenamiento de memoria de contexto de alto rendimiento para cargas de trabajo de IA agentes, lo que permite el razonamiento de contexto largo a través de sesiones, herramientas y flujos de trabajo. La empresa afirma que las configuraciones que aprovechan NVIDIA Vera Rubin NVL72 Los sistemas, las DPU BlueField-4 y la interfaz Ethernet Spectrum-X pueden aumentar el rendimiento de los tokens de memoria de contexto entre 4 y 10 veces. Se espera que la plataforma también ofrezca un rendimiento de lectura de al menos 320 GB/s y de escritura de 150 GB/s, lo que duplica con creces el rendimiento de los sistemas de almacenamiento de IA convencionales.

NVIDIA Vera Rubin NVL72 parte superior abierta

La infraestructura de memoria se convierte en el cuello de botella de la inferencia.

WEKA centra la integración en una limitación cada vez mayor en las implementaciones de IA: la escasez de memoria. En los sistemas de inferencia modernos, la memoria de alto ancho de banda limitada en las GPU provoca frecuentes desalojos de la caché de clave-valor, lo que conlleva recálculos y una menor eficiencia. A medida que aumenta la concurrencia, estas ineficiencias se acumulan, elevando los costes de infraestructura y reduciendo la previsibilidad del sistema.

La empresa aboga por una infraestructura de caché KV compartida como solución. Al mantener un contexto persistente entre usuarios y sesiones, la caché compartida elimina los cálculos redundantes y estabiliza el rendimiento de los tokens. NVIDIA STX Proporciona una arquitectura de referencia para implementar este modelo, con WEKA proporcionando la capa de extensión de almacenamiento y memoria.

Arquitectura de malla neuronal y cuadrícula de memoria aumentada

NeuralMesh funciona como la plataforma de almacenamiento distribuido de WEKA, diseñada para operar en toda la pila NVIDIA STX. El sistema proporciona servicios de datos de alto rendimiento adaptados a las cargas de trabajo de IA, mientras que Augmented Memory Grid funciona como una capa de extensión de memoria dedicada que agrupa la caché KV fuera de la memoria de la GPU.

Gráfico de la cuadrícula de memoria aumentada WEKA

Este enfoque permite que los entornos de inferencia mantengan sesiones de contexto prolongado sin agotar los recursos de la GPU. Al preservar el estado de la caché y permitir su reutilización en diferentes cargas de trabajo, la plataforma busca mantener una alta utilización y un rendimiento constante a medida que las implementaciones escalan.

WEKA informa que Augmented Memory Grid, presentado inicialmente en GTC 2025 y ahora disponible para el público general, ha sido validado en plataformas de CPU NVIDIA Grace con DPU BlueField. La arquitectura ofrece mejoras significativas en la eficiencia de inferencia, incluyendo un tiempo de respuesta al primer token considerablemente menor, un mayor rendimiento de tokens por GPU y un rendimiento sostenido a medida que aumenta la concurrencia. La descarga de la ruta de datos de almacenamiento a BlueField-4 reduce aún más la sobrecarga de la CPU y minimiza los cuellos de botella de E/S.

Mejoras en el rendimiento y la eficiencia

En entornos de producción, la plataforma está diseñada para mejorar la capacidad de respuesta y la eficiencia de la infraestructura. WEKA indica que Augmented Memory Grid puede reducir el tiempo de obtención del primer token entre 4 y 20 veces, al tiempo que aumenta la producción de tokens por GPU hasta 6.5 ​​veces. Estas mejoras se deben a mayores tasas de aciertos de caché KV y a una menor recálculo, lo que permite que los sistemas mantengan el rendimiento a medida que aumentan las ventanas de contexto y el número de usuarios.

Firmus, proveedor de infraestructura de IA, es uno de los primeros en adoptar NeuralMesh utilizando infraestructura alineada con NVIDIA. La compañía reporta un mejor rendimiento en el procesamiento de tokens y una latencia reducida a gran escala, atribuyendo estas mejoras a un uso más eficiente de los recursos de GPU existentes en lugar de una expansión del hardware.

Implicaciones para el diseño de infraestructuras de IA

Esta integración pone de manifiesto un cambio en la arquitectura de los sistemas de IA, donde el diseño de la memoria y el almacenamiento influye cada vez más en el rendimiento general y la rentabilidad. A medida que se expanden las cargas de trabajo de IA agente y aumentan las ventanas de contexto, los enfoques basados ​​únicamente en DRAM se vuelven menos viables debido al creciente coste computacional y a la infrautilización de las GPU.

WEKA posiciona la caché KV persistente y compartida como una capacidad fundamental para las fábricas de IA. Las organizaciones que adoptan este modelo pueden mantener una mayor utilización de la GPU, reducir el consumo de energía por tarea de inferencia y lograr características de escalado más predecibles. Por el contrario, los entornos que siguen dependiendo exclusivamente de la memoria GPU local probablemente enfrentarán costos operativos crecientes y rendimientos decrecientes a medida que aumente la carga de trabajo.

Disponibilidad

La red de memoria aumentada de WEKA está disponible generalmente como parte de la plataforma NeuralMesh.

Interactuar con StorageReview

Boletín informativo | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed

harold fritts

He estado en la industria de la tecnología desde que IBM creó Selectric. Mi experiencia, sin embargo, es la escritura. Así que decidí dejar el negocio de preventa y volver a mis raíces, escribir un poco pero seguir involucrado en tecnología.