IBM presentó una arquitectura de almacenamiento sensible al contenido (CAS) que integra el procesamiento de datos de IA directamente en la capa de almacenamiento. Este enfoque está dirigido a flujos de trabajo de generación aumentada por recuperación (RAG) mediante la integración de la vectorización de documentos dentro del sistema de almacenamiento, lo que reduce la necesidad de procesos de preprocesamiento externos.
CAS traslada una función esencial de RAG, la incrustación de documentos mediante técnicas basadas en modelos de lenguaje a gran escala, a la infraestructura de almacenamiento. Esto permite a las empresas procesar e indexar datos in situ, alineando los sistemas de almacenamiento con las cargas de trabajo impulsadas por IA y reduciendo el movimiento de datos entre los distintos niveles de infraestructura. IBM presenta esta solución como una forma de simplificar la implementación, a la vez que mejora el rendimiento y la localización de datos para las aplicaciones de IA.
Base de datos de vectores a escala
La implementación de CAS de IBM se basa en una base de datos vectorial optimizada para la búsqueda semántica. Estas bases de datos permiten la búsqueda aproximada del vecino más cercano, lo que posibilita que los sistemas de IA recuperen fragmentos de datos relevantes según métricas de similitud como la similitud del coseno o la distancia L2. Esta capacidad es fundamental para RAG, donde las consultas de los usuarios se convierten en vectores y se comparan con datos empresariales indexados para proporcionar respuestas contextualizadas.

Fuente: IBM
IBM Research, en colaboración con Samsung y NVIDIA, presentó un prototipo de sistema capaz de procesar hasta 100 mil millones de vectores en un solo servidor. El sistema alcanzó una precisión y exhaustividad superiores al 90 %, con una latencia de consulta promedio inferior a 700 milisegundos. Esta escala está diseñada para entornos empresariales donde los conjuntos de datos pueden abarcar miles de millones de archivos y, una vez indexados por completo, alcanzar cientos de miles de millones de vectores.
Integración de la tubería RAG
RAG se está consolidando como el enfoque preferido para la IA empresarial, ya que mejora la precisión de los resultados sin necesidad de reentrenar el modelo. Su funcionamiento se basa en complementar las indicaciones con datos específicos de la empresa, obtenidos de una base de datos vectorial.
El proceso comienza con la ingesta de datos, donde documentos como PDF y presentaciones se analizan, se dividen en fragmentos y se convierten en incrustaciones. Estas incrustaciones se almacenan en una base de datos vectorial que organiza los datos para una búsqueda de similitud eficiente. Durante la consulta, la entrada del usuario se incrusta y se compara con los vectores almacenados, y el contenido relevante se pasa al modelo de lenguaje como contexto. Este mecanismo de contextualización reduce las ilusiones y mejora la confianza en los resultados generados por la IA.
La solución CAS de IBM integra este proceso directamente en el almacenamiento, consolidando la ingesta, la indexación y la recuperación más cerca de los datos.
Cómo abordar los desafíos de escala y costo
Los sistemas de almacenamiento empresarial ya operan a escala de petabytes. Al extenderse a CAS, cada archivo puede generar cientos de vectores, lo que aumenta rápidamente el tamaño del conjunto de datos. Las bases de datos vectoriales tradicionales suelen escalarse a través de múltiples servidores, lo que genera costos y complejidad operativa. La indexación y reindexación de grandes conjuntos de datos también consume mucho tiempo.
El enfoque de IBM se centra en mejorar la densidad de vectores y reducir la sobrecarga de indexación para limitar la expansión de la infraestructura. La arquitectura desacopla el almacenamiento de vectores e índices del procesamiento de consultas, lo que permite escalar de forma independiente los recursos de almacenamiento y procesamiento. Esto es posible gracias a IBM Storage Scale y su sistema de archivos paralelo de alto rendimiento.
Arquitectura de almacenamiento y hardware
La implementación de CAS aprovecha el Sistema de escala de almacenamiento IBM 6000 (ESS 6000), una plataforma totalmente flash diseñada para IA y cargas de trabajo de alto rendimiento. El sistema admite hasta 48 unidades NVMe por gabinete 4U, con capacidades que van desde 7 TB hasta 60 TB por unidad. Integra conectividad PCIe Gen5, InfiniBand de 400 Gb o Ethernet de 200 Gb y ofrece un rendimiento de lectura de hasta 340 GB/s y de escritura de hasta 175 GB/s por nodo, con hasta 7 millones de IOPS.
La plataforma también es compatible Almacenamiento NVIDIA GPUDirect, Esto permite establecer rutas de datos directas entre el almacenamiento y las GPU, así como utilizar las DPU BlueField-3 para descargar el procesamiento de datos y de red.
Las unidades SSD NVMe PCIe Gen5 Samsung PM9D3a ofrecen almacenamiento de alta densidad y alto rendimiento. Basadas en la memoria V-NAND TLC de octava generación, estas unidades ofrecen hasta 30.72 TB por dispositivo, con velocidades de lectura secuencial de hasta 12 GB/s y de escritura de hasta 6.8 GB/s. El uso de unidades SSD empresariales disponibles comercialmente permite que la arquitectura se adapte a las necesidades del usuario mediante componentes estándar.
Indexación jerárquica y aceleración por GPU
Para abordar la indexación a gran escala, IBM desarrolló un modelo de indexación jerárquica que comprende múltiples subíndices que pueden optimizarse de forma independiente. Esta estructura permite actualizaciones incrementales y reindexaciones localizadas sin interrumpir el conjunto de datos completo, lo que mejora tanto la disponibilidad como la eficiencia operativa.
La aceleración por GPU reduce significativamente el tiempo de indexación en comparación con los métodos que solo utilizan CPU. Tareas que tardarían horas en CPU se pueden completar en minutos con GPU NVIDIA. En las pruebas, la creación de índices para 100 mil millones de vectores tardó 4 días con 6 GPU NVIDIA H200, en comparación con los 120 días estimados en un sistema con CPU de doble socket.
El conjunto de datos completo, incluyendo vectores e índices, consumió aproximadamente 153 TiB de almacenamiento. La carga y partición inicial de los datos tardó nueve días. El sistema resultante ofreció una latencia de consulta promedio de 694 ms con una recuperación del 90 %, validada mediante cálculos de referencia por fuerza bruta.
Roadmap
IBM y NVIDIA siguen optimizando la plataforma, centrándose en reducir la latencia de indexación y consulta. Los objetivos actuales incluyen indexar 100 mil millones o más de vectores en un día, reducir el tiempo de ingesta de datos de nueve días a un día y disminuir la latencia de consulta al rango de 50 a 100 milisegundos manteniendo una recuperación del 90 por ciento.
La integración de la indexación vectorial en los sistemas de archivos estándar busca simplificar la implementación y reducir las barreras para la adopción de la IA en las empresas. Al incorporar capacidades RAG directamente en el almacenamiento, IBM posiciona a CAS como una capa fundamental para la infraestructura habilitada para IA.




Amazon