Meta continúa su innovación en IA a través de inversiones estratégicas en infraestructura de hardware, crucial para el avance de las tecnologías de IA. La compañía reveló recientemente detalles sobre dos iteraciones de su clúster de escala de centro de datos de 24,576 GPU, que es fundamental para impulsar los modelos de inteligencia artificial de próxima generación, incluido el desarrollo de Llama 3.
Meta continúa su innovación en IA a través de inversiones estratégicas en infraestructura de hardware, crucial para el avance de las tecnologías de IA. La compañía reveló recientemente detalles sobre dos iteraciones de su clúster de escala de centro de datos de 24,576 GPU, que es fundamental para impulsar los modelos de inteligencia artificial de próxima generación, incluido el desarrollo de Llama 3. Esta iniciativa es la base de la visión de Meta de generar sistemas abiertos y construidos de manera responsable. Inteligencia artificial general (AGI) accesible para todos.

Foto cortesía de META Ingeniería
En su viaje en curso, Meta ha perfeccionado su AI Research SuperCluster (RSC), presentado inicialmente en 2022, con 16,000 GPU NVIDIA A100. El RSC ha sido fundamental para promover la investigación de la IA abierta y fomentar la creación de modelos de IA sofisticados con aplicaciones que abarcan muchos dominios, incluida la visión por computadora, el procesamiento del lenguaje natural (PLN), el reconocimiento de voz y más.
Aprovechando los éxitos del RSC, los nuevos grupos de IA de Meta mejoran el desarrollo de sistemas de IA de extremo a extremo con énfasis en optimizar la experiencia de investigadores y desarrolladores. Estos clústeres integran 24,576 GPU NVIDIA Tensor Core H100 y aprovechan las estructuras de red de alto rendimiento para admitir modelos más complejos de lo que antes era posible, estableciendo un nuevo estándar para el desarrollo y la investigación de productos GenAI.
La infraestructura de Meta es muy avanzada y adaptable, y maneja cientos de billones de ejecuciones de modelos de IA diariamente. El diseño personalizado de hardware y estructuras de red garantiza un rendimiento optimizado para los investigadores de IA al tiempo que mantiene operaciones eficientes del centro de datos.
Se han implementado soluciones de red innovadoras, incluido un clúster con acceso remoto directo a memoria (RDMA) sobre Ethernet convergente (RoCE) y otro con tejido NVIDIA Quantum2 InfiniBand, ambos con capacidad de interconexiones de 400 Gbps. Estas tecnologías permiten obtener conocimientos sobre escalabilidad y rendimiento cruciales para el diseño de futuros clústeres de IA a gran escala.

Grand Teton presentado durante OCP 2022
Grand Teton de Meta, una plataforma de hardware GPU abierta diseñada internamente, contribuye al Open Compute Project (OCP) y encarna años de desarrollo de sistemas de IA. Combina interfaces de energía, control, computación y estructura en una unidad cohesiva, lo que facilita una rápida implementación y escalamiento dentro de entornos de centros de datos.
Para abordar el papel crítico pero poco discutido del almacenamiento en el entrenamiento de IA, Meta ha implementado una API personalizada de sistema de archivos Linux en el espacio de usuario (FUSE) respaldada por una versión optimizada de la solución de almacenamiento distribuido 'Tectonic'. Esta configuración, junto con el sistema de archivos de red paralelo (NFS) desarrollado conjuntamente por Hammerspace, proporciona una solución de almacenamiento escalable y de alto rendimiento esencial para manejar las enormes demandas de datos de los trabajos de capacitación de IA multimodal.
La plataforma de servidor YV3 Sierra Point de Meta, respaldada por las soluciones Tectonic y Hammerspace, subraya la dedicación de la empresa al rendimiento, la eficiencia y la escalabilidad. Esta previsión garantiza que la infraestructura de almacenamiento pueda satisfacer las demandas actuales y escalar para adaptarse a las crecientes necesidades de futuras iniciativas de IA.
A medida que los sistemas de IA crecen en complejidad, Meta continúa su innovación de código abierto en hardware y software, contribuyendo significativamente a OCP y PyTorch, promoviendo así el avance colaborativo dentro de la comunidad de investigación de IA.
Los diseños de estos grupos de entrenamiento de IA son parte integral de la hoja de ruta de Meta, cuyo objetivo es expandir su infraestructura con la ambición de integrar 350,000 GPU NVIDIA H100 para fines de 2024. Esta trayectoria destaca el enfoque proactivo de Meta para el desarrollo de infraestructura, preparado para satisfacer las demandas dinámicas de futuras investigaciones y aplicaciones de la IA.
Interactuar con StorageReview
Boletín | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed