Los modelos de IA de Google Gemma 3 y AMD Instella elevan las capacidades de IA multimodal y empresarial, reformulando los estándares de rendimiento de IA.
Google y AMD han anunciado importantes avances en inteligencia artificial. Google presentó Gemma 3, la última generación de su serie de modelos de IA de código abierto. Simultáneamente, AMD anunció la integración con la Plataforma Abierta para IA Empresarial (OPEA) y lanzó sus modelos de lenguaje Instella.
Gemma 3 de Google: Eficiencia de IA multimodal con hardware mínimo
El lanzamiento de Gemma 12 el 3 de marzo se basa en el éxito de Gemma 2. El nuevo modelo introduce capacidades multimodales, soporte multilingüe y una eficiencia mejorada, lo que permite un rendimiento de IA avanzado incluso en hardware limitado.
Gemma 3 está disponible en cuatro tamaños: parámetros 1B, 4B, 12B y 27B. Cada variante está disponible en versiones base (preentrenada) y optimizada para instrucciones. Los modelos más grandes (4B, 12B y 27B) ofrecen funcionalidad multimodal, procesando texto, imágenes y vídeos cortos sin problemas. El codificador de visión SigLIP de Google convierte las entradas visuales en tokens interpretables por el modelo de lenguaje, lo que permite a Gemma 3 responder preguntas basadas en imágenes, identificar objetos y leer texto incrustado.
Gemma 3 también amplía significativamente su ventana de contexto, admitiendo hasta 128,000 2 tokens, en comparación con los 80,000 3 de Gemma 140. Esto permite que el modelo gestione más información en una sola solicitud. Además, Gemma XNUMX admite más de XNUMX idiomas, lo que mejora la accesibilidad global.
Clasificación de LMSYS Chatbot Arena
Gemma 3 ha emergido rápidamente como un modelo de IA de alto rendimiento en Arena de chatbots LMSYS, un punto de referencia que evalúa modelos lingüísticos de gran tamaño según las preferencias humanas. Gemma-3-27B obtuvo una puntuación Elo de 1338, ocupando el noveno puesto a nivel mundial. Esto lo sitúa por delante de competidores destacados como DeepSeek-V3 (1318), Llama3-405B (1257), Qwen2.5-72B (1257), Mistral Large y los modelos Gemma 2 anteriores de Google.
AMD fortalece la IA empresarial con la integración de OPEA
AMD anunció su soporte para la Plataforma Abierta para IA Empresarial (OPEA) el 12 de marzo de 2025. Esta integración conecta el marco OPEA GenAI con la pila de software ROCm de AMD, lo que permite a las empresas implementar de manera eficiente aplicaciones de IA generativa escalables en las GPU de centros de datos de AMD.
La colaboración aborda los principales desafíos de la IA empresarial, como la complejidad de la integración de modelos, la gestión de recursos de la GPU, la seguridad y la flexibilidad del flujo de trabajo. Como miembro del comité directivo técnico de OPEA, AMD colabora con líderes del sector para impulsar soluciones de IA generativa componibles que se puedan implementar en entornos de nube pública y privada.
OPEA proporciona componentes esenciales para aplicaciones de IA, incluyendo flujos de trabajo prediseñados, funciones de evaluación, modelos de incrustación y bases de datos vectoriales. Su arquitectura nativa de la nube y basada en microservicios garantiza una integración fluida mediante flujos de trabajo basados en API.
AMD lanza Instella: modelos de lenguaje de parámetros 3B totalmente abiertos
AMD también presentó Instella, una familia de modelos de lenguaje de 3 mil millones de parámetros y código totalmente abierto desarrollados íntegramente en hardware AMD.
Innovaciones técnicas y enfoque de formación
Los modelos Instella emplean una arquitectura de transformador autorregresivo de solo texto con 36 capas de decodificación y 32 cabezales de atención por capa, que admiten secuencias de hasta 4,096 tokens. Los modelos utilizan un vocabulario de aproximadamente 50,000 XNUMX tokens a través del tokenizador OLMo.
Tras un proceso de varias etapas, el entrenamiento se realizó en 128 GPU AMD Instinct MI300X en 16 nodos. El preentrenamiento inicial involucró aproximadamente 4.065 billones de tokens de diversos conjuntos de datos que abarcaban programación, estudios académicos, matemáticas y conocimientos generales. Una segunda etapa de preentrenamiento perfeccionó las capacidades de resolución de problemas utilizando 57.575 millones de tokens adicionales de benchmarks especializados como MMLU, BBH y GSM8k.
Tras el preentrenamiento, Instella se sometió a un ajuste fino supervisado (SFT) con 8.9 millones de tokens de datos de instrucción-respuesta seleccionados, lo que mejoró sus capacidades interactivas. Una fase final de Optimización de Preferencias Directas (DPO) alineó el modelo con las preferencias humanas, utilizando 760 millones de tokens de datos cuidadosamente seleccionados.
Rendimiento de referencia impresionante
Los resultados de las pruebas de referencia destacan las notables mejoras de rendimiento de Instella. El modelo superó a los modelos completamente abiertos existentes por un margen promedio de más del 8%, con resultados impresionantes en pruebas de referencia como ARC Challenge (+8.02%), ARC Easy (+3.51%), Winograde (+4.7%), OpenBookQA (+3.88%), MMLU (+13.12%) y GSM8k (+48.98%).
A diferencia de los principales modelos de peso abierto, como Llama-3.2-3B y Gemma-2-2B, Instella demostró un rendimiento superior o altamente competitivo en múltiples tareas. La variante optimizada por instrucciones, Instella-3B-Instruct, mostró ventajas significativas sobre otros modelos totalmente abiertos optimizados por instrucciones, con una ventaja promedio de rendimiento superior al 14 %, a la vez que obtuvo un rendimiento competitivo frente a los principales modelos de peso abierto optimizados por instrucciones.
Versión y disponibilidad completa de código abierto
En consonancia con el compromiso de AMD con los principios de código abierto, la compañía ha publicado todos los artefactos relacionados con los modelos Instella, incluyendo ponderaciones de los modelos, configuraciones de entrenamiento detalladas, conjuntos de datos y código. Esta transparencia total permite a la comunidad de IA colaborar, replicar e innovar con estos modelos.
Conclusión
Estos anuncios de Google y AMD preparan el terreno para un año emocionante en innovación en IA. El impulso de la industria es evidente, con Gemma 3 redefiniendo la eficiencia multimodal, y los modelos Instella de AMD y la integración con OPEA impulsando la IA empresarial. A medida que nos acercamos a la conferencia GTC de NVIDIA y anticipamos nuevos lanzamientos innovadores, es evidente que estos desarrollos son solo el comienzo de lo que está por venir.
Interactuar con StorageReview
Boletín | YouTube | Podcast iTunes/Spotify | Instagram | Twitter | TikTok | RSS Feed