Meta tiene una excelente razón para lanzar una variante gigantesca de Llama 4: la capacidad de especialización

Publicado el 07/04/2025 por Diario Tecnología

Artículo original

Meta anunció el pasado sábado el lanzamiento de Llama 4, su nueva familia de modelos Open Source de IA. La empresa saca pecho con tres variantes multimodales y una especialmente llamativa por ser absolutamente descomunal en tamaño. Pero lo es por una buena razón.

Hola, Llama 4. Ha pasado casi un año desde que Meta anunciara Llama 3, y su nueva familia de modelos llega con tres variantes distintas:

Llama 4 Scout: el más "pequeño", que compite con Gemma 3, Gemini 2.0 Flash-Lite y Mistral 3.1.
Llama 4 Maverick: compite con GPT-4o, Gemini 2.0 Flash y DeepSeek v3
Llama 4 Behemoth: un absoluto monstruo que según Meta supera a GPT-4.5, Gemini 2.0 y Claude 3.7 en diversos benchmarks. Este último no está demomento disponible públicamente.

Ventana de contexto alucinante. Estos modelos ofrecen una ventana de contexto de 10 millones de tokens, algo sencillamente espectacular. Eso significa que podremos introducir una gigantesca cantidad de datos como entrada (prompt), por ejemplo repositorios enormes de código sobre los cuales trabajar directamente.

En Xataka

“La IA es imparable”: el CEO de Freepik nos habla de IA, emprendimiento y de los errores de una UE que solo se fija en los peligros de la IA

Mixture-of-Experts. Estos modelos usan la arquitectura Mixture-of-Experts que ya aprovechó por ejemplo DeepSeek. Como explicamos entonces, esto permite dividir el modelo en "expertos" que activa según el tipo de petición. Eso mejora la eficiencia y ha demostrado ser una técnica fantástica para que los modelos se comporten de forma óptima con mucho menos consumo de recursos. Scout tiene 16 expertos y Maverick tiene 128. Este tipo de arquitectura además favorece la fase de inferencia, o lo que es lo mismo: los modelos responderán de forma no solo eficiente, sino veloz y fluida.

Llama 4 Behemoth, el "profesor de modelos". Aun no está disponible, pero esta variante es absolutamente descomunal y cuenta con dos billones de parámetros (2T en inglés), cuando Llama 3, que era enorme (405B) era un modelo cinco veces más pequeño. DeepSeek R1 tiene 671.000 millones de parámetros, tres veces menos que Llama 4 Behemoth. La clave de este modelo es que sirve como "profesor" para variantes más pequeñas y, sobre todo, especializadas.

La tabla comparativa de Llama 4 con respecto a algunos de sus rivales.

Especialización. Esa variante además es candidata perfecta para ser "destilada" y a partir de ella obtener modelos mucho más pequeños pero igualmente capaces que "aprenden" de ese "profesor de modelos" que es Llama 4, pero adaptándose a ámbitos y escenarios más concretos y en los que puedan destacar.

Y menos censura. El generador de imágenes de OpenAI ya dio un giro de 180º y aplica mucha menos censura inspirado por Grok 3. Meta hace lo mismo con Llama 4, que según la empresa se ha vuelto "responde con una fuerte inclinación política a una tasa comparable a Grok en un conjunto polémico de temas políticos o sociales". Así pues, tenemos un modelo algo menos "políticamente correcto".

Por ahora resultados discutibles. Aunque el modelo parece puntuar muy bien en benchmarks, expertos como Simon Willinson lo han probado y aseguran que sus primeras impresiones no son especialmente destacables. Gemini 2.5 Pro parece comportarse mucho mejor en una de las pruebas que realizó al resumir y analizar un texto. Sin embargo con Llama 3 pasó algo similar, y tanto Llama 3.1 como Llama 3.2 mejoraron notablemente su comportamiento.

Ya se pueden probar. Llama 4 ya está disponible en WhatsApp, Instagram, Facebook o la web de Meta AI. Y una vez más Meta ofrece a los expertos la posibilidad de descargarlo, aunque necesitaréis básicamente un cluster con mucha, mucha memoria para poder ejecutarlos en local. También están ya disponibles en HuggingFace.

Y pronto "razonará". Mark Zuckerberg indicó en su cuenta de Instagram que además de estos modelos, el mes que viene veremos un modelo llamado Llama 4 Reasoning que será el primer modelo de razonamiento de la compañía. Es una variante especialmente interesante, sobre todo a la hora de competir con DeepSeek R1 (y su sucesor, que aparecerá pronto).

Imágenes | Meta

En Xataka | Las grandes tecnológicas se han empeñado en algo este año: que terminemos hablando con una IA

utm_campaign=07_Apr_2025"> Javier Pastor .

Descarga la app de Diario Tecnología

Últimos posts

Contacto

info@diariotecnologia.es