Llama 4 de Meta llegó con unos resultados increíbles en los benchmarks de IA. El problema: tenían letra pequeña
Publicado el 08/04/2025 por Diario Tecnología Artículo original
Este sábado Meta lanzó sus nuevos modelos de Llama 4: Scout y Maverick. La compañía destacó entre sus principales avances la capacidad de comprensión visual mejorada, que busca ofrecer una experiencia más personalizada. La atención se centró especialmente en Maverick, que prometía superar a competidores como GPT-4o y Gemini, según los primeros resultados publicados por la plataforma de referencia LMArena.
LMArena evalúa modelos de lenguaje de manera sencilla, pero efectiva: diferentes IA responden a una misma pregunta y, posteriormente, una persona valora cuál es la mejor respuesta. Es, en esencia, un enfrentamiento directo entre inteligencias artificiales en una arena virtual, del que sale una puntuación que genera el ránking global.
La valoración del modelo enviado con Meta no se correspondía con la realidad
Según Meta, Maverick obtuvo una puntuación de 1.417 puntos, colocándose rápidamente en segunda posición, por delante de GPT-4o y Gemini 2.5 Pro. Sin embargo, las cosas comenzaron a desmoronarse cuando los investigadores analizaron la documentación de Meta donde se refleja:
Llama 4 Maverick ofrece la mejor relación rendimiento-costo de su clase con una versión de chat experimental con puntuación ELO de 1417 en LMArena.

Esto reveló que el modelo evaluado no era el mismo que Meta había puesto a disposición de los usuarios, sino una versión experimental optimizada específicamente para destacar en las preferencias humanas. Dicho de otro modo, el modelo había sido ajustado para ofrecer respuestas más atractivas a los evaluadores humanos.
Desde LMArena reaccionaron rápidamente mediante un comunicado en X, donde aclararon:
La interpretación de Meta de nuestra política no coincidió con lo que esperábamos de los proveedores de modelos. Meta debería haber aclarado que "Llama-4-Maverick-03-26-Experimental" era un modelo personalizado para optimizar las preferencias humanas.
Además, anunciaron que están trabajando en actualizar sus políticas para evitar que confusiones como esta vuelvan a producirse en futuras clasificaciones.
Hubo muchas dudas en torno a Llama 4. Tras el lanzamiento de este nuevo modelo, en redes sociales no tardaron en surgir rumores acerca de que Meta había hecho las manipulaciones oportunas para que destacara en los puntos de referencia. Algo que desde la compañía desmintieron rápidamente explicando que:
"También hemos escuchado afirmaciones de que entrenamos en conjuntos de prueba, eso simplemente no es cierto y nunca lo haríamos. Nuestro mejor entendimiento es que la calidad variable que la gente está viendo se debe a la necesidad de estabilizar las implementaciones".
Otro punto importante también en torno a Llama 4 es precisamente el día elegido para lanzarlo como es un sábado, cuando puede no tener demasiada repercusión. Algo a lo que Mark Zuckerberg respondió con un escueto "fue cuando estaba listo".
Lo que está claro es que la importancia de los benchmarks está llevando a las grandes compañías a competir ferozmente por destacar en estas clasificaciones. No es para menos: en un mercado saturado de modelos de IA, estos rankings se han convertido en una herramienta fundamental para posicionarse por encima de la competencia.
Portada | Generada con GPT-4o
En Genbeta | DeepSeek en local era justo lo que buscaba: una inteligencia artificial de calidad, privada y sin suscripciones
utm_campaign=08_Apr_2025"> José Alberto Lizana .