Los modelos de IA estaban cada vez más empatados, pero esta nueva forma de evaluarlos deja claro que GPT-4 es el rey

Publicado el 26/04/2024 por Diario Tecnología

Artículo original

En el campo de la inteligencia artificial, poder evaluar de manera fiable los modelos de lenguaje natural (la categoría en la que entran GPT-4, LLaMa-3 o Claude 3) resulta crucial para determinar su capacidad y precisión. Sin embargo, la creación de un benchmark (conjunto de pruebas) de alta calidad para evaluar estos modelos resulta ser todo un desafío.

Los benchmarks actuales para chatbots de lenguaje natural tienen varias limitaciones. Por ejemplo, muchos de ellos son estáticos o limitados a cuestionarios de opción múltiple, y no reflejan la complejidad y variedad de las conversaciones humanas. Además, estos benchmarks no pueden separar claramente las capacidades de los modelos, lo que hace que sea difícil determinar cuál es mejor en cada caso.

Llega el momento del desempate

En respuesta a esto, LMSYS ha desarrollado 'Arena-Hard', una nueva metodología para generar benchmarks de alta calidad a partir de datos en tiempo real, recopilados a través de una plataforma de crowdsourcing (es decir, en la que los usuarios aportan sus valoraciones), que permiten evaluar las capacidades de los modelos.

En Genbeta

Anthropic lanza Claude 3 y promete lograr lo que parecía imposible: ser superior a GPT-4 en muchas pruebas

El lanzamiento de Arena-Hard ha generado un amplio interés en la comunidad IA debido a que, a diferencia de los test anteriores (donde los resultados tendían a ser muy homogéneos, generando empates múltiples en las primeras posiciones), Arena-Hard ha aumentado su capacidad discriminativa, facilitando así identificar claramente qué modelos son superiores...

En comparación con el MT Bench, que sólo mostraba leves diferencias entre los modelos de IA, la capacidad discriminatoria de Arena-Hard ha aumentado del 22,6% al 87,4%, visibilizando mejor la potencia de cada modelo. (Vía LMSYS.org)

...evitando así que el trono de los chatbots cambie cada poco tiempo, cada vez que se introducen leves actualizaciones.

El proceso de elaboración de Arena-Hard consta de varias etapas:

Selección de prompts: se seleccionan prompts de alta calidad que cubren una amplia gama de temas y estilos de lenguaje.
Evaluación de la calidad: se evalúa la calidad de cada prompt utilizando un conjunto de criterios, como la especificidad, el conocimiento del dominio y la creatividad.
Selección de modelos: se seleccionan modelos de lenguaje natural para evaluar su capacidad de responder a los prompts.
Evaluación de los modelos: se evalúa la capacidad de cada modelo para responder a los prompts, utilizando un conjunto de métricas, como la precisión y la fluidez.

A su vez, Arena-Hard ofrece varias ventajas sobre otros benchmarks actuales:

Flexibilidad: Arena-Hard puede adaptarse a diferentes estilos de lenguaje y dominios.
Calidad: los prompts de Arena-Hard son de alta calidad y cubren una amplia gama de temas.
Precisión: Arena-Hard es más preciso y confiable que otros benchmarks actuales.

Imagen | Marcos Merino mediante IA

En Genbeta | "Hizo algo que nunca antes había visto". Esta IA está sorprendiendo con una reacción que muchos ven como un signo de autoconsciencia

Descarga la app de Diario Tecnología

Últimos posts

Contacto

info@diariotecnologia.es