Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil

Publicado el 26/12/2024 por Diario Tecnología
Artículo original

Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil

El modelo o3 de OpenAI es demasiado listo. Al menos, para las pruebas y los benchmarks diseñados hasta ahora. En programación, matemáticas y razonamiento llega hasta donde ningún otro modelo de IA había llegado, y eso ha demostrado que necesitamos nuevas formas de poner a prueba la IA. Y en eso están los expertos.

Los exámenes normales se han quedado cortos. A principios de 2023 ChatGPT ya era capaz de superar los exámenes de derecho y los de un MBA, aunque con un aprobado raspado. Como señalan en Time, casi dos años después el avance de los modelos es tan enorme que esas pruebas diseñadas para humanos se han quedado cortas, pero también lo han hecho los benchmarks que hasta ahora servían para evaluar sus prestaciones. Era algo que ya se veía venir.

Una evolución vertiginosa. En 2010 la profesora de Stanford Fei-Fei Li desarrolló un benchmark para clasificar imágenes llamado ImageNet Large Scale Visual Recognition Challenge. Cinco años después un sistema de visión artificial logró superar el reto. En 2017 DeepMind logró con AlphaGo aplastar al mejor jugador del mundo de Go y nos recordó el hito de DeepBlue. Parecía que retos como esos iban a tardar más en ser superados por las máquinas, pero la evolución de los sistemas de IA ha sido frenética, y ahora los modernos modelos de IA están mejorando de forma aún más vertiginosa.

FrontierMath. Epoch AI, una ONG de investigación, ha acabado desarrollando por ejemplo un nuevo conjunto de pruebas matemáticas llamado FrontierMath. Hasta hace muy poco, los modelos de IA como GPT-4 o Claude no pasaban del 2% en este test, un comportamiento que demostraba que aún había muchísimo margen de mejora. El lanzamiento de o3 ha cambiado las cosas: de repente ha logrado un rendimiento del 25,2%, algo que el director de Epoch AI, Jaime Sevilla, describía como "mucho mejor de lo que nuestro equipo esperaba tan poco después de lanzarlo".

Frontiermath Vs Other Benchmarks Los modelos de IA superaban con bastante solvencia los benchmarks matemáticos anteriores. Con FrontierMath la cosa cambia. Al menos, de momento, porque o3 ya logra una puntuación del 25,2% (no mostrado este diagrama, donde los modelos solo lograban llegar al 2%). Fuente: Epoch AI.

Pruebas más exigentes. Este benchmark consiste en unos 300 problemas matemáticos de distinto nivel. Han sido diseñados por un equipo de más de 60 matemáticos entre los cuales está Terence Tao, ganador de la medalla Fields. Aunque hay algunos problemas más asequibles, el 25% de ellos están calificados como especialmente complejos. De hecho, solo los mejores expertos podrían resolverlos, y tardarían incluso días en hacerlo.

Humanity's Last Exam. Otra de las pruebas recientes es Humanity's Last Exam, un examen con entre 20 y 50 veces más preguntas que FrontierMath, pero que cubren muchas más disciplinas. Los problemas a resolver han sido recolectados de la comunidad académica, y para ser incluida, una pregunta debe haber sido no respondida correctamente por los modelos actuales. Se espera que dicha prueba se lance a principios de 2025.

La paradoja de Moravec. Pero tan interesante o más que esas pruebas avanzadas son las que juegan con el concepto que maneja la paradoja de Moravec. Cosas que son triviales para los seres humanos pero que las máquinas no logran resolver.

ARC-AGI. Es justo lo que hace el benchmark ARC-AGI, creada por el investigador François Chollet en 2019 y que en su última evolución plantea pruebas con las que la mayoría de modelos lo pasan realmente mal. O1 mini solo lograba un 7,8% de puntuación, pero de nuevo o3 ha sorprendido a todos y alcanza un 87,5% en su modo más avanzado (muy caro) y un 75,7% en el modo de bajo consumo, un hito realmente excepcional. Por supuesto, los creadores de ARC-AGI ya trabajan en una nueva versión mucho más exigente que creen que los modelos de IA tardarán mucho en superar.

Imagen | Crymedy7 con Midjourney

En Xataka | OpenAI está quemando el dinero como si no hubiera mañana. La pregunta es cuánto podrá aguantar así

26_Dec_2024"> Javier Pastor .