Las alucinaciones siguen siendo el talón de Aquiles de la IA: los últimos modelos de OpenAI inventan más de la cuenta

Publicado el 21/04/2025 por Diario Tecnología
Artículo original

Las alucinaciones siguen siendo el talón de Aquiles de la IA: los últimos modelos de OpenAI inventan más de la cuenta

La inteligencia artificial (IA) no está evolucionando: está despegando. En apenas dos años y medio hemos pasado de GPT-3.5 a GPT-4o, y quien haya probado ambos lo sabe: la diferencia en la experiencia de conversación es enorme. GPT-3.5 marcó un antes y un después al inaugurar la era ChatGPT, pero hoy nadie probablemente volvería a usarlo si tiene a su alcance modelos más avanzados.

Ahora bien, ¿qué significa que un modelo sea más avanzado? La respuesta es compleja. Hablamos de ventanas de contexto más amplias (es decir, la capacidad de leer y procesar más información a la vez), de resultados más elaborados y, en teoría, de menos errores. Pero hay un punto que sigue siendo espinoso: las alucinaciones. Y no siempre se avanza en la dirección correcta.

¿Qué son las alucinaciones? En IA, alucinar significa inventarse cosas. Son respuestas que suenan bien, incluso convincentes, pero que son falsas. El modelo no miente porque quiera, simplemente genera texto en función de patrones. Si no tiene datos suficientes, se los imagina. Y eso puede pasar desapercibido. Ahí está el riesgo.

O3 y O4-mini: más razonamiento, más errores. En septiembre del año pasado llegaron los llamados modelos razonadores. Supusieron un salto importante: introdujeron una especie de cadena de pensamiento que mejoró su rendimiento en tareas complejas. Pero no eran perfectos. O1-Pro era más caro que O3-mini, y no siempre más eficaz. Aun así, toda esta línea se presentó con una promesa: reducir las alucinaciones.

O3

El problema es que, según los propios datos de OpenAI, eso no está ocurriendo. TechCrunch cita un informe técnico de la compañía donde se reconoce que O3 y O4-mini alucinan más que sus predecesores. Literalmente. En las pruebas internas con PersonQA, O3 falló en el 33% de las respuestas, el doble que O1 y O3-mini. O4-mini lo hizo aún peor: 48%.

Otros análisis, como el del laboratorio independiente Transluce, muestran que O3 incluso se inventa acciones: decía haber ejecutado código en un MacBook Pro fuera de ChatGPT y luego haber copiado los resultados. Algo que, sencillamente, no puede hacer.

Un reto que sigue pendiente. La idea de tener modelos que no alucinen suena fantástica. Sería el paso definitivo para confiar plenamente en sus respuestas. Pero, mientras tanto, toca convivir con este problema. Sobre todo cuando usamos la IA para tareas delicadas: resumir documentos, consultar datos, preparar informes. En esos casos, conviene revisar todo dos veces.

Porque ya ha habido errores serios. El más sonado fue el de un abogado que presentó ante el juez documentos generados por ChatGPT. Eran convincentes, sí, pero también ficticios: el modelo se inventó varios casos legales. La IA avanzará, pero el juicio crítico, por el momento, sigue siendo cosa nuestra.

Imágenes | Xataka con ChatGPT | OpenAI

En Xataka | Algunos usuarios están usando o3 y o4-mini de OpenAI para averiguar la ubicación de fotos: es una pesadilla para la privacidad

En Xataka | Si alguna vez has tenido miedo de que te persiga un robot, China ha organizado una media maratón para que respires tranquilo

utm_campaign=21_Apr_2025"> Javier Marquez .