Las alucinaciones siguen siendo el talón de Aquiles de la IA: los últimos modelos de OpenAI inventan más de la cuenta
Publicado el 21/04/2025 por Diario Tecnología Artículo original
La inteligencia artificial (IA) no está evolucionando: está despegando. En apenas dos años y medio hemos pasado de GPT-3.5 a GPT-4o, y quien haya probado ambos lo sabe: la diferencia en la experiencia de conversación es enorme. GPT-3.5 marcó un antes y un después al inaugurar la era ChatGPT, pero hoy nadie probablemente volvería a usarlo si tiene a su alcance modelos más avanzados.
Ahora bien, ¿qué significa que un modelo sea más avanzado? La respuesta es compleja. Hablamos de ventanas de contexto más amplias (es decir, la capacidad de leer y procesar más información a la vez), de resultados más elaborados y, en teoría, de menos errores. Pero hay un punto que sigue siendo espinoso: las alucinaciones. Y no siempre se avanza en la dirección correcta.
¿Qué son las alucinaciones? En IA, alucinar significa inventarse cosas. Son respuestas que suenan bien, incluso convincentes, pero que son falsas. El modelo no miente porque quiera, simplemente genera texto en función de patrones. Si no tiene datos suficientes, se los imagina. Y eso puede pasar desapercibido. Ahí está el riesgo.
O3 y O4-mini: más razonamiento, más errores. En septiembre del año pasado llegaron los llamados modelos razonadores. Supusieron un salto importante: introdujeron una especie de cadena de pensamiento que mejoró su rendimiento en tareas complejas. Pero no eran perfectos. O1-Pro era más caro que O3-mini, y no siempre más eficaz. Aun así, toda esta línea se presentó con una promesa: reducir las alucinaciones.

El problema es que, según los propios datos de OpenAI, eso no está ocurriendo. TechCrunch cita un informe técnico de la compañía donde se reconoce que O3 y O4-mini alucinan más que sus predecesores. Literalmente. En las pruebas internas con PersonQA, O3 falló en el 33% de las respuestas, el doble que O1 y O3-mini. O4-mini lo hizo aún peor: 48%.
Otros análisis, como el del laboratorio independiente Transluce, muestran que O3 incluso se inventa acciones: decía haber ejecutado código en un MacBook Pro fuera de ChatGPT y luego haber copiado los resultados. Algo que, sencillamente, no puede hacer.
Un reto que sigue pendiente. La idea de tener modelos que no alucinen suena fantástica. Sería el paso definitivo para confiar plenamente en sus respuestas. Pero, mientras tanto, toca convivir con este problema. Sobre todo cuando usamos la IA para tareas delicadas: resumir documentos, consultar datos, preparar informes. En esos casos, conviene revisar todo dos veces.
Porque ya ha habido errores serios. El más sonado fue el de un abogado que presentó ante el juez documentos generados por ChatGPT. Eran convincentes, sí, pero también ficticios: el modelo se inventó varios casos legales. La IA avanzará, pero el juicio crítico, por el momento, sigue siendo cosa nuestra.
Imágenes | Xataka con ChatGPT | OpenAI
utm_campaign=21_Apr_2025"> Javier Marquez .