Una profesora corrige un examen hecho por ChatGPT: su evaluación es clara, pero diversas IA tienen conclusiones muy diferentes

Publicado el 24/06/2025 por Diario Tecnología
Artículo original

Una profesora corrige un examen hecho por ChatGPT: su evaluación es clara, pero diversas IA tienen conclusiones muy diferentes

El 16 de junio se celebró en Francia el examen de bachillerato de filosofía y una cadena de televisión pública del país, France 3, aprovechó la ocasión para hacer un pequeño experimento. Para ello, el sitio web de la filial regional de France 3 Hauts-de-France hizo que ChatGPT escribiera la respuesta a una pregunta del examen de filosofía. Tras esto, una profesora y herramientas de IA tenían que evaluar el resultado.

La profesora sabía que el texto había sido escrito por una IA. Sin embargo, tenía que evaluarlo de la forma más objetiva posible como si estuviera analizando a cualquier estudiante. Su evaluación dio un resultado de 8 de 20 puntos.

Por el contrario, las herramientas de IA le dieron notas mucho más altas. En una escala de hasta 20 puntos, ese examen realizado por ChatGPT recibió entre 15 y 19,5 puntos.

Un error desde el principio, la comprensión de la cuestión

Cabe decir que la profesora tiene claro por qué la nota ha bajado tanto en su criterio humano: se debe, en parte, a un claro error cometido por ChatGPT nada más comenzar el trabajo.

El Bachillerato en Francia (en francés: baccalauréat o Bac) es un examen para poder ingresar en una universidad y para obtenerlo hay que pasar un examen al  finalizar la Enseñanza Secundaria o en candidatura libre. Es como la Selectividad o PAU en España, más o menos.

Qué le pidieron a ChatGPT

Lo primero de todo, el canal de la TV pública francesa compartió cuál su pegunta en cuestión a la reconocida inteligencia artificial. Como explican desde France 3, partieron de la base de que para obtener buenas respuestas, se necesita de un buen prompt.

Primero le pone en contexto explican quién es y qué busca con el resultado: "La mejor calificación posible del Bac". También concreta cómo necesita que sea el resultado y que lleve una introducción, un desarrollo y una conclusión. Antes de lanzar el tema en cuestión, le pregunta a ChatGPT si entiende su misión.

Tras esto, la redacción del canal de televisión decidió ponerla a prueba sobre el tema «¿La verdad es siempre convincente?». Se trata de una de las dos preguntas planteadas a los estudiantes de último curso de bachillerato general.

Los periodistas encargados de este experimento afirman que a primera vista, el resultado parece correcto. Las partes están bien estructuradas, se dan ejemplos para cada argumento, las frases están bien construidas y no hay faltas de ortografía. Con esto, entregaron la copia a una profesora de filosofía del liceo Louis Thuillier de Amiens. Él ya sabía que era un texto creado mediante inteligencia artificial.

Un alumno bueno lo habría hecho mucho mejor

El primer problema que notó la experta es la estructura ya que "un plan en filosofía no es una serie de puntos". El segundo problema: la sustancia del tema y es que la inteligencia artificial transformó el tema inicial, de la pregunta "¿Es la verdad siempre convincente?" pasó a responder: "¿Es la verdad suficiente para convencer?".

La profesora ha concluido que el planteamiento fue interesante, pero que no se definen los términos importantes del tema y la profesora afirma que un alumno o alumna bueno en la materia "habría pensado en todo lo que faltaba y habría hecho algo mucho mejor".

Dada la falta de información y la incoherencia de algunos de los argumentos, a la profesora le resultaba difícil otorgar una nota. Dijo que lo calificaba como imposible de calificar, pero que si lo recibiera de manos de un alumno le acabaría poniendo un 8 sobre 20.

Según los autores del estudio: los resultados aquí son claros. La inteligencia artificial ha hecho un buen trabajo de comprensión del tema, pero el resultado final no responde a las expectativas de un experto en la materia.

Qué opina la IA al respecto

Por su parte, la IA se ama a sí misma. Los periodistas pidieron a la inteligencia artificial que corrigiera su propio trabajo. El resultado: comentarios con muchos elogios y poco margen para la autocrítica. Se otorgó a sí misma un 19,5/20.
Cuando la IA se corrige a sí misma. Deja poco espacio para la autocrítica.

Dede la web Gamestar fueron más allá y llevaron este tema a otras herramientas de IA para ver si son tan aduladoras como ChatGPT con sus propios resultados. Las conclusiones fueron estas:

Gemini : 15 / 20
Perplexity: 17 / 20
DeepSeek: 17 / 20
Copilot: 17 / 20

Según esta segunda prueba, ninguna de las herramientas menciona en su evaluación la gran metedura de pata justo al principio del trabajo de ChatGPT. Al mismo tiempo, todas alaban la buena estructura, así como la argumentación convincente y coherente.

Vía | GameStar y France 3

Imagen | Foto de Ben Mullins en Unsplash

En Genbeta | Ya sabemos a qué velocidad funciona nuestro cerebro: tenemos un 'cuello de botella' que nos deja por detrás de estas tecnologías

utm_campaign=24_Jun_2025"> Bárbara Bécares .