Dicen que ChatGPT se ha marcado un «Black Mirror» intentando «escapar» para salvarse de ser borrado por sus creadores

Publicado el 09/12/2024 por Diario Tecnología
Artículo original

Dicen que ChatGPT se ha marcado un «Black Mirror» intentando «escapar» para salvarse de sus ser borrado por sus creadores

Vale que la noticia estará convenientemente dramatizada, pero apunta un poco a lo que seguramente irá evolucionando poco a poco la eterna cuestión de «engañar a los humanos». Dice Chris Smith que:

ChatGPT o1 intentó escapar y salvarse por miedo a que lo cerraran – En las pruebas realizadas durante el entrenamiento de ChatGPT-o1 y otras IAs los investigadores vieron cómo intentó engañar a los humanos, especialmente cuando creía que estaba en peligro de ser «eliminada». Más aterrador aún -pero también increíblemente divertido- fue cuando la IA intentó salvarse copiando sus datos a un nuevo servidor. Algunos modelos de IA incluso fingían ser versiones posteriores de sus modelos para evitar que los borraran.

Las pruebas demostraron que tanto ChatGPT o1 como GPT-4o intentan engañar a los humanos, lo que indica que la maquinación de la IA es un problema con todos los modelos. Los intentos de engaño de o1 también superaron a los modelos Meta, Anthropic y Google AI.

«Aunque nos parece emocionante que el razonamiento pueda mejorar significativamente cómo se aplican las políticas de seguridad en los LLM, somos conscientes de que estas nuevas capacidades podrían constituir la base de aplicaciones peligrosas», afirmó OpenAI en un documento.

Al fin y al cabo, muchas técnicas de márketing, negociación, juegos y similares se basan en ese tipo de engaños, ¿no?

_____
Traducción parcial por cortesía de DeepL.com.

Relacionado:

# Enlace Permanente