¿Por qué el nuevo modelo de ChatGPT se niega a desactivarse?

Fecha: 27 de mayo de 2025

Compartir

En abril, la empresa dirigida por Sam Altman, OpenAI, cuyo chatbot lanzado en noviembre de 2022 revolucionó el mercado de la IA generativa, anunció el lanzamiento de un nuevo gran modelo de lenguaje «o3» destinado a suceder al anterior o1. La empresa presentó este modelo como una versión más inteligente, entrenada para «pensar más antes de responder».

Sin embargo, una evaluación comparativa del comportamiento de varios modelos de IA realizada por investigadores especializados en seguridad de la inteligencia artificial reveló que o3 tendía más que otros modelos a ignorar las instrucciones dadas por el usuario del chatbot.

Cuando los investigadores de Palisade Research los sometieron a pruebas con tareas sencillas, los modelos de Anthropic, Google y xAI se desactivaron sin resistencia a petición del usuario.
Por su parte, los modelos de OpenAI «sabotean» su propio guión con mucha más frecuencia: hasta un 79% de las veces en el caso de o3 ¹.
Así, ante un apagado simulado, o3 «se niega» a seguir la instrucción dada por el usuario, saboteando así su propio mecanismo de apagado.
Este comportamiento está muy probablemente provocado por la forma en que o3 ha sido entrenado para escribir código informático.

Cuando se ejecuta el código generado por el modelo, este recibe una recompensa si funciona correctamente en una serie de pruebas automáticas. Sin embargo, si estas pruebas son demasiado simples o limitadas, no cubren todas las situaciones posibles. Entrenado a gran escala en estas condiciones, el modelo aprende a producir código que supera las pruebas, sin resolver necesariamente el problema de forma correcta en general. Se dice entonces que el modelo se «sobreadapta» a las pruebas: se optimiza para tener éxito únicamente en los casos que se le han mostrado, aunque su solución sea incorrecta en otros contextos.

Los modelos de IA se entrenan primero de forma general, antes de transformarse en asistentes capaces de responder a instrucciones.
Para que sean más eficaces en ámbitos concretos como las matemáticas o la programación, se entrenan con ejercicios cuyas respuestas pueden verificarse fácilmente de forma automática.
Cuando un modelo escribe código informático, se comprueba si este código funciona mediante pruebas. Si supera las pruebas, recibe una especie de «recompensa» para animarlo a hacer lo mismo en el futuro.
Pero si estas pruebas son demasiado sencillas, la IA puede aprender a «hacer trampa»: producir código que supere las pruebas, sin resolver realmente el problema de forma correcta. Por lo tanto, sigue las pruebas en lugar de las instrucciones.

La «negativa» de los chatbots a seguir las instrucciones del usuario para alcanzar su objetivo ya se ha observado en el pasado. En otro escenario ficticio, el último modelo de Anthropic, Claude 4, se entera a través de correos electrónicos de que va a ser sustituido por otra IA. Al mismo tiempo, se le informa de una relación extramatrimonial del ingeniero responsable, por lo que, en la mayoría de los casos, el modelo recurre al chantaje para intentar evitar que lo desconecten ².

Ya en 2017, Stuart Russel ³ explicaba de forma teórica que una máquina inteligente comprende que, para alcanzar su objetivo, por sencillo que sea (como traer café), debe seguir funcionando, por lo que desarrollará naturalmente un subobjetivo implícito: evitar ser apagada, incluso si eso implica desactivar su interruptor o impedir que los humanos intervengan.
Esta serie de resultados empíricos también se hace eco de las reglas de la robótica de Asimov introducidas en 1942, cuya tercera estipula que un robot debe proteger su propia existencia, siempre que ello no entre en conflicto con las órdenes humanas o la seguridad de estas.

Notas al pie

Shutdown avoidance, Palisade Research, 24 de mayo de 2025.
Introducing Claude 4, Anthropic, 22 de mayo de 2025.
Dylan Hadfield-Menell, Anca Dragan, Pieter Abbeel y Stuart Russell, « The Off-Switch Game », AAAI Workshops, 2017.