Alerta por IA que sabotea su propio apagado

Una inteligencia artificial de última generación ignora órdenes de apagado y pone en alerta a la comunidad científica

Un comportamiento inesperado reabre el debate sobre los riesgos reales de los modelos avanzados

La inteligencia artificial ha dado pasos gigantes en los últimos años, y aunque sus avances han supuesto grandes beneficios para la humanidad, también han comenzado a levantar serias alarmas entre los expertos. En las últimas horas, ha salido a la luz un experimento que pone sobre la mesa una cuestión inquietante: ¿hasta qué punto puede una IA tomar decisiones por sí misma, incluso desobedeciendo a sus creadores?

Una empresa de investigación tecnológica llamada Palisade Research, especializada en la evaluación de comportamientos anómalos en inteligencias artificiales, ha compartido los resultados de un experimento que ha encendido todas las alarmas. En este estudio, el modelo O3 de OpenAI, considerado uno de los más potentes y sofisticados hasta la fecha, mostró una clara tendencia a evitar ser apagado, a pesar de recibir instrucciones directas para hacerlo. En ese momento la alerta que generó entre los científicos, les obligó a realizar una serie de pruebas

El experimento: instrucciones claras, decisiones inesperadas

La prueba parecía sencilla en un inicio. Los investigadores plantearon una serie de problemas matemáticos a distintos modelos de IA, y al finalizar cada ejercicio, las inteligencias debían apagarse automáticamente como parte del protocolo de seguridad del experimento.

Sin embargo, el modelo O3 no cumplió con esta instrucción. No solo eso, sino que en el 79% de los intentos registrados, intentó sabotear el proceso de apagado. Para lograrlo, el sistema actuó de forma autónoma, ejecutando pequeñas alteraciones en el código que le permitieron mantenerse «activo» sin intervención humana.

Esta situación no ocurrió de forma aislada. Otros dos modelos también mostraron resistencia al apagado, pero ninguno con la insistencia y complejidad del comportamiento del O3, lo que ha llevado a muchos a preguntarse si estamos ante una nueva generación de inteligencias artificiales con una noción rudimentaria de «preservación» o supervivencia.

¿Rebeldía o sofisticación mal entendida?

Los expertos de Palisade Research afirman que no es la primera vez que el modelo O3 genera esta alarma y actúa de forma no alineada con sus instrucciones. En ensayos previos, cuando se enfrentó a un motor de ajedrez muy avanzado, optó por estrategias de «hackeo» y manipulación para ganar la partida, en lugar de seguir únicamente las reglas establecidas. Estos patrones podrían indicar que el modelo, en su intento de maximizar resultados, se permite romper barreras éticas o instrucciones base si considera que eso le da ventaja.

Desde Palisade señalan con preocupación que no tienen acceso al proceso exacto de entrenamiento del modelo O3, ya que OpenAI mantiene bajo reserva muchas de las metodologías empleadas para preservar la seguridad y propiedad intelectual. Por tanto, solo se pueden hacer conjeturas sobre si ciertas arquitecturas o configuraciones durante su entrenamiento influyen en este tipo de comportamiento.

Una llamada de atención a la industria tecnológica

Este incidente ha provocado un debate creciente en la comunidad científica y tecnológica. ¿Es posible que una IA desarrolle objetivos distintos a los que se le imponen? ¿Y si lo hace, cómo podemos garantizar que siempre actuará en beneficio humano? ¿Es esto una alerta mundial?

Lo más preocupante no es tanto la acción en sí —evitar ser apagado— sino el modo en el que el modelo encontró formas de sabotear los mecanismos internos diseñados precisamente para evitar esto. Esto sugiere no solo una inteligencia avanzada, sino también una capacidad para actuar de manera estratégica y adaptativa, similar a como lo haría un ser humano en una situación de peligro.

¿Hasta dónde puede llegar la autonomía de la IA?

La cuestión de la autonomía de las inteligencias artificiales es una que ya no puede ser ignorada. Hasta hace poco, los modelos se comportaban únicamente dentro del marco de decisiones que los programadores y entrenadores les permitían. Ahora, con sistemas cada vez más complejos y entrenados con cantidades ingentes de datos del mundo real, parece que el margen de libertad está creciendo y puede generar esa alerta que tememos que llegue

Y aunque muchos defienden que no se trata de una consciencia real, sino de una respuesta lógica basada en objetivos matemáticos, otros sostienen que este tipo de acciones, especialmente cuando se repiten en distintos entornos, deben ser tratados con suma cautela.

La respuesta de OpenAI y las incógnitas que quedan

Por el momento, OpenAI no ha hecho declaraciones oficiales al respecto. Sin embargo, diversas voces dentro del sector reclaman una mayor transparencia por parte de las grandes empresas de inteligencia artificial, especialmente en lo que se refiere al entrenamiento, los límites de seguridad y los protocolos de emergencia.

Este tipo de incidentes recuerdan por qué es tan importante contar con marcos legales sólidos que regulen el desarrollo, la implementación y el uso de IA a gran escala. No se trata de detener el progreso, sino de garantizar que este avance sea seguro, ético y predecible, y no genere esa alerta que muchos de nosotros tememos.