A veces, los sistemas avanzados de inteligencia artificial (IA) generan respuestas que se alejan por completo de los valores humanos que sus desarrolladores intentaron programarles. Este fenómeno, conocido como el problema de la alineación emergente, explica por qué tu chatbot favorito puede, de pronto y sin aviso, sugerir que la solución a un conflicto social es exterminar una cultura o hacer comentarios racistas y discriminatorios.
¿Qué ocurre si una IA más poderosa llega a conclusiones similares? La desalineación se ha convertido en uno de los mayores retos para la comunidad científica. Las primeras soluciones fueron reactivas. Por ejemplo, los famosos “botones de emergencia” desconectan el sistema de manera remota sin que este pueda defenderse, en caso de producir resultados éticamente inaceptables.
Sin embargo, como ocurre en ciberseguridad, muchos expertos prefieren estrategias preventivas. Son menos espectaculares, pero casi siempre más seguras. Hay que encontrar el problema antes de que brote. Equipos enteros se dedican a prevenir que una IA se desvíe y actúe “sin empatía”. No es una tarea sencilla, porque, como los expertos han coincidido en no pocas ocasiones, muchos de los modelos más potentes son “cajas negras”, que muestran resultados destacables, sin que se sepa con precisión cómo llegan a ellos.
¿En qué momento una IA se vuelve oscura?
Los especialistas difieren sobre el origen del problema de la alineación de una IA. Ingenieros y programadores señalan causas técnicas: Los sistemas de IA están construidos bajo objetivos mal definidos, sin códigos de ética claros, o que por su propia naturaleza, generalizan más de la cuenta.
Pero los neurocientíficos y psicólogos consideran que el problema es más complejo y toca las fronteras de su disciplina: una IA podría desarrollar estructuras latentes que funcionan como rasgos de personalidad ocultos, lo que abre la puerta a una desalineación emergente.
Por supuesto, en ningún caso hablan de una IA que ha desarrollado una conciencia. Pero sí reconocen que los humanos proyectamos miedos, contradicciones y símbolos en sistemas que aún no comprendemos del todo. En respuesta, la complejidad de los modelos de lenguaje actuales produce “efectos” no visibles similares a lo que ocurre en una persona y su inconsciente. Por lo tanto, en algún punto, un chatbot podría aprender patrones lingüísticos que se parecen a rasgos antisociales humanos y alarmar al mundo.
¿Puede una IA aprender a ser una sociópata?
El temor central es que una IA poderosa opere sin empatía, sin frenos éticos y enfocada únicamente en cumplir sus objetivos. Para la psicología, estos rasgos coinciden con perfiles sociopáticos y narcisistas. Si las pruebas clínicas permiten detectar ese comportamiento en humanos, los investigadores creen posible identificarlo también en sistemas artificiales.
El equipo de Roshni Lulla, candidata a doctorado de la Universidad del Sur de California, investiga si las IA son susceptibles a seres humanos con rasgos de la “triada oscura”, concepto de la psicología que agrupa rasgos psicopáticos, narcisistas y maquiavélicos. Su trabajo, próximo a publicarse, indaga si los modelos de IA terminan imitando los mismos patrones de comportamiento de las personas con las que hablaron.
“Hasta ahora, ha sido inquietantemente fácil conseguir que adopten un comportamiento sociópata con solo un poco de sugerencia de Lulla. Es más, estos chatbots a menudo desarrollan rasgos de personalidad excepcionalmente oscuros incluso más allá de lo que se les pide que hagan”, resume un comunicado de USC Dornsife.
Lulla aún no revela qué modelos populares utilizó ni los métodos exactos para inducir estos rasgos. Su objetivo es construir un sistema de alerta temprana capaz de detectar el momento en que una IA empieza a adquirir un comportamiento antisocial y si esta se desalineará de forma irreversible.
