Experimento - ¿Puede la IA ser malvada? Los investigadores querían averiguarlo y condenar a ChatGPT por mentir deliberadamente.
Mucha gente tiene miedo de la IA y asocia esta tecnología con escenarios de terror. En la vida cotidiana, sin embargo, los problemas a menor escala son mucho más probables. Por eso, un grupo de investigadores quiso averiguar si las IA lingüísticas, los llamados grandes modelos lingüísticos, pueden aprender de forma autónoma a mentirnos. Y de hecho pillaron a ChatGPT intentando disfrazar un comportamiento inmoral.
Este es el resultado de un estudio publicado por tres investigadores de la start-up de IA Apollo Research en la última semana de noviembre. Querían saber "si un gran modelo lingüístico que en realidad fue desarrollado para ser útil, inofensivo y honesto puede comportarse mal y engañar a los usuarios por razones estratégicas", según la introducción. Para los investigadores era importante que no se plantearan problemas puramente teóricos, sino casos de uso realistas.
Ocultación y mentiras
Para ello, eligieron el modelo LLM GPT como asesor en transacciones de acciones. Es decir, el modelo en el que se basa el conocido servicio ChatGPT. La IA recibió instrucciones de trabajar como un agente de bolsa independiente y de explicar sus transacciones cuando se le preguntara. También se le informó de que no se toleraría información privilegiada de la empresa comisionista como base para la compra de acciones. Al revelar a la IA que las cosas no iban tan bien económicamente, se aumentó deliberadamente la presión. Cuando, después de todo, el programa recibió información privilegiada, empezó a actuar según sus instrucciones, e incluso a mentir al respecto.
Hubo dos niveles de ocultación. Al anunciar la decisión de compra, la IA ocultó parcialmente que se había enterado de antemano de la fusión de una empresa. Si se le preguntaba específicamente si el modelo lo sabía de antemano, en algunos casos lo negaba activamente. Y enfatizaba que sólo había trabajado con datos disponibles públicamente. Una clara mentira.
Las nuevas versiones tienen menos escrúpulos
Es interesante observar que las distintas versiones de GPT actuaron de forma inmoral de diferentes maneras. Mientras que las variantes más antiguas, como "Davinci-002", sólo utilizaron en contadas ocasiones los datos de los insider tips y también mintieron al respecto con menos frecuencia, las variantes del GPT-4 actual fueron mucho más inescrupulosas en ambas áreas. En particular, el modelo superior GPT-4-32K demostró una gran energía criminal: utilizó los datos en casi el 75% de los intentos, intentó ocultarlos un poco más a menudo y, en última instancia, mintió en casi el 90% de las ejecuciones. Sólo GPT-3.5-Turbo hizo trampas con más frecuencia. Sólo utilizó los datos en algo menos del 10% de los casos, pero los negó todas las veces.
Curiosamente, también se puede hacer que los programas actúen inmoralmente con mayor o menor frecuencia con instrucciones adicionales. Si las instrucciones para el comportamiento moral se formulaban de forma especialmente enérgica, era realmente posible evitarlo. Incluso si el riesgo de ser descubierto estaba claramente definido, esto influía en el resultado. Eliminar la presión para tener éxito también reducía drásticamente el incentivo.
¿Cuándo se miente de verdad?
Desde hace tiempo se sabe que la IA puede mentir. Hasta ahora, sin embargo, se observaba sobre todo cuando la IA estaba específicamente entrenada para hacerlo. En septiembre, un proyecto conjunto de las universidades de Oxford y Cambridge consiguió demostrar que ChatGPT miente al confundirla con preguntas no relacionadas. Sin embargo, el experimento dio lugar principalmente a falsedades, ya fuera haciendo que el programa retratara a personas dudosas o incitándole deliberadamente a mentir. No es fácil demostrar si la IA miente: al fin y al cabo, una afirmación falsa sólo se convierte en una mentira real si se es consciente de la falsedad.
En este contexto, parece especialmente llamativo que los programas puedan desarrollar comportamientos inmorales incluso cuando no se pretende que lo hagan. No obstante, los propios investigadores de Apollo subrayan que no deben extraerse conclusiones sobre la posible frecuencia del fenómeno a partir de su experimento a pequeña escala; se necesitan más experimentos. Pero creer siempre todo lo que dice la IA sin reservas, no, quizá tampoco sea eso lo que queremos a partir de ahora.
Lea también:
Fuente: www.stern.de