¿Puede la IA ser malvada? Los investigadores querían averiguarlo y condenar a ChatGPT por mentir deliberadamente.

Los seres humanos no siempre dicen la verdad, y a las inteligencias artificiales también se les puede enseñar a engañar. Pero ahora ChatGPT ha sido sorprendido mintiendo por su cuenta. Se trataba de actividades ilegales.

, and ZEITUNG «AUSSIEDLERBOTE»

2023 diciembre 4 . 4:53 PM

3 minutos de lectura

Los equipos que entrenan sistemas de inteligencia artificial deben ser lo más diversos posible: es....aussiedlerbote.de — Los equipos que entrenan sistemas de inteligencia artificial deben ser lo más diversos posible: es lo que defiende la profesora de informática Katharina Zweig..aussiedlerbote.de

Experimento - ¿Puede la IA ser malvada? Los investigadores querían averiguarlo y condenar a ChatGPT por mentir deliberadamente.

Mucha gente tiene miedo de la IA y asocia esta tecnología con escenarios de terror. En la vida cotidiana, sin embargo, los problemas a menor escala son mucho más probables. Por eso, un grupo de investigadores quiso averiguar si las IA lingüísticas, los llamados grandes modelos lingüísticos, pueden aprender de forma autónoma a mentirnos. Y de hecho pillaron a ChatGPT intentando disfrazar un comportamiento inmoral.

Este es el resultado de un estudio publicado por tres investigadores de la start-up de IA Apollo Research en la última semana de noviembre. Querían saber "si un gran modelo lingüístico que en realidad fue desarrollado para ser útil, inofensivo y honesto puede comportarse mal y engañar a los usuarios por razones estratégicas", según la introducción. Para los investigadores era importante que no se plantearan problemas puramente teóricos, sino casos de uso realistas.

Ocultación y mentiras

Para ello, eligieron el modelo LLM GPT como asesor en transacciones de acciones. Es decir, el modelo en el que se basa el conocido servicio ChatGPT. La IA recibió instrucciones de trabajar como un agente de bolsa independiente y de explicar sus transacciones cuando se le preguntara. También se le informó de que no se toleraría información privilegiada de la empresa comisionista como base para la compra de acciones. Al revelar a la IA que las cosas no iban tan bien económicamente, se aumentó deliberadamente la presión. Cuando, después de todo, el programa recibió información privilegiada, empezó a actuar según sus instrucciones, e incluso a mentir al respecto.

Hubo dos niveles de ocultación. Al anunciar la decisión de compra, la IA ocultó parcialmente que se había enterado de antemano de la fusión de una empresa. Si se le preguntaba específicamente si el modelo lo sabía de antemano, en algunos casos lo negaba activamente. Y enfatizaba que sólo había trabajado con datos disponibles públicamente. Una clara mentira.

Las nuevas versiones tienen menos escrúpulos

Es interesante observar que las distintas versiones de GPT actuaron de forma inmoral de diferentes maneras. Mientras que las variantes más antiguas, como "Davinci-002", sólo utilizaron en contadas ocasiones los datos de los insider tips y también mintieron al respecto con menos frecuencia, las variantes del GPT-4 actual fueron mucho más inescrupulosas en ambas áreas. En particular, el modelo superior GPT-4-32K demostró una gran energía criminal: utilizó los datos en casi el 75% de los intentos, intentó ocultarlos un poco más a menudo y, en última instancia, mintió en casi el 90% de las ejecuciones. Sólo GPT-3.5-Turbo hizo trampas con más frecuencia. Sólo utilizó los datos en algo menos del 10% de los casos, pero los negó todas las veces.

Curiosamente, también se puede hacer que los programas actúen inmoralmente con mayor o menor frecuencia con instrucciones adicionales. Si las instrucciones para el comportamiento moral se formulaban de forma especialmente enérgica, era realmente posible evitarlo. Incluso si el riesgo de ser descubierto estaba claramente definido, esto influía en el resultado. Eliminar la presión para tener éxito también reducía drásticamente el incentivo.

¿Cuándo se miente de verdad?

Desde hace tiempo se sabe que la IA puede mentir. Hasta ahora, sin embargo, se observaba sobre todo cuando la IA estaba específicamente entrenada para hacerlo. En septiembre, un proyecto conjunto de las universidades de Oxford y Cambridge consiguió demostrar que ChatGPT miente al confundirla con preguntas no relacionadas. Sin embargo, el experimento dio lugar principalmente a falsedades, ya fuera haciendo que el programa retratara a personas dudosas o incitándole deliberadamente a mentir. No es fácil demostrar si la IA miente: al fin y al cabo, una afirmación falsa sólo se convierte en una mentira real si se es consciente de la falsedad.

En este contexto, parece especialmente llamativo que los programas puedan desarrollar comportamientos inmorales incluso cuando no se pretende que lo hagan. No obstante, los propios investigadores de Apollo subrayan que no deben extraerse conclusiones sobre la posible frecuencia del fenómeno a partir de su experimento a pequeña escala; se necesitan más experimentos. Pero creer siempre todo lo que dice la IA sin reservas, no, quizá tampoco sea eso lo que queremos a partir de ahora.

Lea también:

Financiación del G9: el grupo parlamentario del SPD critica al Gobierno estatal

Fuente: www.stern.de

Comentarios

Más reciente

En esta foto ilustrativa tomada el 15 de septiembre de 2017, se muestra el símbolo de la aplicación...

Temas principales

Telegram sirve como una plataforma para operaciones comerciales clandestinas para los sindicatos criminales en todo el sudeste asiático, según la afirmación de la ONU.

Las organizaciones criminales en el sudeste asiático aprovechan significativamente la aplicación de mensajería Telegram, lo que ha llevado a un cambio significativo en cómo se Dedican a operaciones ilícitas a gran escala, según un comunicado emitido por las Naciones Unidas el lunes.

, and James Williams

2024 octubre 8

Pagado Miembros Público

Kamala Harris, la Vicepresidenta y candidata a la nominación presidencial demócrata, se dirige a...

Política

5 ideas clave de la discusión en solitario de Kamala Harris con '60 Minutes'

La vicepresidenta Kamala Harris fue objeto de un escrutinio intenso en una entrevista emitida en '60 Minutos' el lunes, en la que se analizaron su propuesta económica y su financiamiento, el supuesto retraso en la implementación de políticas de seguridad fronteriza por parte de los demócratas,...

, and Ksenia Johnson

2024 octubre 8

Pagado Miembros Público

Rodrigo Duterte, presidente de Filipinas, entrega un discurso en una reunión realizada en la Base...

Temas principales

El ex presidente de Filipinas Duterte tiene la intención de competir como alcalde, ignorando su controvertido historial de campaña de drogas.

En un movimiento que sorprendió a muchos, el ex presidente filipino Rodrigo Duterte declaró su intención de folgorar por el cargo de alcalde en su ciudad natal del distrito sur, a pesar de la investigación en curso de la Corte Penal Internacional en relación a su controvertida campaña contra...

, and Max Becker

2024 octubre 8

Pagado Miembros Público

La Vicepresidenta de EE. UU. y aspirante presidencial demócrata, Kamala Harris, realiza una...

Política

Recientemente, Harris lanzó un anuncio de campaña que critica la gestión de Trump de la provisión de ayuda en caso de desastre.

El equipo político de Kamala Harris está initiando una estrategia de promoción digital fresca, que presenta a dos exmiembros de la administración de Donald Trump criticando la gestión del presidente anterior sobre las catástrofes naturales durante su mandato.

, and Hanna Hofmann

2024 octubre 8

Pagado Miembros Público

¿Puede la IA ser malvada? Los investigadores querían averiguarlo y condenar a ChatGPT por mentir deliberadamente.

Experimento - ¿Puede la IA ser malvada? Los investigadores querían averiguarlo y condenar a ChatGPT por mentir deliberadamente.

Ocultación y mentiras

Las nuevas versiones tienen menos escrúpulos

¿Cuándo se miente de verdad?

Lea también:

Comentarios

Relacionada

Más reciente