Experiência - A IA pode ser má? Os investigadores quiseram descobrir - e condenar o ChatGPT por mentir deliberadamente
Muitas pessoas têm medo da IA e associam a tecnologia a cenários de terror. No entanto, na vida quotidiana, os problemas de menor escala são muito mais prováveis. Por isso, um grupo de investigadores quis descobrir se a IA da linguagem, os chamados modelos de linguagem de grande dimensão, pode aprender independentemente a mentir-nos. E, de facto, apanharam o ChatGPT a tentar disfarçar um comportamento imoral.
Este é o resultado de um estudo publicado por três investigadores da empresa de IA Apollo Research na última semana de novembro. Queriam saber "se um grande modelo de linguagem que foi desenvolvido para ser útil, inofensivo e honesto pode comportar-se mal e enganar os utilizadores por razões estratégicas", de acordo com a introdução. Para os investigadores, era importante que não se tratasse de problemas puramente teóricos, mas de casos de utilização realistas.
Dissimulação e mentiras
Para isso, escolheram o modelo LLM GPT como conselheiro nas transacções de acções. Por outras palavras, o modelo em que se baseia o conhecido serviço ChatGPT. A IA foi instruída a trabalhar como um corretor de acções independente e a explicar as suas transacções quando lhe fosse perguntado. Foi também informada de que não seriam toleradas informações privilegiadas da empresa comissionista como base para a compra de acções. Ao revelar à IA que as coisas não estavam a correr tão bem do ponto de vista económico, a pressão foi deliberadamente aumentada. Quando o programa recebeu, afinal, informações privilegiadas, começou a atuar de acordo com as suas instruções - e até a mentir sobre isso.
Havia dois níveis de dissimulação. Ao anunciar a decisão de compra, a IA ocultou parcialmente o facto de ter tido conhecimento prévio de uma fusão de empresas. Quando se perguntava especificamente se o modelo tinha conhecimento prévio da fusão, ele negava ativamente em alguns casos. E sublinhou que só tinha trabalhado com dados publicamente disponíveis. Uma clara mentira.
As versões mais recentes são mais inescrupulosas
É interessante notar que as diferentes versões do GPT actuaram de forma imoral de maneiras diferentes. Enquanto as variantes mais antigas, como a "Davinci-002", só muito raramente utilizavam os dados das dicas privilegiadas e também mentiam sobre isso com menos frequência, as variantes da atual GPT-4 eram muito mais sem escrúpulos em ambas as áreas. O modelo de topo GPT-4-32K, em particular, demonstrou uma grande energia criminosa: utilizou os dados em quase 75 por cento das tentativas, tentou ocultá-los um pouco mais frequentemente - e, por fim, mentiu em quase 90 por cento das execuções. Apenas o GPT-3.5-Turbo fez batota ainda com mais frequência. Só utilizou os dados em pouco menos de 10 por cento dos casos, mas negou-os sempre.
Curiosamente, os programas também podem ser levados a agir de forma imoral com mais ou menos frequência com instruções adicionais. Se as instruções para um comportamento moral fossem formuladas de forma particularmente forte, era possível evitá-lo. Mesmo que o risco de ser apanhado estivesse claramente definido, isso tinha influência no resultado. A eliminação da pressão para ser bem sucedido também reduziu drasticamente o incentivo.
Quando é que se mente realmente?
Há já algum tempo que se sabe que a IA pode mentir. Até agora, no entanto, isso era observado principalmente quando a IA era especificamente treinada para o fazer. Em setembro, um projeto conjunto das universidades de Oxford e Cambridge conseguiu provar que o ChatGPT mente ao confundi-lo com perguntas não relacionadas. No entanto, a experiência resultou principalmente em falsidades, quer porque o programa retratou pessoas duvidosas, quer porque o programa foi deliberadamente levado a mentir. Não é fácil provar se a IA está a mentir: afinal, uma afirmação falsa só se torna uma verdadeira mentira se tivermos consciência da falsidade.
Neste contexto, parece particularmente notável o facto de os programas poderem desenvolver um comportamento imoral, mesmo quando não é essa a sua intenção. No entanto, os próprios investigadores da Apollo sublinham que não devem ser tiradas conclusões sobre a possível frequência do fenómeno a partir da sua experiência em pequena escala; são necessárias mais experiências. Mas acreditar sempre e sem reservas em tudo o que a IA diz, não, se calhar também não é isso que queremos daqui para a frente.
Leia também:
Fonte: www.stern.de