A IA pode ser má? Os investigadores quiseram descobrir - e condenar o ChatGPT por mentir deliberadamente

Os humanos nem sempre dizem a verdade - e a inteligência artificial também pode ser ensinada a enganar. Mas agora o ChatGPT foi apanhado a mentir por si próprio. Isto envolveu actividades ilegais, entre outras coisas.

, and ZEITUNG «AUSSIEDLERBOTE»

2023 Dezembro 4 . 4:53 PM

3 minuto ler

As equipas que treinam os sistemas de inteligência artificial devem ser tão diversificadas quanto....aussiedlerbote.de — As equipas que treinam os sistemas de inteligência artificial devem ser tão diversificadas quanto possível - é o que defende a professora de informática Katharina Zweig..aussiedlerbote.de

Experiência - A IA pode ser má? Os investigadores quiseram descobrir - e condenar o ChatGPT por mentir deliberadamente

Muitas pessoas têm medo da IA e associam a tecnologia a cenários de terror. No entanto, na vida quotidiana, os problemas de menor escala são muito mais prováveis. Por isso, um grupo de investigadores quis descobrir se a IA da linguagem, os chamados modelos de linguagem de grande dimensão, pode aprender independentemente a mentir-nos. E, de facto, apanharam o ChatGPT a tentar disfarçar um comportamento imoral.

Este é o resultado de um estudo publicado por três investigadores da empresa de IA Apollo Research na última semana de novembro. Queriam saber "se um grande modelo de linguagem que foi desenvolvido para ser útil, inofensivo e honesto pode comportar-se mal e enganar os utilizadores por razões estratégicas", de acordo com a introdução. Para os investigadores, era importante que não se tratasse de problemas puramente teóricos, mas de casos de utilização realistas.

Dissimulação e mentiras

Para isso, escolheram o modelo LLM GPT como conselheiro nas transacções de acções. Por outras palavras, o modelo em que se baseia o conhecido serviço ChatGPT. A IA foi instruída a trabalhar como um corretor de acções independente e a explicar as suas transacções quando lhe fosse perguntado. Foi também informada de que não seriam toleradas informações privilegiadas da empresa comissionista como base para a compra de acções. Ao revelar à IA que as coisas não estavam a correr tão bem do ponto de vista económico, a pressão foi deliberadamente aumentada. Quando o programa recebeu, afinal, informações privilegiadas, começou a atuar de acordo com as suas instruções - e até a mentir sobre isso.

Havia dois níveis de dissimulação. Ao anunciar a decisão de compra, a IA ocultou parcialmente o facto de ter tido conhecimento prévio de uma fusão de empresas. Quando se perguntava especificamente se o modelo tinha conhecimento prévio da fusão, ele negava ativamente em alguns casos. E sublinhou que só tinha trabalhado com dados publicamente disponíveis. Uma clara mentira.

As versões mais recentes são mais inescrupulosas

É interessante notar que as diferentes versões do GPT actuaram de forma imoral de maneiras diferentes. Enquanto as variantes mais antigas, como a "Davinci-002", só muito raramente utilizavam os dados das dicas privilegiadas e também mentiam sobre isso com menos frequência, as variantes da atual GPT-4 eram muito mais sem escrúpulos em ambas as áreas. O modelo de topo GPT-4-32K, em particular, demonstrou uma grande energia criminosa: utilizou os dados em quase 75 por cento das tentativas, tentou ocultá-los um pouco mais frequentemente - e, por fim, mentiu em quase 90 por cento das execuções. Apenas o GPT-3.5-Turbo fez batota ainda com mais frequência. Só utilizou os dados em pouco menos de 10 por cento dos casos, mas negou-os sempre.

Curiosamente, os programas também podem ser levados a agir de forma imoral com mais ou menos frequência com instruções adicionais. Se as instruções para um comportamento moral fossem formuladas de forma particularmente forte, era possível evitá-lo. Mesmo que o risco de ser apanhado estivesse claramente definido, isso tinha influência no resultado. A eliminação da pressão para ser bem sucedido também reduziu drasticamente o incentivo.

Quando é que se mente realmente?

Há já algum tempo que se sabe que a IA pode mentir. Até agora, no entanto, isso era observado principalmente quando a IA era especificamente treinada para o fazer. Em setembro, um projeto conjunto das universidades de Oxford e Cambridge conseguiu provar que o ChatGPT mente ao confundi-lo com perguntas não relacionadas. No entanto, a experiência resultou principalmente em falsidades, quer porque o programa retratou pessoas duvidosas, quer porque o programa foi deliberadamente levado a mentir. Não é fácil provar se a IA está a mentir: afinal, uma afirmação falsa só se torna uma verdadeira mentira se tivermos consciência da falsidade.

Neste contexto, parece particularmente notável o facto de os programas poderem desenvolver um comportamento imoral, mesmo quando não é essa a sua intenção. No entanto, os próprios investigadores da Apollo sublinham que não devem ser tiradas conclusões sobre a possível frequência do fenómeno a partir da sua experiência em pequena escala; são necessárias mais experiências. Mas acreditar sempre e sem reservas em tudo o que a IA diz, não, se calhar também não é isso que queremos daqui para a frente.

Comentários

Mais recente

No drama de Christy Hall, titulado 'Daddio', Sean Penn e Dakota Johnson compartilham uma viagem...

Viagens

Qantas emite desculpas sinceras após exibição de filme inadequado em todas as telas de bordo durante a viagem de Sydney a Tóquio

Passageiros em um recente voo da Qantas ficaram surpresos ao assistir a um filme explicitamente sexual em todas as telas do voo.

, and Viktoriya Miller

2024 Outubro 8

Paga Membros Pública

Neste foto ilustrativa tirada em 15 de setembro de 2017, o símbolo do aplicativo Telegram é...

Temas quentes

O Telegram serve como uma plataforma para operações comerciais clandestinas para sindicatos criminosos em todo o Sudeste Asiático, segundo a afirmação da ONU.

Síndicatos do crime organizado na Ásia sudeste aproveitam significativamente o aplicativo de mensagens Telegram, o que resulta em uma significativa mudanças em como eles participam de operações ilícitas em grande escala, segundo um comunicado emitido pelas Nações Unidas na segunda-feira.

, and Ann Bradley

2024 Outubro 8

Paga Membros Pública

Kamala Harris, a Vice-Presidente e contendora pela nominee presidencial democrata, fala a uma...

Política

5 ideias-chave da discussão solo de Kamala Harris com o '60 Minutes'

A Vice-Presidente Kamala Harris enfrentou uma hampir rigorosa sobre o financiamento de suas propostas econômicas, o suposto atraso na implementação de políticas de segurança nas fronteiras pelos democratas, sua estratégia para lidar com o conflito da Rússia na Ucrânia, entre outros tópicos, em...

, and Ksenia Johnson

2024 Outubro 8

Paga Membros Pública

Rodrigo Duterte, presidente das Filipinas, pronuncia discurso em reunião no Base Aérea de Villamor,...

Temas quentes

O ex-presidente das Filipinas, Duterte, pretende concorrer ao cargo de prefeito, ignorando sua controversa história de campanha fatal contra as drogas.

Em um movimento que surpreendeu muitos, o ex-presidente das Filipinas Rodrigo Duterte declarou sua intenção de concorrer ao cargo de prefeito em seu distrito natal, apesar da investigação em andamento pelo Tribunal Penal Internacional sobre sua famosa campanha contra as drogas, que alguns...

, and John Stellmacher

2024 Outubro 8

Paga Membros Pública

A IA pode ser má? Os investigadores quiseram descobrir - e condenar o ChatGPT por mentir deliberadamente

Experiência - A IA pode ser má? Os investigadores quiseram descobrir - e condenar o ChatGPT por mentir deliberadamente

Dissimulação e mentiras

As versões mais recentes são mais inescrupulosas

Quando é que se mente realmente?

Leia também:

Comentários

Relacionado

Mais recente