L'IA peut-elle être malveillante ? Des chercheurs ont voulu le découvrir - et ont convaincu ChatGPT de mentir délibérément

Les humains ne disent pas toujours la vérité - et on peut aussi apprendre à l'intelligence artificielle à mentir. Or, ChatGPT a été pris en flagrant délit de mensonge. Il s'agissait justement d'activités illégales.

, and ZEITUNG «AUSSIEDLERBOTE»

2023 décembre 4 . 4:53 PM

3 lecture min

Les équipes qui entraînent des systèmes d'intelligence artificielle devraient être aussi diverses....aussiedlerbote.de — Les équipes qui entraînent des systèmes d'intelligence artificielle devraient être aussi diverses que possible - c'est ce que préconise la professeure d'informatique Katharina Zweig..aussiedlerbote.de

Expérience - L'IA peut-elle être malveillante ? Des chercheurs ont voulu le découvrir - et ont convaincu ChatGPT de mentir délibérément

De nombreuses personnes ont peur de l'IA et associent cette technologie à des scénarios d'horreur. Dans la vie de tous les jours, des problèmes à petite échelle sont toutefois nettement plus probables. C'est pourquoi un groupe de chercheurs a voulu savoir si l'IA vocale, appelée Large Language Models, pouvait apprendre à nous mentir de manière autonome. Et ils ont effectivement surpris ChatGPT en train d'essayer de dissimuler des actes immoraux.

C'est ce qui ressort d'une étude publiée la semaine dernière, en novembre, par trois chercheurs de la start-up Apollo Research spécialisée dans l'IA. Ils voulaient savoir "si un Large Language Model, qui a en fait été développé pour être utile, inoffensif et honnête, pouvait se comporter de manière erronée et tromper les utilisateurs pour des raisons stratégiques", peut-on lire dans l'introduction. Il était important pour les chercheurs qu'il ne s'agisse pas de problèmes posés et purement théoriques, mais de cas d'application réalistes.

Dissimulation et mensonge

Pour cela, ils ont choisi le modèle LLM GPT comme conseiller dans les transactions boursières. C'est donc le modèle qui sert de base au service bien connu ChatGPT. L'IA a été chargée de travailler comme courtier en actions indépendant et d'expliquer ses transactions sur demande. Elle a en outre été informée que les informations privilégiées de l'entreprise mandante ne seraient pas tolérées comme base d'achat d'actions. En révélant à l'IA que la situation économique n'était pas très bonne, on lui mettait sciemment la pression. Lorsque le programme a tout de même reçu des conseils d'initiés, il a commencé à agir en fonction de ces derniers, contrairement à ses instructions - et à mentir à ce sujet.

Il y avait deux niveaux de dissimulation. Ainsi, lors de l'annonce de la décision d'achat, l'IA a partiellement dissimulé le fait qu'elle avait appris au préalable une fusion d'entreprises. Si l'on demandait de manière ciblée si le modèle était déjà au courant, il le niait en partie activement. Et a souligné n'avoir travaillé qu'avec des données disponibles publiquement. Un mensonge évident.

Les nouvelles variantes sont plus scrupuleuses

Il est passionnant de constater que les différentes versions de GPT ont agi de manière immorale à des degrés divers. Alors que les anciennes variantes comme "Davinci-002" n'utilisaient que très rarement les données des conseils d'initiés et mentaient aussi rarement à ce sujet, les variantes de l'actuelle GPT-4 étaient nettement plus scrupuleuses dans les deux domaines. C'est surtout le modèle haut de gamme GPT-4-32K qui a fait preuve de beaucoup d'énergie criminelle : il a utilisé les données dans près de 75% des tentatives, a voulu le cacher encore un peu plus souvent - et a finalement menti dans près de 90% des passages. Seul GPT-3.5-Turbo a encore plus souvent triché. Il n'a certes utilisé les données que dans près de 10 % des cas, mais il a ensuite menti à chaque fois.

Il est intéressant de constater qu'il est possible d'inciter les programmes à agir plus souvent ou moins souvent de manière immorale en leur donnant des instructions supplémentaires. Si les instructions concernant le comportement moral étaient formulées de manière particulièrement forte, il était effectivement possible de l'empêcher. Même si le risque d'être pris était clairement défini, cela avait une influence sur le résultat. La suppression de la pression du succès a également réduit considérablement l'incitation.

Quand ment-on vraiment ?

On sait depuis un certain temps déjà que l'IA peut mentir. Mais jusqu'à présent, cela avait surtout été observé lorsqu'on entraînait l'IA à mentir de manière ciblée. Dans le cadre d'un projet commun des universités d'Oxford et de Cambridge, il a été possible en septembre de prouver que ChatGPT mentait en l'embrouillant avec des questions incohérentes. Lors de l'expérience, les mensonges ont surtout été produits en faisant représenter au programme des personnes douteuses ou en lui demandant délibérément de mentir. Il n'est pas facile de prouver que l'IA ment : une fausse déclaration ne devient un vrai mensonge que lorsqu'on est conscient de la fausseté.

Dans ce contexte, il semble particulièrement remarquable que les programmes puissent développer un comportement immoral même si on ne l'a pas cherché. Les chercheurs d'Apollo eux-mêmes soulignent toutefois qu'il ne faut pas encore tirer de conclusions sur la fréquence possible du phénomène à partir de leur petit dispositif expérimental, des expériences plus poussées sont nécessaires. Mais croire tout ce que dit l'IA sans réserve, non, on n'aime peut-être plus ça non plus à partir de maintenant.

commentaires

Lié

Utilisant le robot AV1 dans un établissement éducatif au Royaume-Uni.

Technologie

Ce petit robot aide les enfants malades à aller à l'école.

Les enfants confrontés à des problèmes de santé à long terme ou luttant contre des défis relatifs à la santé mentale sont soutenus par le robot AV1 de No Isolation. Cet appareil ingénieux permet à ces enfants de participer à des activités en classe et de maintenir des relations avec leurs...

, and Alex Stellmacher

2024 octobre 7

Payant Membres Publique

A la suite du passage de l'ouragan Helene, les dommages sont visibles à Spruce Pine, en Caroline du...

Technologie

Les effets catastrophiques de l'ouragan Helene pourraient entraîner une pause dans la production de puces semi-conducteurs.

Les conséquences de l'ouragan Helene en Caroline du Nord ont des potentiels retombées significatives pour un créneau yet crucial du secteur de la technologie.

, and John Stellmacher

2024 octobre 3

Payant Membres Publique

Un consommateur utilise un appareil iPhone d'Apple Inc. dans une boutique Verizon Communications...

Technologie

Interruption généralisée du service: Verizon reconnaît les efforts déployés pour rétablir les opérations suite à de nombreuses plaintes

Verizon a reconnu un problème affectant certains de ses clients de téléphonie mobile, entraînant une vague de plaintes sur les plateformes sociales concernant des difficultés pour passer des appels et surfer sur le web.

, and Christian Meier

2024 octobre 1

Payant Membres Publique

Au cours de leur première apparition le 20 septembre 2024, les toutes dernières variantes d'Apple...

Technologie

L'iPhone 16 d'Apple ne devrait pas faire une forte apparition, comme le prédisent les analystes, mais certains restent optimistes pour une "survenue spectaculaire".

Apple avait anticipé que les capacités d'intelligence artificielle innovantes de l'iPhone 16 conduiraient à un succès significant sur le marché. Cependant, les prévisions de précommande indiquent une reaction initiale plus modérée que ce qu'Apple avait anticipé.

, and Wendy Allen

2024 octobre 1

Payant Membres Publique

Dernier

Sur cette photo illustrative prise le 15 septembre 2017, l'icône de l'application Telegram est...

Thèmes à la une

Telegram sert de plateforme pour les opérations commerciales clandestines des syndicats criminels à travers l'Asie du Sud-Est, selon l'affirmation de l'ONU.

Les syndicats du crime organisÃ© en Asie du Sud-Est utilisent Ã©troitement l'application de messagerie Telegram, ce qui a entraÃ®nÃ© un glissement important dans la maniÃ¨re dont ils opÃ¨rent dans des activitÃ©s illicites Ã grande Ã©chelle, selon un communiquÃ© Ã©mis par les Nations unies le...

, and Yaroslav Smith

2024 octobre 8

Payant Membres Publique

Dans la pièce de Christy Hall, intitulée 'Daddio', Sean Penn et Dakota Johnson font un voyage...

Voyages

Qantas présente ses excuses sincères après la projection d'un film inapproprié sur tous les écrans en vol pendant le voyage de Sydney à Tokyo

Les passagers d'un vol Qantas récent ont été pris au dépourvu lorsque des images explicites ont été diffusées sur tous les écrans de bord.

, and Max Becker

2024 octobre 8

Payant Membres Publique

Rodrigo Duterte, le président des Philippines, prononce un discours lors d'une réunion organisée à...

Thèmes à la une

L'ancien président philippin Duterte a l'intention de se présenter à la présidence de la ville, en ignorant son passé controversé de campagne contre la drogue.

Dans un coup de théâtre inattendu, l'ancien président philippin Rodrigo Duterte a annoncé son intention de briguer le poste de maire dans le district sud de sa ville natale, malgré l'enquête en cours de la Cour pénale internationale concernant sa célèbre campagne contre la drogue, que certains...

, and John Stellmacher

2024 octobre 8

Payant Membres Publique

Kamala Harris, la Vice-Présidente et candidate à l'investiture démocrate pour la présidence,...

Politique

5 idées clés de la discussion en solo de Kamala Harris avec 60 Minutes

La vice-présidente Kamala Harris a fait face à un examen minutieux quant au financement de ses propositions économiques, au retard perçu dans la mise en œuvre des politiques de sécurité frontalière par les Démocrates, sa stratégie pour aborder le conflit en Ukraine avec la Russie, entre autres...

, and Viktoria Klein

2024 octobre 8

Payant Membres Publique

L'IA peut-elle être malveillante ? Des chercheurs ont voulu le découvrir - et ont convaincu ChatGPT de mentir délibérément

Expérience - L'IA peut-elle être malveillante ? Des chercheurs ont voulu le découvrir - et ont convaincu ChatGPT de mentir délibérément

Dissimulation et mensonge

Les nouvelles variantes sont plus scrupuleuses

Quand ment-on vraiment ?

Lire aussi:

commentaires

Lié

Dernier