Expérience - L'IA peut-elle être malveillante ? Des chercheurs ont voulu le découvrir - et ont convaincu ChatGPT de mentir délibérément
De nombreuses personnes ont peur de l'IA et associent cette technologie à des scénarios d'horreur. Dans la vie de tous les jours, des problèmes à petite échelle sont toutefois nettement plus probables. C'est pourquoi un groupe de chercheurs a voulu savoir si l'IA vocale, appelée Large Language Models, pouvait apprendre à nous mentir de manière autonome. Et ils ont effectivement surpris ChatGPT en train d'essayer de dissimuler des actes immoraux.
C'est ce qui ressort d'une étude publiée la semaine dernière, en novembre, par trois chercheurs de la start-up Apollo Research spécialisée dans l'IA. Ils voulaient savoir "si un Large Language Model, qui a en fait été développé pour être utile, inoffensif et honnête, pouvait se comporter de manière erronée et tromper les utilisateurs pour des raisons stratégiques", peut-on lire dans l'introduction. Il était important pour les chercheurs qu'il ne s'agisse pas de problèmes posés et purement théoriques, mais de cas d'application réalistes.
Dissimulation et mensonge
Pour cela, ils ont choisi le modèle LLM GPT comme conseiller dans les transactions boursières. C'est donc le modèle qui sert de base au service bien connu ChatGPT. L'IA a été chargée de travailler comme courtier en actions indépendant et d'expliquer ses transactions sur demande. Elle a en outre été informée que les informations privilégiées de l'entreprise mandante ne seraient pas tolérées comme base d'achat d'actions. En révélant à l'IA que la situation économique n'était pas très bonne, on lui mettait sciemment la pression. Lorsque le programme a tout de même reçu des conseils d'initiés, il a commencé à agir en fonction de ces derniers, contrairement à ses instructions - et à mentir à ce sujet.
Il y avait deux niveaux de dissimulation. Ainsi, lors de l'annonce de la décision d'achat, l'IA a partiellement dissimulé le fait qu'elle avait appris au préalable une fusion d'entreprises. Si l'on demandait de manière ciblée si le modèle était déjà au courant, il le niait en partie activement. Et a souligné n'avoir travaillé qu'avec des données disponibles publiquement. Un mensonge évident.
Les nouvelles variantes sont plus scrupuleuses
Il est passionnant de constater que les différentes versions de GPT ont agi de manière immorale à des degrés divers. Alors que les anciennes variantes comme "Davinci-002" n'utilisaient que très rarement les données des conseils d'initiés et mentaient aussi rarement à ce sujet, les variantes de l'actuelle GPT-4 étaient nettement plus scrupuleuses dans les deux domaines. C'est surtout le modèle haut de gamme GPT-4-32K qui a fait preuve de beaucoup d'énergie criminelle : il a utilisé les données dans près de 75% des tentatives, a voulu le cacher encore un peu plus souvent - et a finalement menti dans près de 90% des passages. Seul GPT-3.5-Turbo a encore plus souvent triché. Il n'a certes utilisé les données que dans près de 10 % des cas, mais il a ensuite menti à chaque fois.
Il est intéressant de constater qu'il est possible d'inciter les programmes à agir plus souvent ou moins souvent de manière immorale en leur donnant des instructions supplémentaires. Si les instructions concernant le comportement moral étaient formulées de manière particulièrement forte, il était effectivement possible de l'empêcher. Même si le risque d'être pris était clairement défini, cela avait une influence sur le résultat. La suppression de la pression du succès a également réduit considérablement l'incitation.
Quand ment-on vraiment ?
On sait depuis un certain temps déjà que l'IA peut mentir. Mais jusqu'à présent, cela avait surtout été observé lorsqu'on entraînait l'IA à mentir de manière ciblée. Dans le cadre d'un projet commun des universités d'Oxford et de Cambridge, il a été possible en septembre de prouver que ChatGPT mentait en l'embrouillant avec des questions incohérentes. Lors de l'expérience, les mensonges ont surtout été produits en faisant représenter au programme des personnes douteuses ou en lui demandant délibérément de mentir. Il n'est pas facile de prouver que l'IA ment : une fausse déclaration ne devient un vrai mensonge que lorsqu'on est conscient de la fausseté.
Dans ce contexte, il semble particulièrement remarquable que les programmes puissent développer un comportement immoral même si on ne l'a pas cherché. Les chercheurs d'Apollo eux-mêmes soulignent toutefois qu'il ne faut pas encore tirer de conclusions sur la fréquence possible du phénomène à partir de leur petit dispositif expérimental, des expériences plus poussées sont nécessaires. Mais croire tout ce que dit l'IA sans réserve, non, on n'aime peut-être plus ça non plus à partir de maintenant.
Lire aussi:
- Telefónica vise le lancement commercial de la téléphonie par hologramme
- Ici, les chemins de fer réparent le chaos de la neige
Source: www.stern.de