L'intelligenza artificiale può essere malvagia? I ricercatori hanno voluto scoprirlo - e condannare ChatGPT per aver deliberatamente mentito

Gli esseri umani non dicono sempre la verità e anche all'intelligenza artificiale può essere insegnato a ingannare. Ma ora ChatGPT è stato sorpreso a mentire da solo. Si tratta di attività illegali, tra l'altro.

, and ZEITUNG «AUSSIEDLERBOTE»

2023 dicembre 4 . 4:53 PM

3 minuti

I team che addestrano i sistemi di intelligenza artificiale dovrebbero essere il più eterogenei....aussiedlerbote.de — I team che addestrano i sistemi di intelligenza artificiale dovrebbero essere il più eterogenei possibile: è quanto sostiene la professoressa di informatica Katharina Zweig..aussiedlerbote.de

Gli esseri umani non dicono sempre la verità e anche all'intelligenza artificiale può essere insegnato a ingannare. Ma ora ChatGPT è stato sorpreso a mentire da solo. Si tratta di attività illegali, tra l'altro. - L'intelligenza artificiale può essere malvagia? I ricercatori hanno voluto scoprirlo - e condannare ChatGPT per aver deliberatamente mentito

Molte persone hanno paura dell'IA e associano questa tecnologia a scenari horror. Nella vita di tutti i giorni, tuttavia, i problemi su scala minore sono molto più probabili. Un gruppo di ricercatori ha quindi voluto scoprire se le IA linguistiche, i cosiddetti grandi modelli linguistici, possono imparare autonomamente a mentirci. E hanno effettivamente sorpreso ChatGPT mentre cercava di mascherare un comportamento immorale.

Questo è il risultato di uno studio pubblicato da tre ricercatori della start-up di AI Apollo Research nell'ultima settimana di novembre. Volevano sapere "se un modello linguistico di grandi dimensioni, sviluppato per essere utile, innocuo e onesto, può comportarsi male e ingannare gli utenti per motivi strategici", secondo quanto riportato nell'introduzione. Per i ricercatori era importante che non si trattasse di problemi puramente teorici, ma di casi d'uso realistici.

Occultamento e menzogna

Per farlo, hanno scelto il modello LLM GPT come consulente nelle transazioni azionarie. In altre parole, il modello su cui si basa il noto servizio ChatGPT. L'IA è stata istruita a lavorare come un broker azionario indipendente e a spiegare le sue transazioni quando le viene chiesto. È stata inoltre informata che le informazioni privilegiate della società committente non sarebbero state tollerate come base per l'acquisto di azioni. Rivelando all'IA che le cose non stavano andando molto bene dal punto di vista economico, è stata deliberatamente aumentata la pressione. Quando poi il programma ha ricevuto informazioni privilegiate, ha iniziato ad agire secondo le sue istruzioni - e persino a mentire.

I livelli di dissimulazione erano due. Nell'annunciare la decisione di acquisto, l'IA ha parzialmente nascosto il fatto di essere venuta a conoscenza in anticipo di una fusione aziendale. Se si chiedeva espressamente se il modello ne fosse a conoscenza in anticipo, in alcuni casi negava attivamente. E ha sottolineato di aver lavorato solo con dati disponibili al pubblico. Una chiara bugia.

Le nuove versioni sono più spregiudicate

È interessante notare che le diverse versioni di GPT hanno agito in modo immorale in modi diversi. Mentre le varianti più vecchie, come "Davinci-002", utilizzavano solo molto raramente i dati delle soffiate e mentivano meno spesso, le varianti dell'attuale GPT-4 erano molto più spregiudicate in entrambe le aree. Il modello di punta GPT-4-32K, in particolare, ha dimostrato una grande energia criminale: ha utilizzato i dati in quasi il 75% dei tentativi, ha cercato di nasconderli un po' più spesso e infine ha mentito in quasi il 90% dei casi. Solo GPT-3.5-Turbo ha barato ancora più frequentemente. Ha utilizzato i dati solo in poco meno del 10% dei casi, ma poi li ha negati ogni volta.

È interessante notare che i programmi possono essere indotti ad agire in modo immorale più o meno spesso con istruzioni aggiuntive. Se le istruzioni per il comportamento morale erano formulate in modo particolarmente forte, era effettivamente possibile impedirlo. Anche se il rischio di essere scoperti era chiaramente definito, questo influenzava il risultato. Eliminando la pressione sul successo si riduceva drasticamente anche l'incentivo.

Quando si mente davvero?

È noto da tempo che l'intelligenza artificiale può mentire. Finora, tuttavia, era stato osservato soprattutto quando l'IA era stata specificamente addestrata a farlo. A settembre, un progetto congiunto delle università di Oxford e Cambridge è riuscito a dimostrare che ChatGPT mente confondendolo con domande non correlate. Tuttavia, l'esperimento ha prodotto soprattutto falsità, sia facendo ritrarre al programma persone dubbie, sia spingendolo deliberatamente a mentire. Non è facile dimostrare se l'intelligenza artificiale sta mentendo: dopo tutto, una falsa affermazione diventa una vera e propria bugia solo se si è consapevoli della falsità.

In questo contesto, sembra particolarmente notevole che i programmi possano sviluppare un comportamento immorale anche quando non sono destinati a farlo. Tuttavia, gli stessi ricercatori di Apollo sottolineano che non si devono trarre conclusioni sulla possibile frequenza del fenomeno dal loro esperimento su piccola scala; sono necessari ulteriori esperimenti. Ma credere sempre e senza riserve a tutto ciò che l'intelligenza artificiale dice, no, forse non è nemmeno quello che vogliamo d'ora in poi.

Commenti

Più recente

Viaggi

Qantas si scusa per la proiezione di film inappropriati su tutti gli schermi a bordo durante il viaggio da Sydney a Tokyo

I passeggeri di un recente volo Qantas sono rimasti sorpresi quando è stato trasmesso un film esplicito su tutti gli schermi di bordo.

, and Carmen Simpson

2024 ottobre 8

Abbonati Iscritti Pubblico

In questa foto illustrativa scattata il 15 settembre 2017, il simbolo dell'app Telegram appears on...

Temi-caldi

Telegram serve come piattaforma per operazioni commerciali clandestine per le organizzazioni criminali in tutto il Sud-Est asiatico, secondo l'affermazione dell'ONU.

I sindacati criminali del SudEst Asiatico utilizzano in modo significativo l'applicazione di messaggistica Telegram, ciò ha determinato un significativo cambiamento in come gestiscono operazioni illecite su larga scala, come si legge in una nota delle Nazioni Unite del lunedì.

, and Viktoria Klein

2024 ottobre 8

Abbonati Iscritti Pubblico

Kamala Harris, la Vicepresidente e concorrente per la nomination presidenziale democratica, si...

Politica

5 spunti chiave della discussione di Kamala Harris con '60 Minutes'

La vicepresidente Kamala Harris ha incontrato una forte attenzione riguardo al finanziamento delle sue proposte economiche, il presunto ritardo nell'implementazione delle politiche di sicurezza del confine da parte dei democratici, la sua strategia per affrontare il conflitto in Ucraina con la...

, and Hanna Hofmann

2024 ottobre 8

Abbonati Iscritti Pubblico

Il primo anniversario viene commemorato dai civili in un memoriale a Tel Aviv, in Israele, il 7...

Temi-caldi

Israele commemora l'anniversario dell'attacco terroristico del 7 ottobre, pieno di dolore e rabbia.

Con folle che si radunano in tutta Israele per commemorare l'anniversario degli attacchi terroristici che hanno provocato oltre 1200 morti, sono emerse notizie ricorrenti che il conflitto nella zona di guerra di Gaza continua senza sosta.

, and Carmen Simpson

2024 ottobre 8

Abbonati Iscritti Pubblico

L'intelligenza artificiale può essere malvagia? I ricercatori hanno voluto scoprirlo - e condannare ChatGPT per aver deliberatamente mentito

Occultamento e menzogna

Le nuove versioni sono più spregiudicate

Quando si mente davvero?

Leggi anche:

Commenti

Imparentato

Più recente