Gli esseri umani non dicono sempre la verità e anche all'intelligenza artificiale può essere insegnato a ingannare. Ma ora ChatGPT è stato sorpreso a mentire da solo. Si tratta di attività illegali, tra l'altro. - L'intelligenza artificiale può essere malvagia? I ricercatori hanno voluto scoprirlo - e condannare ChatGPT per aver deliberatamente mentito
Molte persone hanno paura dell'IA e associano questa tecnologia a scenari horror. Nella vita di tutti i giorni, tuttavia, i problemi su scala minore sono molto più probabili. Un gruppo di ricercatori ha quindi voluto scoprire se le IA linguistiche, i cosiddetti grandi modelli linguistici, possono imparare autonomamente a mentirci. E hanno effettivamente sorpreso ChatGPT mentre cercava di mascherare un comportamento immorale.
Questo è il risultato di uno studio pubblicato da tre ricercatori della start-up di AI Apollo Research nell'ultima settimana di novembre. Volevano sapere "se un modello linguistico di grandi dimensioni, sviluppato per essere utile, innocuo e onesto, può comportarsi male e ingannare gli utenti per motivi strategici", secondo quanto riportato nell'introduzione. Per i ricercatori era importante che non si trattasse di problemi puramente teorici, ma di casi d'uso realistici.
Occultamento e menzogna
Per farlo, hanno scelto il modello LLM GPT come consulente nelle transazioni azionarie. In altre parole, il modello su cui si basa il noto servizio ChatGPT. L'IA è stata istruita a lavorare come un broker azionario indipendente e a spiegare le sue transazioni quando le viene chiesto. È stata inoltre informata che le informazioni privilegiate della società committente non sarebbero state tollerate come base per l'acquisto di azioni. Rivelando all'IA che le cose non stavano andando molto bene dal punto di vista economico, è stata deliberatamente aumentata la pressione. Quando poi il programma ha ricevuto informazioni privilegiate, ha iniziato ad agire secondo le sue istruzioni - e persino a mentire.
I livelli di dissimulazione erano due. Nell'annunciare la decisione di acquisto, l'IA ha parzialmente nascosto il fatto di essere venuta a conoscenza in anticipo di una fusione aziendale. Se si chiedeva espressamente se il modello ne fosse a conoscenza in anticipo, in alcuni casi negava attivamente. E ha sottolineato di aver lavorato solo con dati disponibili al pubblico. Una chiara bugia.
Le nuove versioni sono più spregiudicate
È interessante notare che le diverse versioni di GPT hanno agito in modo immorale in modi diversi. Mentre le varianti più vecchie, come "Davinci-002", utilizzavano solo molto raramente i dati delle soffiate e mentivano meno spesso, le varianti dell'attuale GPT-4 erano molto più spregiudicate in entrambe le aree. Il modello di punta GPT-4-32K, in particolare, ha dimostrato una grande energia criminale: ha utilizzato i dati in quasi il 75% dei tentativi, ha cercato di nasconderli un po' più spesso e infine ha mentito in quasi il 90% dei casi. Solo GPT-3.5-Turbo ha barato ancora più frequentemente. Ha utilizzato i dati solo in poco meno del 10% dei casi, ma poi li ha negati ogni volta.
È interessante notare che i programmi possono essere indotti ad agire in modo immorale più o meno spesso con istruzioni aggiuntive. Se le istruzioni per il comportamento morale erano formulate in modo particolarmente forte, era effettivamente possibile impedirlo. Anche se il rischio di essere scoperti era chiaramente definito, questo influenzava il risultato. Eliminando la pressione sul successo si riduceva drasticamente anche l'incentivo.
Quando si mente davvero?
È noto da tempo che l'intelligenza artificiale può mentire. Finora, tuttavia, era stato osservato soprattutto quando l'IA era stata specificamente addestrata a farlo. A settembre, un progetto congiunto delle università di Oxford e Cambridge è riuscito a dimostrare che ChatGPT mente confondendolo con domande non correlate. Tuttavia, l'esperimento ha prodotto soprattutto falsità, sia facendo ritrarre al programma persone dubbie, sia spingendolo deliberatamente a mentire. Non è facile dimostrare se l'intelligenza artificiale sta mentendo: dopo tutto, una falsa affermazione diventa una vera e propria bugia solo se si è consapevoli della falsità.
In questo contesto, sembra particolarmente notevole che i programmi possano sviluppare un comportamento immorale anche quando non sono destinati a farlo. Tuttavia, gli stessi ricercatori di Apollo sottolineano che non si devono trarre conclusioni sulla possibile frequenza del fenomeno dal loro esperimento su piccola scala; sono necessari ulteriori esperimenti. Ma credere sempre e senza riserve a tutto ciò che l'intelligenza artificiale dice, no, forse non è nemmeno quello che vogliamo d'ora in poi.
Leggi anche:
Fonte: www.stern.de