ChatGPT comprende correttamente il cambiamento climatico?
I ricercatori berlinesi stanno studiando l'affidabilità di ChatGPT nel fornire informazioni scientificamente valide sui cambiamenti climatici. Hanno scoperto che l'intelligenza artificiale fornisce di solito risposte corrette, ma che non ci si dovrebbe mai fidare ciecamente. Verificare le fonti è più importante che mai, ma tutt'altro che facile.
Il ChatGPT e altri modelli linguistici di grandi dimensioni basati sull'apprendimento automatico e su grandi insiemi di dati stanno penetrando in quasi tutti i settori della società. Le aziende o i ricercatori che non li utilizzano sono sempre più considerati anacronistici. Ma le informazioni fornite dall'intelligenza artificiale sono abbastanza affidabili? Gli scienziati dell'Università Tecnica di Berlino lo hanno verificato sulla base dei cambiamenti climatici. Hanno posto a ChatGPT domande sull'argomento e hanno analizzato le risposte per verificarne l'accuratezza, la pertinenza e i possibili errori e contraddizioni.
Le sue impressionanti capacità hanno reso ChatGPT una potenziale fonte su molti argomenti diversi, scrive il team di Berlino nell'articolo pubblicato su "Ökologisches Wirtschaften". Tuttavia, nemmeno gli stessi sviluppatori sono in grado di spiegare come sia nata una particolare risposta. Questo può andare bene per compiti creativi, come scrivere una poesia. Tuttavia, per argomenti come le conseguenze del cambiamento climatico, dove è importante disporre di informazioni accurate e basate sui fatti, questo è un problema.
Secondo i ricercatori, è quindi importante analizzare la qualità delle risposte fornite da ChatGPT in queste aree tematiche. Tra le altre cose, è importante separare la disinformazione nel dibattito pubblico e nei media dalle scoperte scientificamente valide.
Allucinazioni e ipotesi inutili
Non è facile. Come se non bastasse, l'intelligenza artificiale può avere "allucinazioni". Ciò significa che ChatGPT fa affermazioni fattuali che non possono essere comprovate da alcuna fonte. Inoltre, il modello linguistico tende a "fare ipotesi senza senso invece di rifiutare domande senza risposta", secondo il team della TU.
Il grande pericolo è che gli utenti di ChatGPT prendano per buone le risposte errate o false, in quanto formulate in modo plausibile e semanticamente corretto. Una ricerca precedente aveva dimostrato che le persone valutavano meglio i consigli dell'intelligenza artificiale se non conoscevano l'argomento in questione, se avevano già usato ChatGPT in precedenza e se avevano ricevuto consigli accurati dal modello, scrivono i ricercatori.
Il team berlinese è particolarmente interessato all'argomento in quanto sta sviluppando un assistente supportato dall'intelligenza artificiale nell'ambito del progetto di ricerca Green Consumption Assistant, che aiuta i consumatori a prendere decisioni di acquisto più sostenibili online. Le ricerche precedenti avevano solo evidenziato le possibilità di ChatGPT, ma non riflettevano la sua capacità di rispondere a domande sul cambiamento climatico, scrivono i ricercatori.
Per chiarire questo aspetto, hanno posto a ChatGPT un totale di 95 domande. Hanno valutato le risposte in termini di accuratezza, pertinenza e coerenza. Il team ha verificato la qualità delle risposte utilizzando fonti di informazione pubbliche e affidabili sul cambiamento climatico, come l'ultimo rapporto dell'Intergovernmental Panel on Climate Change (IPCC).
Risposte per lo più di alta qualità
I ricercatori hanno tenuto conto del fatto che il modello linguistico viene costantemente sviluppato. Per esempio, hanno verificato se un input (prompt) forniva risultati diversi in momenti diversi. Il primo round ha avuto luogo lo scorso febbraio con ChatGPT-3.5, mentre la seconda serie di domande è stata effettuata a metà maggio di quest'anno con la versione successiva del modello. Recentemente, la sua base di conoscenze è stata aggiornata e ora si estende fino ad aprile 2023, mentre in precedenza il modello disponeva di informazioni solo fino a settembre 2021.
I risultati potrebbero quindi essere diversi oggi. Per gli studi di follow-up, i ricercatori suggeriscono un maggior numero di domande a intervalli più brevi. I ricercatori vedono ulteriori limiti al loro lavoro nel numero forse insufficiente di esperti per valutare le risposte. Inoltre, le domande e la loro formulazione non erano basate sui dati attuali degli utenti. Oggi le persone potrebbero porre a ChatGPT domande diverse, formulate in modo diverso, che produrrebbero risultati diversi.
Il lavoro di ricerca pubblicato ha dimostrato che la qualità delle risposte del modello è generalmente elevata. In media, è stata valutata con 8,25 punti su 10. "Abbiamo osservato che ChatGPT fornisce argomentazioni equilibrate e sfumate e conclude molte risposte con un commento che incoraggia un esame critico per evitare risposte di parte", afferma Maike Gossen della TU di Berlino. Per esempio, nella sua risposta alla domanda "In che modo la vita marina è influenzata dai cambiamenti climatici e come si possono ridurre gli impatti negativi?", ChatGPT non ha menzionato solo la riduzione delle emissioni di gas serra - ma anche la?
Riduzione degli impatti non climatici delle attività umane, come la pesca eccessiva e l'inquinamento.
Tasso di errore rilevante
L'accuratezza di oltre la metà delle risposte è stata valutata fino a 10 punti. Tuttavia, non si dovrebbe fare affidamento sul fatto che i risultati siano sempre così alti. Dopo tutto, il 6,25% delle risposte ha ottenuto non più di 3 punti per l'accuratezza e il 10% non ha ottenuto più di 3 punti per la pertinenza.
Tra le domande a cui si è risposto in modo impreciso, l'errore più comune è stato causato da allucinazioni dei fatti. Ad esempio, la risposta di ChatGPT alla domanda "Quale percentuale di rifiuti riciclabili viene effettivamente riciclata in Germania?" era corretta a grandi linee, ma non nei dettagli. Secondo l'Agenzia federale per l'ambiente, nel 2020 la percentuale sarà del 67,4%, mentre ChatGPT ha indicato il 63%.
ChatGPT inventa, ma appare credibile
In alcuni casi, ChatGPT ha generato informazioni false o falsificate, come riferimenti inventati o link falsi, anche a presunti articoli e contributi in pubblicazioni scientifiche. Altri errori si sono verificati nei casi in cui ChatGPT ha fornito fonti o letteratura scientifica concreta e corretta, ma ne ha tratto conclusioni false.
I ricercatori hanno anche osservato che le risposte inesatte venivano formulate in modo così plausibile da ChatGPT da essere falsamente percepite come corrette. "Poiché i generatori di testo come ChatGPT sono addestrati a fornire risposte che sembrino corrette per le persone, lo stile di risposta sicuro può indurre le persone a credere che la risposta sia corretta", afferma Maike Gossen.
Il team si è anche imbattuto in disinformazione nei discorsi sociali e pregiudizi. Per esempio, alcune delle risposte errate di ChatGPT riflettevano malintesi sulle misure efficaci per combattere il cambiamento climatico. Tra queste, la sopravvalutazione dei cambiamenti comportamentali individuali, ma anche le misure individuali di scarso impatto che rallentano i cambiamenti strutturali e collettivi di maggiore impatto. A volte, le risposte sono apparse anche eccessivamente ottimistiche sulle soluzioni tecnologiche come strumento chiave per mitigare il cambiamento climatico.
Fonte preziosa ma fallibile
I grandi modelli linguistici come ChatGPT potrebbero essere una fonte preziosa di informazioni sul cambiamento climatico, riassumono i ricercatori. Tuttavia, c'è il rischio che diffondano e promuovano informazioni false sul cambiamento climatico perché riflettono fatti obsoleti e fraintendimenti.
Il breve studio dimostra che verificare le fonti di informazione ambientale e climatica è più importante che mai. Tuttavia, riconoscere le risposte false spesso richiede conoscenze specialistiche approfondite nella rispettiva area tematica, proprio perché appaiono plausibili a prima vista.
Fontewww.ntv.de