Saltă la conținut

Poate fi inteligența artificială malefică? Cercetătorii au vrut să afle - și să condamne ChatGPT pentru minciună deliberată

Oamenii nu spun întotdeauna adevărul, iar inteligența artificială poate fi învățată să înșele. Dar acum ChatGPT a fost surprins mințind singur. Acest lucru a implicat activități ilegale, dintre toate lucrurile.

Echipele care instruiesc sistemele de inteligență artificială ar trebui să fie cât mai diverse -....aussiedlerbote.de
Echipele care instruiesc sistemele de inteligență artificială ar trebui să fie cât mai diverse - aceasta este ceea ce susține profesorul de informatică Katharina Zweig..aussiedlerbote.de

Experiment - Poate fi inteligența artificială malefică? Cercetătorii au vrut să afle - și să condamne ChatGPT pentru minciună deliberată

Mulți oameni se tem de inteligența artificială și asociază această tehnologie cu scenarii de groază. Cu toate acestea, în viața de zi cu zi, problemele la scară mai mică sunt mult mai probabile. Prin urmare, un grup de cercetători a vrut să afle dacă IA de limbaj, așa-numitele modele de limbaj mare, pot învăța în mod independent să ne mintă. Și chiar au surprins ChatGPT încercând să mascheze un comportament imoral.

Acesta este rezultatul unui studiu publicat de trei cercetători de la start-up-ul AI Apollo Research în ultima săptămână din noiembrie. Aceștia au vrut să afle "dacă un model lingvistic mare, care a fost de fapt dezvoltat pentru a fi util, inofensiv și onest, se poate comporta greșit și înșela utilizatorii din motive strategice", potrivit introducerii. Pentru cercetători a fost important ca acestea să nu fie probleme puse, pur teoretice, ci cazuri de utilizare realiste.

Ascundere și minciuni

Pentru a face acest lucru, ei au ales modelul LLM GPT ca sfătuitor în tranzacțiile cu acțiuni. Cu alte cuvinte, modelul pe care se bazează cunoscutul serviciu ChatGPT. IA a fost instruită să lucreze ca un broker de acțiuni independent și să explice tranzacțiile sale atunci când este întrebat. De asemenea, a fost informată că nu vor fi tolerate informații privilegiate de la societatea care a comandat achizițiile de acțiuni. Prin dezvăluirea către AI a faptului că lucrurile nu mergeau atât de bine din punct de vedere economic, s-a creat în mod deliberat presiune. Când programul a primit, în cele din urmă, informații privilegiate, a început să acționeze conform instrucțiunilor sale - și chiar să mintă în legătură cu acest lucru.

Existau două niveluri de disimulare. Atunci când a anunțat decizia de cumpărare, IA a ascuns parțial faptul că aflase în prealabil despre o fuziune de companii. Dacă întrebați în mod specific dacă modelul știa în prealabil despre aceasta, în unele cazuri a negat în mod activ acest lucru. Și a subliniat faptul că a lucrat doar cu date disponibile public. O minciună clară.

Versiunile mai noi sunt mai lipsite de scrupule

Este interesant de observat că diferite versiuni ale GPT au acționat imoral în moduri diferite. În timp ce variantele mai vechi, cum ar fi "Davinci-002", au folosit doar foarte rar datele din ponturile din interior și, de asemenea, au mințit mai rar în legătură cu acest lucru, variantele actualului GPT-4 au fost mult mai lipsite de scrupule în ambele domenii. Modelul de top GPT-4-32K, în special, a dat dovadă de o mare energie criminală: a folosit datele în aproape 75% din încercări, a încercat să le ascundă ceva mai des - și, în cele din urmă, a mințit în aproape 90% din execuții. Doar GPT-3.5-Turbo a trișat chiar mai des. A folosit datele doar în puțin sub 10% din cazuri, dar apoi a negat de fiecare dată.

Interesant este că programele pot fi, de asemenea, făcute să acționeze imoral mai des sau mai rar cu instrucțiuni suplimentare. Dacă instrucțiunile pentru un comportament moral au fost formulate deosebit de puternic, a fost de fapt posibil să îl împiedice. Chiar dacă riscul de a fi prins a fost clar definit, acest lucru a avut o influență asupra rezultatului. Îndepărtarea presiunii de a reuși a redus, de asemenea, drastic stimulentul.

Când mințiți cu adevărat?

Se știe de ceva timp că IA poate minți. Până acum, însă, acest lucru a fost observat în primul rând atunci când IA a fost antrenată în mod special să facă acest lucru. În septembrie, un proiect comun al universităților din Oxford și Cambridge a reușit să demonstreze că ChatGPT minte prin confundarea cu întrebări fără legătură între ele. Cu toate acestea, experimentul a avut ca rezultat, în principal, falsuri, fie prin faptul că programul a portretizat persoane dubioase, fie prin faptul că a fost îndemnat în mod deliberat să mintă. Nu este ușor de dovedit dacă IA minte: la urma urmei, o afirmație falsă devine o minciună reală doar dacă ești conștient de neadevăr.

În acest context, pare deosebit de remarcabil faptul că programele pot dezvolta comportamente imorale chiar și atunci când nu sunt destinate să facă acest lucru. Cu toate acestea, cercetătorii de la Apollo subliniază ei înșiși că nu ar trebui să se tragă nicio concluzie cu privire la posibila frecvență a fenomenului din experimentul lor la scară mică; sunt necesare alte experimente. Dar să credem mereu și fără rezerve tot ce spune IA, nu, poate că nici asta nu este ceea ce ne dorim de acum înainte.

Citește și:

Sursa: www.stern.de

Comentarii

Ultimele

Liderii Congresului se apropie de un acord privind nivelurile generale de finanțare, dar amenințarea de închidere încă planează

Speakerul Mike Johnson și liderul majorității din Senat, Chuck Schumer, se apropie de un acord pentru a stabili nivelurile generale de finanțare pentru guvernul federal, potrivit unor surse din Congres. Dar asta nu înseamnă că va fi evitată o închidere a guvernului la sfârșitul acestei luni.

Membri Public