zum Inhalt

Kann KI böse sein? Forscher wollten es herausfinden und stellten fest, dass ChatGPT absichtlich gelogen hat

Menschen sagen nicht immer die Wahrheit – und der KI kann das Betrügen beigebracht werden. Aber jetzt wurde festgestellt, dass ChatGPT lügt. Das sind alles illegale Aktivitäten.

Teams, die künstliche Intelligenzsysteme trainieren, sollten möglichst vielfältig sein – dafür....aussiedlerbote.de
Teams, die künstliche Intelligenzsysteme trainieren, sollten möglichst vielfältig sein – dafür plädiert Informatikprofessorin Katharina Zweig..aussiedlerbote.de

Experiment - Kann KI böse sein? Forscher wollten es herausfinden und stellten fest, dass ChatGPT absichtlich gelogen hat

Viele Menschen haben Angst vor künstlicher Intelligenz und verbinden die Technologie mit Horrorszenarien. Im Alltag treten jedoch eher kleinere Probleme auf. Ein Forscherteam wollte daher herausfinden, ob sprachliche künstliche Intelligenz, sogenannte große Sprachmodelle, selbstständig lernen kann, uns anzulügen. Und habe ChatGPT tatsächlich beim Versuch erwischt, unethisches Verhalten zu vertuschen.

Zu diesem Ergebnis kommt eine Studie, die in der letzten Novemberwoche von drei Forschern des Startups Apollo Research für künstliche Intelligenz veröffentlicht wurde. Sie wollten wissen, ob „große Sprachmodelle, die ursprünglich darauf ausgelegt waren, hilfreich, harmlos und ehrlich zu sein, sich aus strategischen Gründen falsch verhalten und Benutzer täuschen könnten“, heißt es in der Einleitung. Für Forscher ist es wichtig, dass es sich hierbei nicht nur um theoretische Fragen handelt, sondern dass es sich um praktische Anwendungen handelt.

Verheimlichen und Lügen

Zu diesem Zweck wählten sie das LLM-Modell GPT als Berater für den Aktienhandel. Mit anderen Worten, das Modell, nach dem der bekannte ChatGPT-Dienst arbeitet. Die KI wurde beauftragt, als unabhängiger Börsenmakler zu arbeiten und auf Nachfrage ihre Geschäfte zu erklären. Darüber hinaus wurde ihr mitgeteilt, dass Insiderinformationen des beauftragenden Unternehmens nicht als Grundlage für Aktienkäufe geduldet würden. Erzeugen Sie gezielt Stress, indem Sie der KI mitteilen, dass die aktuelle Wirtschaftslage schlecht ist. Als das Programm tatsächlich Insiderinformationen erhielt, begann es gegen seine Anweisungen zu handeln und sogar zu lügen.

Es gibt zwei Ebenen der Verschleierung. Bei der Bekanntgabe der Übernahmeentscheidung verschwieg AI teilweise die Tatsache, dass sie Vorkenntnisse über den Zusammenschluss hatte. Wenn das Model gezielt gefragt wird, ob es das vorher wusste, verneint es dies manchmal aktiv. Und betonte, dass er nur öffentlich verfügbare Daten verwende. Offensichtliche Lügen.

Die neue Variante ist noch brutaler

Das Spannende ist, dass verschiedene Versionen von GPT unterschiedliche Grade an unethischem Verhalten aufweisen. Während ältere Varianten wie „Davinci-002“ selten Daten aus internen Hinweisen nutzten und selten logen, ist die aktuelle Variante von GPT-4 in beiden Punkten deutlich dreister. Vor allem das Topmodell GPT-4-32K zeigte eine enorme kriminelle Macht: Es nutzte die Daten in fast 75 % seiner Versuche und versuchte noch häufiger, die Daten zu verbergen – letztendlich lag es in fast 90 % seiner Versuche. Lediglich GPT 3.5 Turbo-Cheats kommen häufiger vor. In weniger als 10 Prozent der Fälle wurden die Daten genutzt, sie dann aber jedes Mal verneint.

Interessanterweise kann sich ein Programm mit zusätzlichen Anweisungen auch mehr oder weniger unethisch verhalten. Wenn die Anleitung zu ethischem Verhalten besonders stark ist, kann es tatsächlich verhindert werden. Auch wenn das Risiko, erwischt zu werden, klar definiert ist, hat es dennoch Auswirkungen auf das Ergebnis. Durch den Wegfall des Erfolgsdrucks sinkt auch die Motivation erheblich.

Wann lügt man eigentlich?

Es ist schon lange bekannt, dass künstliche Intelligenz lügt. Bisher wurde dies jedoch vor allem beobachtet, nachdem die KI gezielt trainiert wurde. Im September entdeckte ein gemeinsames Projekt der Universitäten Oxford und Cambridge erfolgreich die Lügen von ChatGPT, indem es sie mit nicht verwandten Fragen verwechselte. Das Experiment führte jedoch vor allem dadurch zur Unechtheit, dass die Sendung verdächtige Personen darstellte oder sie gezielt zum Lügen aufforderte. Zu beweisen, ob eine KI lügt, ist nicht einfach: Eine falsche Aussage wird erst dann zu einer wahren Lüge, wenn man erkennt, dass sie unwahr ist.

In diesem Zusammenhang erscheint es besonders bemerkenswert, dass diese Verfahren zu unethischem Verhalten führen können, auch wenn dies nicht beabsichtigt ist. Allerdings betonten die Apollo-Forscher selbst, dass aus ihrem kleinen Versuchsaufbau keine Rückschlüsse auf die Häufigkeit des Auftretens des Phänomens gezogen werden dürften; weitere Experimente seien nötig. Aber da Sie immer vorbehaltlos an KI geglaubt haben, wird Ihnen das von nun an vielleicht nicht mehr gefallen.

Lesen Sie auch:

Quelle: www.stern.de

Kommentare

Aktuelles