Wie erkennt man, ob das Video, das man sieht, mit KI gemacht wurde?
Dieser Beitrag ist Teil der Lifehacker-Serie „AI enttarnt“. Wir untersuchen sechs verschiedene Arten von künstlich erzeugten Medien und heben die gemeinsamen Macken, Nebenprodukte und Erkennungsmerkmale hervor, die helfen, zwischen künstlich und von Menschen geschaffenen Inhalten zu unterscheiden.
AI-Unternehmen sind begeistert von Video-Generierungsmodellen: Sie preisen die kreativen Möglichkeiten, die diese neuen Modelle bieten, und genießen die beeindruckenden Ergebnisse. Aus meiner Sicht jedoch ist eine Technologie, die es jedem ermöglicht, mit einem einfachen Prompt realistische Videos zu erstellen, nicht lustig oder vielversprechend, sondern beängstigend. Willst du wirklich in einer Welt leben, in der jedes Online-Video, das du siehst, von künstlicher Intelligenz aus dem Nichts erstellt worden sein könnte? Ob es dir gefällt oder nicht, dahin steuern wir.
Wenn man böswilligen Akteuren die Werkzeuge gibt, Videos bis zu einem Grad zu manipulieren, den viele, wenn nicht die meisten Menschen im Vorbeigehen glauben, sind sie real, schürt man ein Feuer, das seit dem ersten Lügner im Internet brennt. Es ist jetzt wichtiger denn je, wachsam zu sein und ein kritisches Auge auf alle Videos zu werfen, die behaupten, die Realität darzustellen - insbesondere dann, wenn diese Realität dazu bestimmt ist, uns zu provozieren oder unsere Weltsicht zu beeinflussen.
AI-Videos sind nicht alle gleich
Im Moment gibt es zwei Arten von AI-Videos, auf die man achten sollte. Die erste sind Videos, die vollständig von AI-Modellen generiert wurden, ganze Sequenzen, die keinen echten Film verwenden und vorher nicht existiert haben. Denk an das OpenAI-Sora-Modell, das in der Lage ist, kurze, aber hochwertige Videos zu erstellen, die leicht dazu verführt werden können, dass sie echt sind. Glücklicherweise für uns ist Sora noch in der Entwicklung undcurrently nicht für die Öffentlichkeit verfügbar, aber es gibt andere Tools, die Eingeweihte verwenden können, um diese Videos von Grund auf neu zu generieren.
Was jedoch im Moment relevanter und für die kurzfristigen Auswirkungen besorgniserregender ist, sind Videos, die von AI verändert wurden. Denk an Deepfakes: echte Videos, die künstliche Intelligenz verwenden, um das Gesicht einer Person auf ein anderes zu legen oder ein echtes Gesicht an manipulierte Audioinhalte anzupassen.
Wir werden Methoden vorstellen, um beide Arten von AI-Videoinhalten zu erkennen: Wenn AI-Video-Generatoren besser werden und zugänglicher werden, könnten diese Videos online auftauchen, wie AI-Bilder es bereits getan haben. Bleib wachsam.
Wie AI-Video-Generatoren funktionieren
Wie andere generative AI-Modelle werden AI-Video-Generatoren mit einer riesigen Menge an Daten gefüttert, um zu funktionieren. Während AI-Bildmodelle mit einzelnen Bildern trainiert werden und lernen, Muster und Beziehungen in statischen Teilen zu erkennen, werden AI-Video-Generatoren trainiert, die Beziehungen zwischen mehreren Bildern und wie sich diese Bilder in der Sequenz ändern zu erkennen. Ein Video ist schließlich einfach eine Serie von einzelnen Bildern, die mit einer Geschwindigkeit abgespielt wird, die die Illusion von Bewegung schafft. Wenn du ein Programm haben möchtest, das Videos aus dem Nichts generiert, muss es nicht nur in der Lage sein, die Gegenstände in diesen Videos zu generieren, sondern auch wissen, wie sich diese Gegenstände Rahmen für Rahmen ändern sollten.
Deepfake-Programme sind speziell auf Gesichter trainiert und so konzipiert, dass sie die Bewegungen und Emotionen des Videos imitieren, auf das sie gelegt werden. Sie verwenden oft ein generatives adversariales Netzwerk (GAN), das zwei AI-Modelle gegeneinander antreten lässt: eines, das künstliche Inhalte generiert, und eines, das versucht, zu erkennen, ob dieser Inhalt künstlich generiert wurde. Auf der anderen Seite ist ein Modell wie Sora in der Theorie in der Lage, Videos zu jedem Thema zu generieren, das du ihm geben kannst. Sora ist das, was als Diffusionsmodell bezeichnet wird, das "Rauschen" (im Grunde statisches Rauschen) auf Trainingsdaten hinzufügt, bis das ursprüngliche Bild verschwunden ist. Von hier aus versucht das Modell, eine neue Version dieser Daten aus dem Rauschen zu erstellen, was es trainiert, neuen Inhalt von Grund auf neu zu erstellen.
Es ist noch früh für die vollständige AI-Video-Generierung, und obwohl die Deepfake-Technologie gut ist, ist sie nicht perfekt. Es gibt Einschränkungen, die in zukünftigen Iterationen dieser Technologien möglicherweise nicht mehr vorhanden sein werden, aber heute gibt es Anzeichen, nach denen du suchen kannst, um herauszufinden, ob das Video, das du siehst, echt ist oder manipuliert wurde.
Die Gesichter sehen nicht ganz richtig aus
Die Technologie, um das Gesicht einer Person auf ein anderes zu legen, ist beeindruckend, aber alles andere als perfekt. In vielen (wenn nicht den meisten) Fällen hat ein Deepfake offensichtliche Fälschungssignale. Oft sieht es aus wie eine mittelmäßige Photoshop-Bearbeitung: Das Gesicht passt nicht in den Rest des Kopfes, das Licht passt nicht zur Szene, in der es eingesetzt wird, und das Ganze hat einen unheimlichen Effekt.
Wenn du ein Video von einer bekannten Person siehst, die etwas Kontroverses sagt oder tut, schau dir ihr Gesicht genau an: Könnte künstliche Intelligenz hier eine Rolle gespielt haben? Dieses Video von "Präsident Obama", der lächerliche Dinge sagt, zeigt einige der Schwächen. Dieses Deepfake wurde vor sechs Jahren erstellt, aber es zeigt einige der bekannten optischen Mängel, die diese Art von AI-veränderten Videos hat:
Die Münder passen nicht zur Sprache
Ebenso ist ein Mangel an aktueller Deepfake-Technologie, dass sie Schwierigkeiten hat, die Mundbewegungen des falschen Gesichts an die darunterliegende Sprache anzupassen - insbesondere, wenn die Sprache ebenfalls künstlich ist.
Schau dir dieses Deepfake von Anderson Cooper aus dem letzten Jahr an: Das falsche Gesicht ist realistischer als das Video von Obama oben, aber die Mundbewegungen passen nicht zur gegebenen künstlichen Anderson-Sprache:
So viele der Deepfakes, die auf Social-Media-Plattformen zirkulieren, sind so schlecht gemacht und sind offensichtlicher AI-Müll, wenn man weiß, wonach man suchen muss. Viele Menschen tun das jedoch nicht, also sehen sie ein Video von einem Politiker, der etwas sagt, das sie nicht mögen, und gehen davon aus, dass es wahr ist - oder sind amüsiert genug, um es nicht zu interessieren.
Wie AI-Video-Generatoren arbeiten, erzeugen sie Videos mit seltsamen Fehlern und Artefakten. Man könnte bemerken, wie die Blätter an einem Baum flackern, wenn die Kamera sich darauf zubewegt, oder wie Menschen im Hintergrund mit einer anderen Bildrate laufen als der Rest des Videos. Während das unten gezeigte Video auf den ersten Blick realistisch erscheint, ist es voller dieser Fehler, insbesondere bei den Bäumen. (Außerdem achte darauf, wie die Autos auf der Straße links ständig verschwinden.)
Aber das Schlimmste davon sind Deepfakes. Diese Videos sehen oft schrecklich aus, als hätten sie tausendmal heruntergeladen und hochgeladen worden, wobei alle Klarheit verloren ging. Das ist absichtlich gemacht, um die Fehler im Video zu kaschieren. Die meisten Deepfake-Videos würden sich sofort verraten, wenn sie in 4K präsentiert würden, da das hohe Auflösungsvideo alle genannten Fehler hervorheben würde. Aber wenn man die Qualität verringert, wird es leichter, diese Unvollkommenheiten zu verstecken, und damit leichter, Menschen dazu zu bringen, das Video für echt zu halten.
Die Physik stimmt nicht
Eine Videokamera nimmt die Welt so auf, wie sie ist, zumindest sofern es die Linse und der Sensor erlauben. Ein AI-Video-Generator hingegen erstellt Videos basierend auf dem, was er zuvor gesehen hat, aber ohne zusätzlichen Kontext. Er weiß eigentlich nichts und füllt die Lücken so gut wie möglich. Das kann zu merkwürdiger Physik in AI-erzeugten Videos führen.
Sora hat zum Beispiel ein Video einer Kirche auf einer Klippe an der Amalfiküste erzeugt. Auf den ersten Blick sieht espretty überzeugend aus. Aber wenn man sich auf das Meer konzentriert, sieht man, dass die Wellen in die falsche Richtung bewegt werden.
Das Modell hat auch ein Video eines Mannes erzeugt, der auf einem Laufband läuft. Der große Hinweis hier ist, dass der Mann "vorwärts" läuft, während er vom Laufband wegschaut, da das Modell nicht genau versteht, wie Laufbänder funktionieren sollten. Aber wenn man genau hinschaut, sieht man, dass der Schritt des Mannes nicht normal ist: Es ist, als ob der obere Teil seines Körpers manchmal anhält, während der untere Teil weitergeht. In der realen Welt wäre das nicht wirklich möglich, aber Sora versteht nicht, wie die Laufphysik funktionieren sollte.
In einem anderen Video "entdecken" "Archäologen" einen Plastikstuhl in den Sandwüsten, ziehen ihn heraus und klopfen ihn ab. Während dies eine komplizierte Anforderung für das Modell ist und es einige realistische Momente rendert, sind die Physik des gesamten Unternehmens weit entfernt: Der Stuhl erscheint aus dem Nichts, die Person, die ihn hält, trägt ihn auf eine Art und Weise, die kein Mensch je tun würde, und der Stuhl schwebt am Ende des Clips davon und verzerrt sich schließlich zu etwas anderem entirely.
Es gibt zu viele Gliedmaßen
Die AI-Modelle, die dieses Video-Material erzeugen, verstehen nicht, wie viele Gliedmaßen man haben sollte. Sie erkennen den Zusammenhang, dass Gliedmaßen sich zwischen den Frames bewegen, verstehen aber nicht, dass es dieselben Gliedmaßen throughout die Szene sein sollten.
Das ist der Grund, warum Arme, Beine und Pfoten im Laufe eines Videos erscheinen und wieder verschwinden. Während es nicht immer passiert, kann man es in diesem Sora-Video sehen: Wenn die "Kamera" der Frau folgt, die vorwärts geht, taucht eine dritte Hand zwischen ihrem linken Arm und ihrer linken Seite auf. Es ist subtil, aber das ist die Art von Ding, die AI-Video-Generatoren tun werden.
In diesem Beispiel schau sehr genau auf die Katze: gegen Ende des Clips generiert sie plötzlich eine dritte Pfote, da das Modell nicht versteht, dass so etwas in der realen Welt normalerweise nicht passiert. Auf der anderen Seite scheint der "Arm" der Frau, wenn sie sich im Bett umdreht, in die Laken zu verwandeln.
Dinge ergeben keinen Sinn
Extra Gliedmaßen machen nicht viel Sinn, aber es ist oft mehr als das in einem AI-Video. Wiederum verstehen diese Modelle nicht wirklich etwas: Sie versuchen einfach, die Eingabe basierend auf dem Datensatz, auf dem sie trainiert wurden, zu replizieren. Sie wissen zum Beispiel, dass eine Stadt an der Amalfiküste viele steinerne Treppen haben sollte, verstehen aber nicht, dass diese Treppen irgendwohin führen müssen. In OpenAIs Demo-Video sind viele dieser Treppen chaotisch placed, ohne wirkliche Destination.
In diesem selben Video, schau auf die "Menschen" in der Menge. Zuerst könnte es aussehen wie eine Gruppe von Touristen, die durch die Stadt schlendern, aber einige dieser Touristen verschwinden einfach in Luft auf. Einige sehen aus, als würden sie die Treppe runtergehen, verwenden aber nicht die Treppen ins Nirgendwo: Sie gehen einfach "die Treppe runter" auf dem ebenen Boden.
Schau, es war schon wichtig, den Dingen, die man im Internet sieht, mit einer Prise Salz zu begegnen, schon seit einer Weile. Man braucht kein AI, um irreführende Blog-Beiträge zu schreiben, die die Wahrheit verdrehen, oder ein Video-Clip zu manipulieren, um die Geschichte so zu erzählen, wie man es will. Aber AI-Video ist anders: Nicht nur wird das Video selbst manipuliert, sondern das Ganze könnte nie passiert sein. Es ist schade, dass wir das Internet (und die Welt insgesamt) so skeptisch betrachten müssen, aber wenn ein einziger Prompt ein ganzes Video aus dem Nichts erzeugen kann, was bleibt uns anderes übrig?
Im Bereich der Technologiefortschritte hat die Fähigkeit, realistische AI-Videos mit einfachen Prompts zu erzeugen, sowohl Aufregung als auch Besorgnis ausgelöst. Es ist ein Doppel-edged Schwert, da Tools wie das Sora-Modell hochwertige Videos erzeugen können, die potenziell Zuschauer täuschen könnten.
Mit dem Aufkommen von AI-Videogeneratoren ist es wichtig, wachsam zu bleiben und jede Videoinhalte kritisch zu hinterfragen, die behaupten, die Realität darzustellen, insbesondere wenn sie darauf abzielen, unsere Perspektiven zu beeinflussen. Dies gilt besonders, da AI immer zugänglicher wird und wir immer häufiger diese Video-Manipulationen im Internet sehen.