Toutes les façons de dire qu'une image a été faite avec l'IA
Cet article fait partie de la série « Exposer l'IA » de Lifehacker. Nous explorons six types différents de médias générés par l'IA et mettons en évidence les particularités, sous-produits et caractéristiques communes qui vous aident à faire la différence entre le contenu créé par l'IA et celui créé par l'homme.
L'art généré par l'IA n'est plus seulement une idée : il est partout, et vous l'avez probablement rencontré dans la nature, que vous le sachiez ou non. L'art généré par l'IA a remporté des prix (bien que cela ait suscité des controverses), a été utilisé dans des films Netflix (toujours en suscitant des critiques) et a trompé des millions d'utilisateurs Facebook avec de fausses images de bébés, de Jésus et de légumes. Il ne disparaîtra pas de sitôt.
À mesure que la technologie de génération d'images s'améliore, il est plus important que jamais d'apprendre à repérer ces images générées par l'IA, afin de ne pas être dupé par les photos falsifiées de quelqu'un d'autre. Bien qu'il puisse sembler inoffensif de ne pas réfléchir à deux fois à une image générée par l'IA de quelques canards, lorsque des acteurs malveillants diffusent de la désinformation via des images générées par l'IA, les implications sont graves. Les entreprises qui fabriquent des générateurs d'images par l'IA travaillent sur des moyens de « marquer » les images produites par l'IA, mais nous n'en sommes pas encore là. La plupart des œuvres d'art générées par l'IA en ligne circulent sans étiquette claire avertissant les utilisateurs que les images ne sont pas réelles. En attendant, ces astuces peuvent vous aider à repérer ces images fausses lorsqu'elles apparaissent dans votre fil d'actualités.
Comment fonctionnent les générateurs d'art par l'IA
Il est facile de regarder une œuvre d'art générée par l'IA et de supposer que le générateur qui l'a produite l'a simplement assemblée à partir d'un tas d'images dans sa base de données. Ce n'est pas vraiment ce qui se passe ici.
Les générateurs d'art par l'IA sont en effet entraînés sur de vastes ensembles de données d'images, allant de l'art à la photographie. Cependant, ces outils ne « voient » pas ces images de la même manière que les humains. Au lieu de cela, ils les décomposent pixel par pixel. Il ne verra pas une pomme ; il verra un groupe de pixels et leurs valeurs. Au fil du temps, il apprendra que ce regroupement de ces valeurs de pixels particulières tend à être une pomme. En entraînant l'IA sur suffisamment d'images avec suffisamment de contexte, elle commencera à tracer des lignes entre tous les types d'objets et de styles. Elle comprendra comment rendre généralement les fruits, les animaux et les personnes, ainsi que les styles d'art, les couleurs et les humeurs.
Les générateurs d'images modernes, comme DALL-E, utilisent ce que l'on appelle la diffusion pour apprendre et générer des images. En gros, ils prennent une image d'apprentissage et ajoutent du bruit visuel (genre de statique) à l'image jusqu'à ce que l'image tout entière soit insignifiante. L'idée est de comprendre comment l'image est affectée en ajoutant du bruit à chaque étape : À partir de là, ils essaient l'inverse, en créant leur propre version de l'image d'origine à partir de rien sauf du bruit, ce qui entraîne l'IA à créer des images à partir de rien.
C'est une explication très simplifiée, mais il est important de comprendre l'idée fondamentale que ces générateurs puisent dans une immense base de relations apprises. Cela permet de rendre des scènes complexes en quelques secondes, mais c'est aussi ce qui entraîne les particularités bizarres qui peuvent nous aider à identifier une image générée par l'IA par rapport à une image réelle.
Prompt: "Generate an image of a group of friends smiling at each other while playing a board game."Credit: Jake Peterson/OpenAI
Comptez les doigts
L'art généré par l'IA s'améliore, mais il n'est pas encore parfait. Bien que ces outils soient capables de générer des images de haute qualité avec un éclairage réaliste, ils peinent encore avec les détails plus petits.
peut-être plus célèbre, les sujets « humains » dans l'art généré par l'IA ont tendance à avoir le mauvais nombre de doigts. Peut-être que le reste de l'image semble convaincant au premier coup d'œil, mais en regardant les mains, vous remarquerez six, sept ou huit doigts sur chaque main. Ou peut-être que c'est l'inverse, et que la main a trois doigts, dont deux se transforment en un seul. Dans tous les cas, les doigts et les mains qui y sont attachées sont souvent défectueux.
Mais alors que les doigts sont ce que l'IA est le plus célèbre pour se tromper, ses problèmes ne se limitent pas aux mains. Tout motif répétitif, surtout lorsqu'il s'agit de détails humains, peut être généré de manière incorrecte avec l'art généré par l'IA. Jetez un coup d'œil aux dents d'un sujet sur une image : parfois, il y en a beaucoup trop, ou elles sont déformées d'une manière qu'elles ne le seraient jamais normalement. La plupart d'entre nous n'ont pas de sourires parfaits, mais les dents de l'IA sont d'un autre niveau.
Vous pourriez même voir un sujet avec un membre supplémentaire : vous regarderez une image, vous vous demanderez ce qui cloche, puis tout à coup, vous remarquerez le troisième bras du sujet sortant de son sweat-shirt.
Vox a une vidéo passionnante expliquant pourquoi l'IA a du mal avec ces éléments répétitifs, mais en substance, cela tient à un manque d'expérience de l'IA. Ces outils sont entraînés sur une immense quantité de données, mais lorsque cela concerne quelque chose de compliqué, comme les mains, les données dont elle dispose ne fournissent pas suffisamment de contexte pour que le bot sache comment générer correctement et de manière réaliste l'élément. Il ne sait pas comment fonctionnent réellement les mains - il ne peut puiser que dans les mains qu'il voit. Nous assistons ici aux limites de cette connaissance.
Recherchez les éléments qui se mélangent
Ask DALL-E to generate a map, and it does to some degree of accuracy, albeit with "AI writing."Credit: Jake Peterson/OpenAI
Regardez suffisamment d'art généré par l'IA, et vous remarquerez quelque chose d'étrange : les choses se mélangent et se transforment les unes dans les autres un peu partout. J'ai déjà mentionné que cela se produit avec les doigts, mais cela peut se produire avec de nombreux autres éléments du sujet, notamment les dents qui se transforment en autres dents, les vêtements qui se mélangent en eux-mêmes, et les yeux qui semblent saigner dans les autres parties de la tête du sujet.
Mais ce n'est pas seulement les sujets : tout dans l'image est une cible possible pour ce mélange. Regardez l'image que j'ai générée avec DALL-E ci-dessous. Le jeu de société est ondulé, avec des parties du plateau qui se transforment en d'autres parties, et des pièces qui se mélangent aux tuiles. Les dents de la femme de droite sont toutes en train de se compresser, tandis que les manchettes du pull de l'autre femme se replient sur elles-mêmes. (Sans parler de ses doigts qui se mélangent en un seul.)
Prompts : "Générer une image d'un groupe d'amis qui se sourient les uns les autres en jouant à un jeu de société."Crédit : Jake Peterson/OpenAI
L'IA peut peut-être générer du texte, mais elle ne sait souvent pas bien écrire dans une image. Dans de nombreux cas, l'art AI qui incorpore de l'écriture a souvent l'air déformé. Parfois, c'est un logo qui ressemble à son homologue du monde réel, mais qui ne parvient pas à tout réaliser. (On peut voir qu'il essaie de dire Coca-Cola, mais toutes les lettres sont mélangées.) D'autres fois, cela ressemble à quelqu'un qui essaie d'inventer une langue, ou à ce que l'on ressent en essayant de lire quelque chose en rêve. (En fait, beaucoup de ces images AI ont une qualité onirique, au moins pour moi.)
Maintenant, ce côté de l'art AI s'améliore rapidement. À la fois DALL-E et Meta AI ont été capables de générer une image de gâteau qui lit "Joyeux anniversaire Karen" sans aucun problème majeur. Cela dit, celle de Meta n'était pas parfaite : la deuxième "P" dans "Joyeux" ressemblait plus à un "Y", tandis que le "A" dans "KAREN" avait deux traits à la place d'un seul. Mais il est important de noter que ces images sont meilleures lorsque vous demandez spécifiquement à l'IA de les écrire : laissée à elle-même, l'écriture a souvent l'air bizarre, donc si la personne qui a créé l'image n'a pas pensé à la corriger, cela peut être un indice évident.
Demandez à DALL-E de générer une carte, et il le fait dans une certaine mesure de précision, bien qu'avec une "écriture AI". Crédit : Jake Peterson/OpenAI
À la fin de la journée, l'art AI ne sait vraiment rien. Il produit de l'art en fonction des relations qu'il a forgées à partir de toutes ses données d'apprentissage. Il ne sait pas comment une construction est vraiment censée être construite, comment le tennis est joué, ou comment une main humaine bouge. S'il regarde de plus près, on peut voir ces lacunes dans la connaissance apparaître dans tout l'art AI, surtout dans les images avec beaucoup d'éléments.
Prompt: "Generate an image of a basement party: People play beer bong, drink from red solo cups, and chat."Credit: Jake Peterson/OpenAI
Prenez cette image, par exemple : j'ai demandé à DALL-E de générer une image d'une fête dans un sous-sol, avec des gens qui jouent au beer pong, boivent dans des gobelets rouges et discutent. Dès le départ, il y a de gros problèmes : les yeux des gens dans le cadre sont pour la plupart déformés ; la main de l'homme qui joue au beer pong est détraquée ; et pourquoi lance-t-il des balles de ping-pong sur le côté de la table ? Parlant de la table, elle est ondulée et se déforme d'une manière qu'une table réelle ne le ferait pas, et il y a deux ensembles de gobelets d'un côté de la table pour une raison inconnue.
Regardez vers l'arrière-plan, et les choses deviennent encore plus étranges. Un homme semble être à genoux, buvant son gobelet rouge comme s'il était une bouteille. L'homme derrière lui semble avoir une canette bleue à l'intérieur de son gobelet rouge, comme si le gobelet était un koozie. La personne derrière lui semble avoir son visage Photoshopé, flou comme le sujet l'est.
Prompts : "Générer une image d'une fête dans un sous-sol : les gens jouent au beer pong, boivent dans des gobelets rouges et discutent."Crédit : Jake Peterson/OpenAI
Même les exemples officiels des entreprises qui font ces outils ont ces incohérences logiques. OpenAI a une image amusante d'une avocate chez le thérapeute pour montrer DALL-E 3.
Crédit : OpenAI
L'avocat a un noyau évidé et se plaint au thérapeute, qui est une cuillère, de se sentir vide à l'intérieur. C'est une bonne blague, mais regardez le carnet de notes du thérapeute : ils écrivent à l'envers, avec les pages face à l'extérieur. DALL-E a vu suffisamment d'images de thérapeutes pour savoir quels outils ils utilisent habituellement pour écrire des notes, mais ne comprend pas que nous, les humains, écrivons habituellement sur le papier, pas sur le clipboard.
Bien sûr, les publications AI qui deviennent virales sur les sites de médias sociaux comme Facebook n'ont souvent aucun sens du tout. Qui construit des sculptures de chats avec des Oreos ? Pourquoi y a-t-il tant d'artistes tristes qui font des châteaux de sable de Jésus ? L'art peut être imaginatif, mais l'art AI est particulièrement bizarre, à la fois dans les détails plus petits et les thèmes plus larges.
Credit: OpenAI
Lustré AI
Après avoir regardé des images AI pendant un moment, vous commencez à remarquer quelque chose d'étrange, surtout parmi les images photo-réalistes : tout est brillant. Les images AI ont souvent ce que certains appellent "lustré AI", un éclat qui peut révéler l'origine de l'image si vous savez quoi chercher. Les images sont souvent surexposées, ou présentent un éclairage dramatique, ce qui rend les sujets particulièrement brillants.
Après un moment, vous regardez une photo comme celle-ci et savez instantanément qu'elle a été faite avec AI, rien qu'en la regardant. (Même si les mains du sujet ne sont pas bonnes, aussi.)
Tandis que ces astuces peuvent être pertinentes aujourd'hui, la technologie de l'IA continue d'évoluer et de s'améliorer, et il se peut qu'elle rende ces astuces inutiles dans un avenir proche. L'IA est déjà meilleure pour écrire, alors qui sait si elle ne trouvera pas un moyen de générer des mains réalistes à chaque fois ? Ou d'empêcher les éléments de la photo de se mélanger ? Ou d'arrêter d'ajouter des trucs bizarres en arrière-plan des images ? Et tandis que les astuces ci-dessus sont actuellement utiles pour les images photoréalistes, il peut être plus difficile d'identifier l'art généré par l'IA : ces pièces peuvent avoir les mêmes défauts que ceux mentionnés ci-dessus, mais il est plus facile de masquer ces incohérences avec de la "peinture", qui est souvent mélangée, moins réaliste et plus ouverte à l'interprétation.
Alors que nous nous dirigeons vers une année électorale particulièrement tumultueuse, il sera plus important que jamais d'aiguiser votre radar anti-conneries lorsque vous parcourez internet. Avant d'être impressionné par l'œuvre d'art détaillée de quelqu'un, ou en colère contre une image offensante, pensez deux fois : cette image est-elle même réelle ?
Malgré les progrès de la technologie de l'IA, il est encore possible d'identifier les images générées par l'IA grâce à des signes d'imperfection. L'une de ces indications est l'erreur fréquente dans la représentation des doigts humains, qui aboutit souvent à trop de digits ou à des formes incorrectes. Un autre problème courant est le mélange des éléments au sein de l'image, créant une apparence irréaliste.
À la lumière de ces particularités, les entreprises technologiques travaillent sur des solutions de filigrane pour les médias produits par l'IA afin d'assurer la transparence et l'authenticité. Cependant, la plupart des œuvres d'art générées par l'IA circulant en ligne restent non identifiées, ce qui rend crucial de développer une conscience de ces signes révélateurs pour éviter d'être trompé par la désinformation diffusée à travers les images de l'IA.
Prompt: Generate a photorealistic image of a woman holding a baseball with two hands. Credit: Jake Peterson/OpenAI