Hundreds of child sexual abuse images found in dataset used to train AI image generation tool
Das Vorhandensein dieser Bilder in den Trainingsdaten kann es KI-Modellen erleichtern, neue, realistische KI-generierte Bilder von Kindesmissbrauchsinhalten oder „Deepfake“-Bilder von ausgebeuteten Kindern zu erstellen.
Die Ergebnisse werfen auch neue Bedenken hinsichtlich der Undurchsichtigkeit der Trainingsdaten auf, die einer neuen Generation leistungsstarker generativer künstlicher Intelligenztools zugrunde liegen.
Der von Stanford-Forschern untersuchte riesige Datensatz namens LAION 5B enthält Milliarden von Bildern, die aus dem Internet stammen, darunter soziale Medien und Websites zur Erwachsenenunterhaltung.
Forscher der Stanford University sagten, sie hätten unter mehr als 5 Milliarden Bildern im Datensatz mindestens 1.008 Fälle von Material zum sexuellen Missbrauch von Kindern gefunden.
LAION, die deutsche gemeinnützige Organisation, die hinter dem Datensatz steht, sagte in einer Erklärung auf ihrer Website, dass sie eine „Null-Toleranz-Politik gegenüber illegalen Inhalten“ verfolge.
Die Gruppe sagte, sie habe eine Kopie des Stanford-Berichts erhalten und werte ihre Ergebnisse aus. Es wurde außerdem darauf hingewiesen, dass der Datensatz „intensive Filtertools“ durchlaufen habe, um seine Sicherheit und die Einhaltung der Gesetze zu gewährleisten.
„Wir haben LAION 5B aus großer Vorsicht offline geschaltet“, fügte die Organisation hinzu und sagte, sie arbeite mit der britischen Internet Watch Foundation zusammen, um „Links zu finden und zu entfernen, die möglicherweise immer noch auf verdächtige, potenziell illegale Inhalte für die Öffentlichkeit verweisen“. Netz. "
LAION sagte, es plane, bis zur zweiten Januarhälfte eine umfassende Sicherheitsüberprüfung von LAION 5B abzuschließen und plant, den Datensatz zu diesem Zeitpunkt erneut zu veröffentlichen.
Unterdessen sagte das Stanford-Team, dass es derzeit die identifizierten Bilder entfernt, nachdem Forscher die Bild-URLs dem National Centre for Missing and Exploited Children und dem Canadian Centre for Child Protection gemeldet hatten.
Während die Entwickler von LAION 5B versuchten, einige explizite Inhalte zu filtern, wurden frühe Versionen des beliebten Bilderzeugungsmodells Steady Proliferation letztendlich auf ein „breites Spektrum an Inhalten, einschließlich expliziter und anderer Inhalte“, trainiert, so die Forscher in dem Bericht.
Ein Sprecher von Stability AI, dem Londoner Startup hinter Stable Diffusion, sagte gegenüber CNN in einer Erklärung, dass diese frühe Version, Stable Diffusion 1.5, von einem anderen Unternehmen und nicht von Stability AI veröffentlicht wurde.
Die Stanford-Forscher stellten fest, dass Stable Diffusion 2.0 Ergebnisse, die als unsicher gelten, weitgehend herausfiltert, sodass das Trainingsset nur wenig explizites Material enthält.
„Dieser Bericht konzentriert sich auf den gesamten LAION-5b-Datensatz“, sagte ein Sprecher von Stability AI in einer Erklärung gegenüber CNN. „Stabilitäts-KI-Modelle wurden auf einer gefilterten Teilmenge dieses Datensatzes trainiert. Darüber hinaus haben wir diese Modelle anschließend verfeinert, um das Restverhalten zu reduzieren.“
Der Sprecher fügte hinzu, dass Stability AI nur die Stable Diffusion-Version hostet, die Filter enthält, um zu verhindern, dass unsichere Inhalte das Modell erreichen.
„Indem wir diese Inhalte entfernen, bevor sie das Modell erreichen, können wir dazu beitragen, zu verhindern, dass das Modell unsichere Inhalte generiert“, sagte der Sprecher und fügte hinzu, dass das Unternehmen die Verwendung seiner Produkte für illegale Aktivitäten verbietet.
Aber Stable Diffusion 1.5, das in einigen Teilen des Internets immer noch verwendet wird, bleibt „das beliebteste Modell zur Generierung expliziter Bilder“, berichten Stanford-Forscher.
Als Teil der Empfehlungen sagten die Forscher, dass Modelle, die auf Stable Diffusion 1.5 basieren, „veraltet und, wo möglich, aus der Verbreitung genommen werden sollten“.
Im weiteren Sinne heißt es im Stanford-Bericht, dass selbst bei Versuchen einer sicheren Filterung große, webbasierte Datensätze aus mehreren Gründen äußerst problematisch sind, nicht nur, weil sie möglicherweise Material über sexuellen Missbrauch von Kindern enthalten, sondern auch aus anderen Gründen der Privatsphäre und Sicherheit Bedenken. Urheberrechtsbedenken, die sich aus ihrer Verwendung ergeben.
Der Bericht empfiehlt, solche Datensätze auf „nur Forschungsumgebungen“ zu beschränken und nur „gut kuratierte und gut beschaffte Datensätze“ für öffentlich verbreitete Modelle zu verwenden.
Read also:
- Telefónica targets market launch for hologram telephony
- vzbv: Internet companies continue to cheat despite ban
- Telefónica targets market launch for hologram telephony in 2026
- Worldcoin project docks onto Telegram and Reddit
The discovery of these images in the LAION 5B dataset raises concerns about the transparency of the training data for the next generation of powerful generative AI tools.
The use of such datasets in the development of tech business products requires stricter regulations and more thorough checks to ensure compliance with ethical standards and laws.
Source: edition.cnn.com