Сотни изображений сексуального насилия над детьми обнаружены в наборе данных, используемом для обучения инструментов искусственного интеллекта, генерирующих изображения

Более тысячи изображений материалов, содержащих сексуальное насилие над детьми, были обнаружены в обширном публичном наборе данных, который использовался для обучения популярных моделей искусственного интеллекта, генерирующих изображения, сообщили исследователи Стэнфордской интернет-обсерватории в исследовании, опубликованном ранее на этой неделе.

GettyImages-723499975.jp:

Сотни изображений сексуального насилия над детьми обнаружены в наборе данных, используемом для обучения инструментов искусственного интеллекта, генерирующих изображения

Присутствие этих изображений в обучающих данных может облегчить моделям ИИ создание новых реалистичных изображений контента, содержащего насилие над детьми, или «глубоко подделанных» изображений детей, подвергающихся эксплуатации.

Результаты исследования также вызывают ряд новых опасений, связанных с непрозрачным характером обучающих данных, которые служат основой для нового поколения мощных генеративных инструментов ИИ.

Массивный набор данных, который исследовали ученые из Стэнфорда, известный как LAION 5B, содержит миллиарды изображений, взятых из Интернета, в том числе из социальных сетей и сайтов развлечений для взрослых.

По словам исследователей из Стэнфорда, из более чем пяти миллиардов изображений в наборе данных они выявили по меньшей мере 1008 случаев сексуального насилия над детьми.

LAION, немецкая некоммерческая организация, стоящая за набором данных, заявила в заявлении на своем сайте, что она придерживается «политики нулевой терпимости к незаконному контенту».

Организация заявила, что получила копию отчета из Стэнфорда и в настоящее время занимается оценкой его выводов. Она также отметила, что наборы данных проходят через «интенсивные инструменты фильтрации», чтобы обеспечить их безопасность и соответствие законодательству.

«Излишняя осторожность заставила нас отключить LAION 5B», – добавила организация, заявив, что она сотрудничает с британским фондом Internet Watch Foundation, «чтобы найти и удалить ссылки, которые могут по-прежнему указывать на подозрительный, потенциально незаконный контент в публичной сети».

LAION заявила, что планирует завершить полный обзор безопасности LAION 5B ко второй половине января и планирует повторно опубликовать набор данных в это время.

Стэнфордская команда, тем временем, заявила, что в настоящее время идет процесс удаления идентифицированных изображений после того, как исследователи сообщили URL-адреса изображений в Национальный центр по делам пропавших и эксплуатируемых детей и Канадский центр защиты детей.

В своем отчете исследователи заявили, что, хотя разработчики LAION 5B пытались фильтровать определенный откровенный контент, ранняя версия популярной модели генерации изображений Stable Diffusion в конечном итоге была обучена «широкому спектру контента, как откровенного, так и иного».

Представитель Stability AI, лондонского стартапа, стоящего за Stable Diffusion, сообщил CNN в своем заявлении, что эта ранняя версия, Stable Diffusion 1.5, была выпущена отдельной компанией, а не Stability AI.

А исследователи из Стэнфорда отмечают, что Stable Diffusion 2.0 в основном отфильтровывала результаты, которые считались небезопасными, и в результате в обучающем наборе практически не было откровенных материалов.

«Этот отчет посвящен набору данных LAION-5b в целом», – сказал представитель Stability AI в заявлении CNN. «Модели Stability AI были обучены на отфильтрованном подмножестве этого набора данных. Кроме того, впоследствии мы провели тонкую настройку этих моделей для смягчения остаточного поведения».

Пресс-секретарь добавил, что Stability AI использует только те версии Stable Diffusion, которые включают фильтры, удаляющие небезопасный контент из моделей.

«Удаляя этот контент до того, как он попадет в модель, мы можем предотвратить создание моделью небезопасного контента», – сказал представитель компании, добавив, что компания запрещает использовать свои продукты для незаконной деятельности.

Однако исследователи из Стэнфорда отмечают в своем отчете, что Stable Diffusion 1.5, которая все еще используется в некоторых уголках интернета, остается «самой популярной моделью для создания откровенных изображений».

В рамках своих рекомендаций исследователи заявили, что модели, основанные на Stable Diffusion 1.5, должны быть «устаревшими и прекратить распространение там, где это возможно».

В более широком смысле, в Стэнфордском отчете говорится, что массивные веб-базы данных являются весьма проблематичными по ряду причин, даже с учетом попыток фильтрации безопасности, из-за возможного включения в них не только материалов о сексуальном насилии над детьми, но и из-за других проблем с конфиденциальностью и авторскими правами, возникающих при их использовании.

В отчете рекомендуется ограничить использование таких наборов данных «только в исследовательских целях» и использовать для публично распространяемых моделей только «более тщательно проработанные и хорошо обеспеченные данными наборы».

Обсуждение

0 комментариев

Старые

Новые Популярные

Межтекстовые Отзывы

Посмотреть все комментарии

«AI Overviews»: поиск от Google с ИИ появился в Германии

Сегодня в 22:47

Уборка на автопилоте: роботы-уборщики помогают в школах Касселя

Сегодня в 00:30

Тестирование ePA: система не готова к масштабированию

24 марта 2025 в 17:42

Meta AI станет доступен в ЕС уже со следующей недели

24 марта 2025 в 17:00

В древней галактике найден кислород: его не должно быть там!

22 марта 2025 в 00:15

Партнерский материал

Новый роман Виктора Ерофеева “Великий гопник” – доступен!

Титановое сердце: австралиец прожил 100 дней без пульса

20 марта 2025 в 16:19

Поспать на 500 € за науку: необычный эксперимент в Кельне

18 марта 2025 в 01:52

Как выглядит Антарктида без льда: карта преподнесла сюрприз

14 марта 2025 в 21:14

Глобальный сбой: вышла из строя платформа Илона Маска Х

10 марта 2025 в 19:16

NASA отключает инструменты Voyager

10 марта 2025 в 00:17

Лекарства печатают на 3D-принтере: новые возможности в фармацевтике

08 марта 2025 в 10:00

Использование любых материалов, размещённых на сайте, разрешается при условии ссылки на наш сайт. При копировании материалов для интернет-изданий – обязательна прямая открытая для поисковых систем гиперссылка. Ссылка должна быть размещена в независимости от полного либо частичного использования материалов. Гиперссылка (для интернет- изданий) – должна быть размещена в подзаголовке или в первом абзаце материала. Ответственность за достоверность фактов, цитат, имён собственных и другой информации несут авторы публикаций, а рекламной информации – рекламодатели. Редакция может не разделять мнение авторов. Рукописи и электронные материалы не рецензируются и не возвращаются. Редакция оставляет за собой право редактировать материалы. При использовании наших материалов – ссылка на газету обязательна.

Читайте также:

Читайте также:

Обсуждение

Самые последние новости