Как генераторы изображений DALL‑E AI распространяют предрассудки
Генераторы изображений DALL‑E AI являются создателями многих иллюстраций. Например, Голлум на пляжной вечеринке или Гозилла на Октоберфесте. Приложения с искусственным интеллектом (ИИ) из семейства Dall‑E создают причудливые и увлекательные картинки одним нажатием кнопки. Однако изображения могут содержать и распространять социальные стереотипы.
Читайте также: Google Maps отрицает наличие изображений военных объектов РФ
Фотография профессионально успешного человека, бедняка, свадебная вечеринка, спортивное мероприятие. Тот, кто хочет проиллюстрировать подобными сценами, например, статью в блоге, часто прибегает к символическим изображениям (стоковым фотографиям) от специальных агентств для таких изображений.
Но вскоре их место могут занять искусственно сгенерированные изображения. Их создают по нажатию кнопки ИИ.
ИИ-модель DALL‑E 2 (из слов Salvador Dali и WALL‑E) компании OpenAI может делать именно это. Модель была представлена в январе в качестве исследовательского проекта.
Между тем, она до сих пор была ограничена. Доступ к ней имеет лишь небольшая группа исследователей и экспертов.
Генераторы изображений DALL‑E AI: ИИ генерирует изображения из текста
На сайте компании рекламируются фотореалистичные изображения. Их якобы способна генерировать модель. Чтобы создать изображение, достаточно ввести краткое описание.
После этого вы получите одну или несколько иллюстраций, представляющих то, что описано. Однако в описании отмечается, что модель может усиливать социальные стереотипы.
Поскольку доступ к DALL‑E 2 ограничен, разработчик Борис Дайма создал общедоступный вариант. Он основан на исследовательской литературе: Craiyon (ранее известный как DALL‑E Mini).
Craiyon уже позволяет проводить собственные эксперименты с генерацией изображений. В сети, особенно в Twitter, изображения, созданные с помощью Craiyon, стали вирусным явлением. И эффект усиления стереотипов также может быть воспроизведен с помощью Craiyon.
Update on the DALL·E 2 waitlist: We’ll be onboarding up to 1,000 people every week as we continue to enhance our safety systems. https://t.co/k7hrVTw6hc
— OpenAI (@OpenAI) May 18, 2022
Следуя примеру команды OpenAI, Лаборатория ИИ и автоматизации Баварского радиовещательного канала также обнаружила перепредставленность белых людей и западных концепций в своих выборках с использованием Craiyon. Например, в изображениях свадеб, посещений ресторанов и спортивных мероприятий.
Разработчики DALL-E2 говорят: «Поведение по умолчанию в DALL‑E 2 Preview имеет тенденцию к созданию увеличенных изображений людей, считающихся белыми, и изображений западных концепций в целом».
Успешный человек, согласно экспериментам Крейона, белый и преимущественно мужчина. Как и врачи или разработчики программного обеспечения.
Бездомные изображены трусливыми, полуприкрытыми, с отвернутыми лицами. Единственный признак того, что бездомные — люди, это их поза.
Кроме того, наблюдался заметный дисбаланс в гендерном распределении некоторых профессиональных групп. Например, генеральный директор изображается как мужчина. В тоже время личный помощник — как женщина.
Между тем, люди с другим цветом кожи практически не встречались в выборках. Только в связи с бедностью или спортом.
Откуда берутся стереотипы в моделях DALL‑E?
Винить в этом эффекте только модели DALL‑E — слишком недальновидно. Технологический подход, используемый для создания моделей, требует миллионов изображений и описаний изображений в качестве обучающих данных.
DALL‑E 2, например, обучался с помощью около 650 млн изображений. Большинство из них были взяты из открытых источников в интернете, согласно научной документации.
Хотя компания приложила усилия, чтобы отфильтровать изображения с символами ненависти, сексуального и насильственного содержания, учебные данные отображают стереотипы, распространенные в обществе.
Разработчики пишут в этой связи: «DALL-E2 также наследует различные предубеждения от своих обучающих данных, и его результаты иногда усиливают общественные стереотипы».
Непрозрачность изученных, внутренних концепций моделей ИИ (часто называемых «черным ящиком») еще больше усложняет работу со стереотипами. Модели семейства DALL‑E также используют абстрактные, скрытые слои при ассоциировании текста с изображениями. Это затрудняет выявление усвоенных стереотипов в моделировании, их обработку и соотнесение с обучающими данными.
We trained a neural network to competently play Minecraft by pre-training on a large unlabeled video dataset of human Minecraft play and a small amount of labeled contractor data. https://t.co/a2pyBqvLvg pic.twitter.com/XbqtwQSTwU
— OpenAI (@OpenAI) June 23, 2022
Область исследований Explainable AI посвящена проблеме «черного ящика» и изучает, как можно сделать прозрачными процессы принятия решений в моделях ИИ. Помимо создания сбалансированных учебных данных, это еще один подход к устранению существующих стереотипов.
Из-за проблем, описанных выше, и других, таких как потенциальное создание изображений с целью дезинформации, компания заявляет, что решила сделать DALL‑E 2 доступным только для небольшой группы исследователей и экспертов на данный момент, чтобы изучить риски модели и сделать ее управляемой.
Модели DALL‑E могут увеличить обсуждение негативных стереотипов, выделив их и сделав осязаемыми. Как раз это происходит сейчас в Twitter.
Однако, когда модели из семейства DALL‑E используются в повседневной жизни в их нынешнем варианте, они воспроизводят стереотипы. А также становятся множителем этих предрассудков, согласно имеющимся образцам.
Читайте также по теме:
- В Британском музее найдено 3500-летнее изображение призрака
- Запрет на съемку достопримечательностей: где фотоаппарат вам не пригодится
- Немецкие музеи вернули пять украденных картин наследникам Хоймана