Как узнать, было ли видео сделанным с помощью ИИ
Эта статья является частью серии Lifehacker «Разоблачение ИИ». Мы исследуем шесть различных типов медиа, созданных с помощью ИИ, и выявляем общие особенности, побочные эффекты и отличительные черты, которые помогут отличить искусственно созданный контент от созданного человеком.
Компании, занимающиеся видео-генераторами, очень взволнованы: они хвалят творческие возможности, которые предлагают эти новые модели, и восхищаются впечатляющими результатами. С моей точки зрения, однако, технология, позволяющая любому создавать реалистичные видео с простым запросом, не является веселой или многообещающей, а пугающей. Хотите ли вы жить в мире, где любое онлайн-видео могло быть создано из ничего с помощью ИИ? Нравится вам это или нет, мы движемся именно в этом направлении.
Когда вы даете плохим актерам инструменты для манипуляции видео до такой степени, что многие, если не большинство, людей поверят, что они настоящие, вы подливаете бензин в огонь, который горит с тех пор, как первый человек солгал в интернете. Сейчас более важно, чем когда-либо, быть бдительным к тому, что мы видим онлайн, и критически относиться ко всем видео, которые якобы представляют реальность - особенно когда эта реальность предназначена для того, чтобы вызвать у нас реакцию или повлиять на наше мировоззрение.
Видео, созданные с помощью ИИ, не все одинаковы
На данный момент есть два типа видеороликов, на которые следует обратить внимание. Во-первых, это видеоролики, полностью созданные с помощью моделей ИИ, цельные последовательности, которые не используют реальный видеоматериал и не существовали до своего создания. Например, модель OpenAI Sora, способная создавать короткие, но высококачественные видео, которые могут легко обмануть людей, заставив их поверить в их реальность. К счастью для нас, Sora все еще находится в стадии разработки и пока не доступна для широкой публики, но есть и другие инструменты, которые знающие люди могут использовать для генерации таких видеороликов с нуля.
Более актуальным и более тревожным для ближайших последствий являются видеоролики, измененные с помощью ИИ. Речь идет о deepfakes: реальных видеороликах, в которых с помощью ИИ накладывается одно лицо на другое или изменяется настоящее лицо в соответствии с манипулированным аудиоконтентом.
Мы рассмотрим способы распознавания обоих типов контента видеороликов, созданных с помощью ИИ: по мере того, как генераторы видеороликов ИИ становятся лучше и более доступными, вы можете начать видеть эти видеоролики в онлайн-пространстве так же, как и AI-изображения. Будьте бдительны.
Как работают генераторы видеороликов ИИ
Как и другие модели генеративного ИИ, генераторы видеороликов ИИ обучаются на огромном количестве данных. В то время как модели ИИ, обрабатывающие изображения, обучаются на отдельных изображениях и учатся распознавать паттерны и отношения в статике, генераторы видеороликов ИИ обучаются распознавать отношения между множеством изображений и то, как эти изображения изменяются в последовательности. В конце концов, видео - это всего лишь серия отдельных изображений, воспроизводимых со скоростью, создающей иллюзию движения. Если вы хотите, чтобы программа создавала видеоролики из ничего, она не только должна уметь создавать объекты в этих видеороликах, но и знать, как эти объекты должны меняться кадр за кадром.
Программы deepfake специально обучаются на лицах и разработаны для имитации движений и эмоций видеоролика, на который накладывается. Они часто используют генеративную противоположную сеть (GAN), которая устанавливает два ИИ-модели друг против друга: одну, которая генерирует контент ИИ, и другую, которая пытается определить, является ли этот контент генерацией ИИ. С другой стороны, модель, подобная Sora, в теории может генерировать видео по любому запросу. Sora является тем, что называется моделью диффузии, которая добавляет «шум» (на самом деле статику) к данным обучения, пока исходное изображение не исчезнет. Отсюда модель пытается создать новую версию этих данных из шума, что обучает ее создавать новый контент с нуля.
На данный момент еще рано для полной генерации видеороликов ИИ, и хотя технология deepfake уже неплоха, она еще не идеальна. Есть ограничения, которые, возможно, не будут присутствовать в будущих версиях этих технологий, но на данный момент есть признаки, на которые можно обратить внимание, чтобы определить, настоящее ли это видео или манипулированное.
Лица не выглядят совсем правильно
Технология наложения одного лица на другое впечатляет, но она еще далек от идеала. Во многих (если не во всех) случаях deepfake есть очевидные признаки подделки. Часто это похоже на плохой фотошоп: лицо не сочетается с остальной частью головы, освещение не соответствует сцене, в которой оно находится, и все это имеет эффект «неловкого вала». Если вы смотрите видео с известной личностью, говорящей или делающей что-то спорное, внимательно посмотрите на их лицо: возможно, здесь играет роль ИИ? Это видео «Президента Обамы», говорящего глупости, демонстрирует некоторые из этих визуальных недостатков.
Губы не соответствуют речи
Точно так же один из недостатков текущей технологии deepfake заключается в том, что она плохо сочетает движения искусственного лица с речью - особенно если речь также является искусственной.
Посмотрите на этот deepfake Андерсона Купера из прошлого года: искусственное лицо более реалистично, чем видео Обамы выше, но движения губ не соответствуют речи, данной ИИ-Андерсону. Так много deepfakes, циркулирующих в социальных сетях, сделаны так плохо, и они очевидные подделки ИИ, если знать, на что смотреть. Многие люди этого не знают, поэтому они видят видео с политиком, говорящим что-то, что им не нравится, и считают, что это правда - или они достаточно развлекаются, чтобы не заботиться об этом.
Ищите сбои и артефакты
Искусственные интеллектуальные генераторы видео, подобно генераторам изображений, создают видео с причудливыми артефактами и помехами. Вы можете заметить, как листья на дереве мигают, когда камера приближается к ним, или как люди на заднем плане движутся с другой частотой кадров, чем остальная часть видео. Хотя видео ниже на первый взгляд кажется реалистичным, оно полно этих помех, особенно в деревьях (кроме того, обратите внимание, как машины на дороге слева постоянно исчезают).
Но худшие из них - это дезфэйки. Эти видео часто выглядят ужасно, как будто они были загружены и перезагружены тысячу раз, потеряв всю четкость в процессе. Это сделано специально, чтобы замаскировать недостатки, присутствующие в видео. Большинство дезфэйков выдадут себя в мгновение ока, если их показать в 4K, так как высокое качество видео подчеркнет все их упомянутые недостатки. Но когда вы снижаете качество, становится легче скрыть эти дефекты, и,thus, легче обмануть людей, заставив их поверить, что видео настоящее.
Физика неверна
Камера видеозаписи будет фиксировать мир таким, какой он есть, по крайней мере, в пределах возможностей ее объектива и датчика. С другой стороны, искусственный интеллект, генерирующий видео, создает видео на основе того, что он видел раньше, но без какого-либо дополнительного контекста. Он ничего не знает, поэтому заполняет пробелы как может. Это может привести к странной физике в видеороликах, созданных искусственным интеллектом.
Например, Сора сгенерировала видео церкви на утесе вдоль Амальфитанского побережья. На первый взгляд, оно кажется довольно убедительным. Но если присмотреться к морю, вы увидите, что волны движутся в противоположном направлении от берега.
Генератор также создал поверхностно убедительное видео о человеке, бегущем на беговой дорожке. Большой подсказкой здесь является то, что человек бежит "вперед", глядя в противоположную сторону от беговой дорожки, так как модель не понимает, как должны работать беговые дорожки. Но если присмотреться, вы увидите, что шаг человека не нормальный: как будто верхняя часть его тела время от времени останавливается, в то время как нижняя часть продолжает движение. В реальном мире это было бы невозможно, но Сора не понимает, как должна работать физика бега.
В другом видео "археологи" обнаруживают пластиковое кресло в песках пустыни, вытаскивают его и отряхивают. Хотя это сложный запрос для модели, и она создает некоторые реалистичные моменты, физика всего предприятия совершенно неверна: кресло появляется из ниоткуда, человек, держащий его, несет его так, как никогда не делал бы человек, и кресло в конце концов плавает прочь само по себе, в итоге превращаясь в нечто совсем другое к концу клипа.
Слишком много конечностей
Искусственные модели, создающие этот видеоконтент, не понимают, сколько конечностей у вас должно быть. Они улавливают связь между движениями конечностей между кадрами, но не совсем понимают, что это должны быть те же конечности на протяжении всей сцены.
Вот почему вы увидите, как руки, ноги и лапы появляются и исчезают на протяжении всего видео. Хотя это не происходит все время, вы можете увидеть это в этом видео Соры: когда "камера" следует за женщиной, идущей вперед, видна третья рука, которая плавает перед ней между ее левой рукой и левым боком. Это тонко, но это именно то, что делают генераторы видео на основе искусственного интеллекта.
В этом примере очень внимательно посмотрите на кошку: к концу клипа она вдруг генерирует третью лапу, так как модель не понимает, что такого рода вещи обычно не происходят в реальном мире. С другой стороны, когда женщина перекатывается в постели, ее "рука" кажется превращающейся в простыни.
Ничего не имеет смысла
Лишние конечности не имеют большого смысла, но в искусственном видео часто бывает больше, чем это. Опять же, эти модели ничего не знают: они просто пытаются воспроизвести запрос на основе набора данных, на котором они были обучены. Они знают, что город на Амальфитанском побережье должен быть полон каменных лестниц, но они, похоже, не понимают, что эти лестницы должны куда-то вести. В демонстрационном видео OpenAI многие из этих лестниц размещены беспорядочно, без какого-либо реального назначения.
В этом же видео посмотрите на "людей" в толпе. Сначала может показаться, что это группа туристов, прогуливающихся по городу, но некоторые из этих туристов просто исчезают в воздухе. Некоторые выглядят так, как будто они спускаются по лестнице, но они не используют лестницы, ведущие никуда: они просто "ходят вниз" по ровной поверхности.
Послушайте, уже давно важно относиться к тому, что вы видите в интернете, с долей скептицизма. Вам не нужен искусственный интеллект, чтобы писать вводящие в заблуждение блог-посты, которые искажают правду, или манипулировать видеоклипом, чтобы рассказать историю так, как вы хотите. Но видео на основе искусственного интеллекта отличаются: не только само видео манипулируется, но и вся история, возможно, никогда не происходила. Жаль, что мы должны так цинично относиться к интернету (и к более широкому миру), но когда один запрос может создать целый видеоролик из ничего, у нас есть другой выбор?
С ростом популярности генераторов видео на основе ИИ крайне важно оставаться бдительными и критически оценивать любое видео, которое утверждает, что представляет собой реальность, особенно если оно пытается вызвать эмоции или повлиять на наше восприятие. Это особенно актуально по мере того, как ИИ становится более доступным, и мы начинаем видеть все больше таких манипуляций с видео в интернете.