Как узнать, была ли песня сделана с помощью ИИ?
Эта статья является частью серии Lifehacker «Разоблачение ИИ». Мы исследуем шесть разных типов медиаконтента, созданного с помощью ИИ, и выявляем общие особенности, побочные эффекты и отличительные черты, которые помогут отличить искусственный контент от созданного человеком.
Из всех видов контента, созданного с помощью ИИ, музыка, возможно, самая странная. Кажется, что просить компьютер создать полную песню из ничего так же, как и попросить ChatGPT написать вам эссе, но это возможно: приложения, подобные Suno, могут.generate song for you from a simple prompt, complete with vocals, instrumentals, melodies, and rhythm, some of which are way too convincing. По мере того, как эта технология совершенствуется, все труднее будет распознать музыку, созданную с помощью ИИ, когда вы наткнетесь на нее.
На самом деле, это уже довольно сложно. Конечно, есть примеры, которые очевидны (хотя они и хороши, никто не думает, что Планктон действительно поет все эти каверы), но есть много песен, созданных с помощью ИИ, которые обязательно обманут случайных слушателей. Инструментальная электронная музыка, которая уже звучит цифровой, особенно сложно различима и поднимает много этических вопросов, а также вызывает опасения по поводу будущего музыкальной индустрии.
Отставим это в сторону и сосредоточимся на задаче, стоящей перед нами: распознать музыку, созданную с помощью ИИ, когда вы услышите ее в дикой природе.
Как работает генерация музыки с помощью ИИ
Кажется, что волшебство, когда вы описываете песню в тексте, и ИИ-инструмент генерирует полную песню, в том числе вокал. Но на самом деле, это продукт машинного обучения.
Как и все генераторы ИИ, генераторы музыки ИИ основаны на моделях, которые обучаются на огромных объемах данных. Эти модели обучаются на образцах музыки, изучая отношения между звуками разных инструментов, вокала и ритма. Программы, которые создают ИИ-каверы, например, обучаются на голосе конкретного артиста: вы предоставляете достаточно образцов голоса этого артиста, и программа сопоставляет его с вокальной дорожкой, которую вы пытаетесь воспроизвести. Если модель хорошо обучена и вам хватит вокальных данных, вы, возможно, создадите убедительный ИИ-кавер.
Это чрезмерно упрощенное объяснение, но важно помнить, что эти «новые» песни возможны благодаря огромной базе данных других звуков и песен. Независимо от того, была ли вся песня создана с помощью ИИ или только вокал, модели, стоящие за технологией, выдают продукты на основе своего предыдущего обучения. Хотя многие из этих выходных впечатляют, есть постоянные особенности, на которые можно обратить внимание, если вы слушаете внимательно:
Аудио-артефакты и сбои
Большинство продуктов, созданных с помощью генеративного ИИ, имеют некоторые артефакты или несоответствия, которые могут указать на их цифровое происхождение. Музыка, созданная с помощью ИИ, не исключение: аудио, которое генерируют модели ИИ, может звучать очень убедительно, но если прислушаться, вы можете услышать некоторые странности.
Возьмем, к примеру, песню Suno «Ain't Got a Nickel Ain't Got a Dime». Это тот тип ИИ-выхода, который, справедливо, должен напугать вас, так как он, скорее всего, обманет многих людей, заставив поверить, что он настоящий. Но прислушайтесь к вокалу: голос «певца» дрожит, но не так, как у человека. Он модулирует, почти как если бы он был авто-тюнингом, но звучит более роботизированным, чем цифровым. Как только вы привыкнете слушать этот звук, вы услышите, как он появляется во многих песнях ИИ. (Хотя я неохотно признаю, что этот припев довольно заразителен.)
Вот еще один пример, "Камень", который, возможно, еще более пугающий: есть моменты в этой песне, особенно строка «Я знаю, но что я должен делать», которые звучат очень реалистично. Но сразу после этой строки вы можете услышать те же модуляционные проблемы, как и выше, начиная с «О, моя любовь». Затем, вскоре после этого, есть странный сбой, где кажется, что певец и группа все вместе поют и играют не ту ноту.
Может быть, еще более показательно, что второй «припев» рассыпается. Он имеет те же слова, пока не reaches «Я знаю, но что я должен делать», но переходит наполовину, чтобы сказать «Я знаю, один день», превращаясь в слова другого куплета. Кроме того, ИИ не помнит, как шел оригинальный припев, так что он придумывает новую мелодию. Вторая попытка ни в коем случае не так реалистична, как первая.
Это тот случай, когда нужно доверять своему инстинкту: есть так много вокальных дорожек, отредактированных с помощью цифровых инструментов, что бывает трудно отличить эти сбои и модуляции от настоящих человеческих голосов. Но если что-то звучит немного слишком неловко, это, возможно, робот поет.
Низкое качество аудио
Если у вас есть современная служба потоковой передачи и хорошие наушники, вы, возможно, привыкли к очень высококачественной воспроизведению музыки. С другой стороны, музыка, созданная с помощью ИИ, часто имеет звук classic mp3. Он не четкий; вместо этого он часто бывает шероховатым, писклявым и плоским.
Вы можете услышать, о чем я, с большинством образцов, предлагаемых Soundful: пролистывайте варианты, и хотя вы, возможно, не задумаетесь о том, чтобы услышать что-либо фоном на YouTube-видео, обратите внимание, что ни одно из них не особенно четкое. Образцы Loudly немного лучше качеством, но все равно страдают от того же эффекта, как будто каждая дорожка была сжата в низкокачественный формат. Даже многие треки Suno, которые, возможно, создают лучшие ИИ-песни в данный момент, звучат так, как будто они были загружены через Napster. (Хотя они, кажется, начинают разбираться с басовой дроп.)
Очевидно, существует настоящий жанр лоу-фи музыки, который намеренно стремится к "низкому" качеству звучания. Но это всего лишь один из признаков, на которые стоит обратить внимание, чтобы определить, было ли создано трек с помощью ИИ или нет.
Отсутствие страсти
ИИ может генерировать вокал, даже относительно реалистичный, но он все еще не идеален. Технологии все еще борются с производством вокала с реалистичной вариативностью. Это можно назвать отсутствием страсти.
Послушайте песню "Back To The Start". Голос имеет общий роботизированный звук, но он также не идет никуда. Большинство слов поют в одном тоне; попсовый и легкий, но немного приглушенный, почти скучный.
В этом аспекте outputs ИИ улучшаются: Suno производит некоторые вокалы с реалистичной вариативностью (хотя не всегда). Даже Plankton имеет страсть в голосе, когда исполняет Chappell Roan:
Еще один признак, на который стоит обратить внимание, - это когда певец звучит "без дыхания" в песнях ИИ, когда многие слова звучат так, как будто они не совсем реализованы. Не знаю, что вызывает это явление, но я заметил его у многих певцов ИИ. Просто послушайте, как бедный Фрэнк Синатра борется с каждым словом, показывает кавер на Дью Липу:
Имеет ли песня хоть какой-то смысл?
При написании об ИИ я часто повторяю одну и ту же мысль: ИИ "не знает" ничего. Эти генеративные модели обучаются находить отношения, и их выходы - результат этих отношений, которые они узнали.
Таким образом, эти песни не являются доказательством того, что ИИ умеет делать музыку или как работает музыка. Это не делает их хорошими лириками или экспертами по написанию мелодий. Вместо этого они производят контент на основе своего предыдущего обучения, без критических способностей. В настоящее время это приводит к конечному продукту, который часто бывает убедительным при первом прослушивании, но если послушать снова или с внимательным ухом, все может рассыпаться. Когда вы слышите песню, которую, по вашему мнению, мог сделать ИИ, подумайте о разных элементах песни: эти lyrics действительно имеют смысл? Музыка течет логическим образом?
Вам не нужно быть экспертом по музыке, чтобы заметить это. Рассмотрим пример "Камня" выше: Suno, кажется, "забыл", как должен был пойти начальный припев, и на самом деле испортил lyrics, которые он установил в начале. Первый куплет также является мелочным беспорядком, особенно странная строка "без мыслей о тебе". Не говоря уже о том, что куплет короткий, переходя к припеву почти сразу. Поразительно, насколько "хорош" этот output для ИИ, но это не делает его "хорошей" песней.
Кто "поет"?
AI-обложки знаменитостей могут быть впечатляющими и часто звучат так же, как певец, которого они имитируют. Но сам факт того, что песня использует знаменитый голос, может быть признаком: если Тейлор Свифт покрывает Сабрину Карпентер, это будет новостью, не ограниченной YouTube-видео или Instagram-реелом. Если известный артист выпустит настоящую музыку, вы, скорее всего, найдете ее на стриминговой платформе, такой как Apple Music или Spotify, или хотя бы получите подтверждение от артиста, что они действительно записали кавер.
В сфере технологий и ИИ понимание того, как распознавать музыку, созданную ИИ, может быть критически важным. Несмотря на достижения в AI-песнях, таких как те, которые создаются приложениями, подобными Suno, все еще есть очевидные признаки, которые могут отличить их от музыки, созданной людьми. Например, хотя AI-музыка может звучать очень реалистично, внимательное прослушивание может раскрыть тонкие несоответствия и сбои, такие как модулирующие вокальные манеры в песнях, подобных "Ain't Got a Nickel Ain't Got a Dime" и "Stone". Кроме того, общее качество звука на этих треках, созданных ИИ, может не соответствовать кристально чистому, высококачественному звуку музыки, созданной людьми, который часто звучит нечетко или сжато.