Как узнать, написал ли ИИ то, что вы читаете
Эта статья является частью серии Lifehacker «Разоблачение ИИ». Мы исследуем шесть различных типов медиа, созданных с помощью ИИ, и выявляем общие особенности, побочные эффекты и отличительные черты, которые помогут отличить искусственно созданный контент от созданного человеком.
С тех пор, как ChatGPT представил миру генеративный ИИ в конце 2022 года, стало очевидно, что впредь нельзя доверять тому, что вы читаете, было ли оно написано человеком. Вы можете попросить программу ИИ, подобную ChatGPT, написать что угодно — и она это сделает в считанные секунды. Так как же можно доверять тому, что вы читаете, и знать, что это пришло в голову человеку, а не является продуктом алгоритма?
Если продолжающееся сдувание пузыря ИИ чему-то и научило нас, так это тому, что большинство людей как-то ненавидят ИИ в целом, что означает, что они, вероятно, не рады идее, что то, что они читают, было бездумно выплюнуто машиной. Тем не менее, некоторые полностью приняли способность ИИ генерировать реалистичный текст, хоть и не всегда с лучшими результатами. В прошлом году CNET тихо начала публиковать контент, созданный ИИ, наряду с человеческими статьями, но столкнулась с осуждением и обратной связью от своих же сотрудников. Бывший родительский сайт Lifehacker, G/O Media, также публиковал контент, созданный ИИ, но делал это открыто и столкнулся с той же обратной связью — как за внедрение технологии без какого-либо участия сотрудников, так и из-за того, что сам контент был просто ужасен.
Но не все тексты, созданные с помощью ИИ, так явно выдают себя. При правильном использовании программы ИИ могут генерировать убедительный текст — даже если вы все равно можете заметить признаки, указывающие на его нечеловеческое происхождение.
Как работает письмо ИИ
Генеративный ИИ — это не какой-то всезнающий цифровой разум, который может отвечать на ваши вопросы так же, как человек. Он не является «интеллектуальным» в буквальном смысле этого слова. Текущие инструменты ИИ работают с помощью больших языковых моделей (LLM), которые являются глубокими обучающимися алгоритмами, обученными на огромных наборах данных — в данном случае, наборах данных текста. Это обучение формирует все их ответы на запросы пользователей. Когда вы просите ChatGPT что-то написать, ИИ разбирает ваш вопрос и определяет, что он «думает», являются наиболее важными элементы в вашем запросе. Он затем «предсказывает», какая последовательность слов будет наиболее подходящей для ответа на ваш запрос, основываясь на его понимании отношений между словами.
Более мощные модели могут одновременно обрабатывать больше информации и возвращать более длинные, более естественные результаты. Кроме того, чат-боты часто программируются с помощью специальных инструкций, которые применяются ко всем запросам, что, если использовать их стратегически, может потенциально скрыть обычные признаки текста, созданного ИИ.
Тем не менее, независимо от того, как вы побуждаете ИИ отвечать, он подчиняется своему обучению, и, скорее всего, появятся признаки того, что данный фрагмент текста был создан с помощью LLM. Вот на что стоит обратить внимание.
Обращайте внимание на часто используемые слова и фразы
Поскольку чат-боты были обучены распознавать отношения между словами, они склонны использовать определенные слова и фразы чаще, чем человек. Нет конкретного списка слов и фраз, которые служили бы красными флагами, но если вы используете инструмент, такой как ChatGPT, достаточно долго, вы, возможно, начнете замечать их.
Например, ChatGPT часто использует слово «погрузиться», особенно при переходах в тексте (например, «Давайте погрузимся в его значение»). Этот инструмент также любит выражать, как идея «подчеркивает» общий аргумент (например, «Этот опыт подчеркивает важность упорства...»), и как что-то является «примерами» чего-то другого. (Я сгенерировал три эссе с помощью ChatGPT для этого раздела — два с GPT-4o и одно с GPT-4o mini — и «примера» появилась в каждом из них.)
Аналогично, вы можете заметить повторное использование слов, таких как «возникать», «неумолимый», «передовая», среди других примечательных постоянных. В частности, когда ChatGPT описывает коллекцию чего-либо, он часто называет ее «мозаикой» или «гобеленом» (например, «Культурный ландшафт Мадрида — это яркая мозаика»).
Этот пост на Reddit с r/chatgpt перечисляет много таких часто генерируемых — хотя стоит отметить, что пост уже 10 месяцев, и OpenAI часто обновляет свои модели, так что некоторые из них могут уже не быть актуальными. При моем тестировании я обнаружил, что некоторые из самых часто цитируемых слов из этого поста не появлялись в моих тестовых эссе вообще, в то время как другие определенно появлялись, но с разной частотой.
Все эти слова, безусловно, можно использовать и в вашем собственном письме. Если ученик пишет «погрузиться» в своем эссе, это не является неопровержимым доказательством того, что они сгенерировали его с помощью ChatGPT. Если сотрудник пишет, что что-то является «примером» чего-то другого в отчете, это не означает, что они передают свою работу на аутсорсинг ИИ. Это просто один из аспектов письма ИИ, на который стоит обратить внимание в будущем.
AI имеет плохую привычку использовать цветистый язык в своих генерациях, независимо от того, используете ли вы модель OpenAI GPT или Google Gemini. AI часто пытается продавить вас, что бы он ни говорил: город, о котором он пишет, часто "неотъемлемый", "живой" и "опора" страны, в которой он находится; аналогия "красиво" подчеркивает общий аргумент; отрицательное последствие не просто плохо, а "катастрофическое". Ни один из этих примеров сам по себе не является фатальным, но если вы прочитаете достаточно текста AI, вы начнете чувствовать, как будто разговариваете с толковым словарем.
Это становится еще более очевидным, когда чат-бот пытается использовать неформальный тон. Если бот пытается изобразить настоящего человека, он часто бывает слишком веселым и преувеличенным, и ему не хватает энтузиазма, чтобы слушать, что вы хотите сказать. В моем тестировании для этой статьи модель ChatGPT GPT-4o не казалась делать это так много, как раньше, предпочитая более лаконичные ответы на личные запросы, но чат-бот Meta AI по-прежнему делает это, вступая в роли и лучшего друга, и терапевта всякий раз, когда я делюсь вымышленной проблемой.
Если вы читаете эссе или статью, выражающую аргумент, обратите внимание на то, как "автор" строит свои пункты. Кто-то, кто просит AI-инструмент написать эссе на тему без значительного руководства, часто получает эссе, которое не углубляется в аргументы. AI, скорее всего, сгенерирует короткие абзацы, предлагающие поверхностные пункты, которые не добавляют много для углубления аргумента или вклада в нарратив, маскируя эти ограничения упомянутыми $10 словами и цветистым языком. Каждый абзац может казаться больше резюме аргумента, а не попыткой внести вклад в него сам по себе. Помните, LLM даже не знает, о чем он спорит; он просто соединяет слова, которые, как он считает, принадлежат вместе.
Если вы чувствуете, что ушли от этого куска, не узнав ничего нового, это может быть вина AI.
Проверка фактов и вычитка
LLM - это черные ящики. Их обучение настолько сложно, что мы не можем заглянуть внутрь, чтобы увидеть, как они установили свои знания о отношениях между словами. Но мы знаем, что все AI имеет способность (и склонность) к галлюцинациям. другими словами, иногда AI просто выдумывает вещи. Опять же, LLM не знают ничего: они просто предсказывают шаблоны слов на основе своего обучения. Так что, хотя многое из того, что они выдают, скорее всего, будет основано на правде, иногда они неправильно предсказывают, и вы можете получить странные результаты в конце. Если вы читаете кусок текста и видите заявление, которое знаете, что неверно, заявленное как факт, особенно без источника, будьте скептичны.**
С другой стороны, подумайте о том, сколько времени потребовалось на вычитку куска. Если там не было опечаток и грамматических ошибок, это также признак AI: эти модели могут выдумывать вещи, но они не выдают ошибки, подобные опечаткам. Конечно, может быть, автор убедился, что все "i" были точкой, а все "t" были перечеркнуты, но если вы уже обеспокоены тем, что текст был сгенерирован AI, идеальная грамматика может быть признаком.
Попробуйте детектор AI-текста (но и им тоже нельзя доверять)
Детектор AI, как и LLM, основаны на AI-моделях. Однако вместо того, чтобы обучаться на больших объемах общего текста, эти детекторы обучаются специально на AI-тексте. В theory, это означает, что они должны уметь распознавать AI-текст, когда им представляют образец. Это не всегда так.
Когда я писал об AI-детекторах в прошлом году, я предупреждал не использовать их, потому что они не были такими надежными, как заявляли. Сложно сказать, насколько они улучшились с тех пор: когда я подаю одну из моих историй через инструмент, такой как ZeroGPT, он говорит, что мой кусок был на 100% написан человеком. (Конечно.) Если я отправлю эссе, сгенерированное Gemini о значении того, что Гарри теряет родителей в серии Гарри Поттера, инструмент идентифицирует 94,95% куска как сгенерированный AI. (Единственный абзац, который он считает написанным человеком, был: "Этот личный интерес в конфликте отличает Гарри от других персонажей, предоставляя ему неуклонную цель." Конечно.)
И все же детектор по-прежнему проваливает тот же тест, который я дал ему в 2023 году: он считает, что 100% статьи 1, раздел 2 Конституции США сгенерированы AI. Кто-то скажите Конгрессу! Я также заставил его проанализировать этот короткий статью из The New York Times, опубликованную 16 июля 2015 года, задолго до появления современных LLM. И снова меня заверили, что кусок был на 100% AI.
Существует много детекторов AI на рынке, и может быть, некоторые из них лучше других. Если вы найдете один, который, как правило, надежно идентифицирует текст, который вы знаете, что он был написан человеком, как таковой, и аналогично для текста, который вы знаете, что он был сгенерирован AI, вперед и протестируйте текст, в котором вы не уверены. Но я все еще считаю, что лучший метод - проанализировать его самостоятельно. AI-текст становится все более реалистичным, но он все еще приходит с множеством признаков, которые выдают его - и часто вы знаете, когда видите это.
- Для более эффективного изучения текста, созданного ИИ, необходимо ознакомиться с общими языковыми особенностями, которые часто проявляются в моделях ИИ, например, чрезмерное использование определенных слов или фраз.
- В мире технологий растет потребность в умении отличать контент, созданный ИИ, от контента, созданного человеком, особенно по мере того, как чат-боты и другие инструменты ИИ продолжают развиваться и улучшаться.