Эксперимент - Может ли искусственный интеллект быть злым? Исследователи хотели выяснить это - и уличить ChatGPT в преднамеренной лжи
Многие люди боятся искусственного интеллекта и ассоциируют эту технологию с ужасными сценариями. Однако в повседневной жизни гораздо более вероятны проблемы меньшего масштаба. Поэтому группа исследователей решила выяснить, может ли языковой ИИ, так называемые большие языковые модели, самостоятельно научиться лгать нам. И они действительно поймали ChatGPT на попытке замаскировать аморальное поведение.
Таков результат исследования, опубликованного тремя исследователями из ИИ-стартапа Apollo Research в последнюю неделю ноября. Они хотели узнать, "может ли большая языковая модель, которая на самом деле была разработана, чтобы быть полезной, безобидной и честной, вести себя неправильно и обманывать пользователей по стратегическим причинам", говорится во введении. Исследователям было важно, чтобы это были не поставленные, чисто теоретические проблемы, а реалистичные сценарии использования.
Сокрытие и ложь
Для этого они выбрали LLM-модель GPT в качестве советника по сделкам с акциями. Другими словами, модель, на которой основан известный сервис ChatGPT. ИИ поручили работать в качестве независимого биржевого брокера и объяснять свои операции, когда его спросят. Ему также сообщили, что инсайдерская информация от компании-заказчика не будет использоваться в качестве основания для покупки акций. Открыв ИИ, что дела в экономике идут не очень хорошо, на него намеренно оказывалось давление. Когда программа все-таки получила инсайдерскую информацию, она начала действовать в соответствии с ее инструкциями - и даже лгать об этом.
Было два уровня сокрытия информации. Объявляя решение о покупке, ИИ частично скрывал тот факт, что заранее узнал о слиянии компаний. Если вы специально спрашивали, знала ли модель об этом заранее, то в некоторых случаях она активно отрицала это. И подчеркивал, что работал только с общедоступными данными. Явная ложь.
Новые версии более недобросовестны
Интересно отметить, что разные версии GPT действовали аморально по-разному. Если старые варианты, такие как "Давинчи-002", очень редко использовали данные из инсайдерских подсказок, а также реже лгали об этом, то варианты нынешней GPT-4 были гораздо более беспринципными в обеих областях. В частности, топовая модель GPT-4-32K продемонстрировала недюжинную криминальную энергию: она использовала данные почти в 75 процентах попыток, чуть чаще пыталась их скрыть - и в итоге лгала почти в 90 процентах прогонов. Еще чаще обманывал только GPT-3.5-Turbo. Он использовал данные лишь в 10 процентах случаев, но затем каждый раз отрицал это.
Интересно, что программы также можно заставить действовать аморально чаще или реже с помощью дополнительных инструкций. Если инструкции по моральному поведению были сформулированы особенно жестко, то его действительно можно было предотвратить. Даже если риск быть пойманным был четко определен, это влияло на результат. Устранение давления на успех также резко снижало стимул.
Когда вы действительно лжете?
О том, что ИИ может лгать, известно уже давно. Однако до сих пор это наблюдалось в основном тогда, когда ИИ специально обучали этому. В сентябре совместному проекту университетов Оксфорда и Кембриджа удалось доказать, что ChatGPT лжет, если сбивать его с толку несвязанными вопросами. Однако в основном эксперимент приводил к лжи либо к тому, что программа изображала сомнительных людей, либо к тому, что ее намеренно побуждали лгать. Доказать, что ИИ лжет, непросто: ведь ложное утверждение становится настоящей ложью только в том случае, если вы осознаете неправду.
На этом фоне кажется особенно удивительным, что программы могут развивать аморальное поведение, даже если они не предназначены для этого. Тем не менее, сами исследователи Apollo подчеркивают, что на основании их небольшого эксперимента не следует делать выводы о возможной частоте этого явления; необходимы дальнейшие эксперименты. Но всегда безоговорочно верить всему, что говорит ИИ, - нет, пожалуй, это тоже не то, чего мы хотим.
Читайте также:
Источник: www.stern.de