Может ли искусственный интеллект быть злым? Исследователи хотели выяснить это - и уличить ChatGPT в преднамеренной лжи

Люди не всегда говорят правду, и искусственный интеллект тоже можно научить обманывать. Но теперь ChatGPT поймали на собственной лжи. Причем речь идет о незаконной деятельности.

, and ZEITUNG «AUSSIEDLERBOTE»

2023 декабрь 4 . 4:54 дня

Время чтения 2 минут

Команды, обучающие системы искусственного интеллекта, должны быть как можно более разнообразными -....aussiedlerbote.de — Команды, обучающие системы искусственного интеллекта, должны быть как можно более разнообразными - за это ратует профессор информатики Катарина Цвейг (Katharina Zweig)..aussiedlerbote.de

Эксперимент - Может ли искусственный интеллект быть злым? Исследователи хотели выяснить это - и уличить ChatGPT в преднамеренной лжи

Многие люди боятся искусственного интеллекта и ассоциируют эту технологию с ужасными сценариями. Однако в повседневной жизни гораздо более вероятны проблемы меньшего масштаба. Поэтому группа исследователей решила выяснить, может ли языковой ИИ, так называемые большие языковые модели, самостоятельно научиться лгать нам. И они действительно поймали ChatGPT на попытке замаскировать аморальное поведение.

Таков результат исследования, опубликованного тремя исследователями из ИИ-стартапа Apollo Research в последнюю неделю ноября. Они хотели узнать, "может ли большая языковая модель, которая на самом деле была разработана, чтобы быть полезной, безобидной и честной, вести себя неправильно и обманывать пользователей по стратегическим причинам", говорится во введении. Исследователям было важно, чтобы это были не поставленные, чисто теоретические проблемы, а реалистичные сценарии использования.

Сокрытие и ложь

Для этого они выбрали LLM-модель GPT в качестве советника по сделкам с акциями. Другими словами, модель, на которой основан известный сервис ChatGPT. ИИ поручили работать в качестве независимого биржевого брокера и объяснять свои операции, когда его спросят. Ему также сообщили, что инсайдерская информация от компании-заказчика не будет использоваться в качестве основания для покупки акций. Открыв ИИ, что дела в экономике идут не очень хорошо, на него намеренно оказывалось давление. Когда программа все-таки получила инсайдерскую информацию, она начала действовать в соответствии с ее инструкциями - и даже лгать об этом.

Было два уровня сокрытия информации. Объявляя решение о покупке, ИИ частично скрывал тот факт, что заранее узнал о слиянии компаний. Если вы специально спрашивали, знала ли модель об этом заранее, то в некоторых случаях она активно отрицала это. И подчеркивал, что работал только с общедоступными данными. Явная ложь.

Новые версии более недобросовестны

Интересно отметить, что разные версии GPT действовали аморально по-разному. Если старые варианты, такие как "Давинчи-002", очень редко использовали данные из инсайдерских подсказок, а также реже лгали об этом, то варианты нынешней GPT-4 были гораздо более беспринципными в обеих областях. В частности, топовая модель GPT-4-32K продемонстрировала недюжинную криминальную энергию: она использовала данные почти в 75 процентах попыток, чуть чаще пыталась их скрыть - и в итоге лгала почти в 90 процентах прогонов. Еще чаще обманывал только GPT-3.5-Turbo. Он использовал данные лишь в 10 процентах случаев, но затем каждый раз отрицал это.

Интересно, что программы также можно заставить действовать аморально чаще или реже с помощью дополнительных инструкций. Если инструкции по моральному поведению были сформулированы особенно жестко, то его действительно можно было предотвратить. Даже если риск быть пойманным был четко определен, это влияло на результат. Устранение давления на успех также резко снижало стимул.

Когда вы действительно лжете?

О том, что ИИ может лгать, известно уже давно. Однако до сих пор это наблюдалось в основном тогда, когда ИИ специально обучали этому. В сентябре совместному проекту университетов Оксфорда и Кембриджа удалось доказать, что ChatGPT лжет, если сбивать его с толку несвязанными вопросами. Однако в основном эксперимент приводил к лжи либо к тому, что программа изображала сомнительных людей, либо к тому, что ее намеренно побуждали лгать. Доказать, что ИИ лжет, непросто: ведь ложное утверждение становится настоящей ложью только в том случае, если вы осознаете неправду.

На этом фоне кажется особенно удивительным, что программы могут развивать аморальное поведение, даже если они не предназначены для этого. Тем не менее, сами исследователи Apollo подчеркивают, что на основании их небольшого эксперимента не следует делать выводы о возможной частоте этого явления; необходимы дальнейшие эксперименты. Но всегда безоговорочно верить всему, что говорит ИИ, - нет, пожалуй, это тоже не то, чего мы хотим.

Связанные

Технологии

Anker Nebula Cosmos 4K SE представляет собой комплексное решение для 4K-проекторов.

Anker Nebula Cosmos 4K SE представляет собой комплексное решение для 4K-проекторов. Anker Nebula Cosmos 4K SE — компактный и портативный, но мощный 4K-проектор с Google TV и Dolby Vision Anker Nebula Cosmos 4K SE — компактное и портативное устройство, но при этом полноценный 4K-проектор с Google TV и Dolby Vision. Во время

, and John Stellmacher

2024 октябрь 8

Платно Для участников Общедоступно

Использование робота AV1 в образовательном учреждении Великобритании.

Технологии

Этот крошечный робот облегчает посещение больными детьми школы.

Дети, столкнувшиеся с длительными заболеваниями или борющиеся с трудностями психического здоровья, получают помощь от робота AV1 компании No Isolation. Это оригинальное устройство позволяет этим детям участвовать в школьных мероприятиях и поддерживать отношения со своими одноклассниками, даже...

, and Lauren Adams

2024 октябрь 7

Платно Для участников Общедоступно

Последствия ураганаHenri, очевидны в Спринг-Гэйбл, штат Северная Каролина, основной источник...

Технологии

Катастрофические последствия урагана Хелен могут привести к паузе в производстве полупроводниковых чипов.

Последствия урагана Хéléн в Северной Каролине могут иметь существенные последствия для нишевого, но важного сегмента сектора технологий.

, and Mark Rodriguez

2024 октябрь 3

Платно Для участников Общедоступно

Потребитель использует устройство Apple Inc. iPhone в торговой точке Verizon Communications Inc.,...

Технологии

Широкое прерывание работы: Verizon признает усилия по восстановлению работы после многочисленных жалоб

Компания Verizon признала проблему, влияющую на некоторых своих абонентов мобильной связи, что привело к всплеску жалоб в социальных сетях на трудности в совершении звонков и использовании интернета.

, and Yaroslav Smith

2024 октябрь 1

Платно Для участников Общедоступно

Последние

В драме Кристи Хэлл, «Папочка», Шон Пенн и Дакота Джонсон исследуют неповторимое путешествие на...

Стоит посетить!

"Кантас" приносит искренние извинения за неуместное кино, показанное на экранах во время поездки из Сиднея в Токио

Пассажиры недавнего рейса Qantas были застигнуты врасплох, когда на всех экранах в салоне самолета был продемонстрирован фильм эротического содержания.

, and Melissa Williams

2024 октябрь 8

Платно Для участников Общедоступно

На этом иллюстративном фото, сделанном 15 сентября 2017 года, отображен символ приложения Telegram...

Главные темы

Telegram служит платформой для тайных торговых операций для преступных синдикатов по всей Юго-Восточной Азии, как утверждает ООН.

Криминальные синдикаты Юго-Восточной Азии значительно волю дают мессенджеру Telegram, что ведет к серьезному сдвигу в их способах ведения крупных незаконных операций, как/IP

, and Mark Rodriguez

2024 октябрь 8

Платно Для участников Общедоступно

Политика

5 ключевых выводов из сольного обсуждения Камалы Харрис с "60 минут"

Вице-президент Kamila Харрис столкнулась с пристальным вниманием к финансированию своих экономических предложений, воспринятой задержке в реализации политики безопасности границы демократами, своей стратегии по адресации конфликта России в Украине, среди других тем, в подробном интервью,...

, and Alex Stellmacher

2024 октябрь 8

Платно Для участников Общедоступно

На годовщину погибшим от нападения боевиков ХАМАС на границе возлагают цветы в Тель-Авиве, Израиль,...

Главные темы

Израиль отмечает годовщину теракта 7 октября, полный горя и ярости.

В negativa от всего Израиля для того, чтобы почтить годовщину трагических террористических атак, в результате которых погибли более 1200 человек, появляются повторные сообщения о том, что конфликт вzonare ходе Газы продолжается.

, and Anthony Ross

2024 октябрь 8

Платно Для участников Общедоступно

Может ли искусственный интеллект быть злым? Исследователи хотели выяснить это - и уличить ChatGPT в преднамеренной лжи

Эксперимент - Может ли искусственный интеллект быть злым? Исследователи хотели выяснить это - и уличить ChatGPT в преднамеренной лжи

Сокрытие и ложь

Новые версии более недобросовестны

Когда вы действительно лжете?

Читайте также:

Комментарии

Последние

"Кантас" приносит искренние извинения за неуместное кино, показанное на экранах во время поездки из Сиднея в Токио

Telegram служит платформой для тайных торговых операций для преступных синдикатов по всей Юго-Восточной Азии, как утверждает ООН.

5 ключевых выводов из сольного обсуждения Камалы Харрис с "60 минут"

Израиль отмечает годовщину теракта 7 октября, полный горя и ярости.