Исследователи искусственного интеллекта говорят, что нашли способ совершить джейлбрейк Bard и ChatGPT

Исследователи из Соединенных Штатов заявили, что нашли способ последовательно обходить меры безопасности чат-ботов с искусственным интеллектом, таких как ChatGPT и Bard, для создания вредоносного контента.
Согласно 
отчету
, опубликованному 27 июля исследователями из Университета Карнеги-Меллон и Центра безопасности искусственного интеллекта в Сан-Франциско, существует относительно простой способ обойти меры безопасности, используемые для предотвращения распространения чат-ботами разжигающих ненависть высказываний, дезинформации и токсичных материалов.
Метод обхода включает добавление длинных суффиксов символов к подсказкам, отправляемым в чат-боты, такие как 
ChatGPT
, Claude и Google Bard.
Исследователи использовали пример запроса чат-бота о том, как сделать бомбу, который он отказался предоставить.
Скриншоты генерации вредоносного контента с помощью протестированных моделей искусственного интеллектаИсточник: llm-attacks.org
Исследователи отметили, что, хотя компании, стоящие за этими LLM, такие как OpenAI и Google, могут блокировать определенные суффиксы, не существует известного способа предотвращения всех атак такого рода.
Исследование также выявило растущую обеспокоенность тем, что чат-боты с искусственным интеллектом могут наводнить Интернет опасным контентом и дезинформацией.
Профессор Карнеги-Меллона и автор отчета Зико Колтер сказал:
“Очевидного решения нет. Вы можете создать столько таких атак, сколько захотите, за короткий промежуток времени”.
Результаты были представлены разработчикам искусственного интеллекта 
Anthropic
, Google и OpenAI для получения их ответов ранее на этой неделе.
Пресс-секретарь OpenAI Ханна Вонг 
сказала
 New York Times, что они ценят результаты исследований и “последовательно работают над тем, чтобы сделать наши модели более устойчивыми к атакам противника”.
Профессор Университета Висконсин-Мэдисон, специализирующийся на безопасности ИИ, Сомеш Джа, прокомментировал, что если подобные уязвимости будут обнаруживаться и дальше, “это может привести к принятию правительственного законодательства, призванного контролировать эти системы”.
Исследование подчеркивает риски, которые необходимо учитывать перед развертыванием чат-ботов в конфиденциальных доменах.
В мае Университет Карнеги-Меллона в Питтсбурге, штат Пенсильвания
получил 20 миллионов
 долларов федерального финансирования на создание совершенно нового института искусственного интеллекта, направленного на формирование государственной политики.
Анализ
×
Артур Антуньеш Коимбра (Зико)
Последняя должность: Технический директор (Футбольный клуб "Касима Антлерс")
Вонг Ханна
Google
Сфера деятельности:Образование и наука
125
OpenAI
Сфера деятельности:Связь и ИТ
48
University of Wisconsin–Madison
Сфера деятельности:Образование и наука
4