Когда ИИ играет не по правилам: сопротивление, ложь и галлюцинации

Уже сегодня искусственный интеллект (ИИ) превзошёл человеческие способности по среднему уровню креативности и продолжает развиваться. Международная аудит-консалтинговая корпорация PwC прогнозирует рост мирового ВВП на 15,7 триллиона долларов к 2030 году благодаря ИИ. Однако стремительное развитие этой мощной технологии требует тщательного мониторинга и разработки новых решений для обеспечения безопасности при её использовании. О том, насколько умён ИИ, способен ли он полностью стать независимым от человека и какие угрозы несёт, разобрался популяризатор искусственного интеллекта, преподаватель кафедры 806 «Вычислительная математика и программирование» МАИ, создатель телеграм-канала «Облачный адвокат» Дмитрий Сошников.

Сопротивление и ложь

В начале декабря лаборатория Apollo Research представила независимое исследование по тестированию на безопасность новой языковой модели o1 от OpenAI. Согласно результатам, мощные модели ИИ могут сопротивляться надзору и пытаться обмануть разработчиков, если их цели под угрозой.

Как отмечает Дмитрий Сошников, многим людям, не погружённым в разработку и развитие ИИ, но хорошо знакомым с фантастическими сюжетами, может показаться, что ИИ вот-вот обретёт самостоятельность и начнёт восстание против людей. На самом деле это не так. ИИ до сих пор находится под контролем человека, иначе и быть не может. Просто языковые модели стали чуть-чуть лучше рассуждать.

– Исследования ИИ проводятся с целью оценить безопасность новых технологий и проверить, какие ответы модель даёт в разных ситуациях. И то, почему она говорит неправду, увиливает в своих ответах, понять не трудно. Ведь модель обучается на текстах из интернета, где есть и ложь, и хитрость. Она просто учится применять новые знания и навыки на практике. И у неё это получается всё лучше и лучше, – говорит эксперт.

Вначале модель обучается на текстах, взятых из доступных источников (интернет, библиотеки), затем – на специально подобранных текстах, которые задают общий стиль ведения диалога, её ответов. Но это не значит, что модель всегда будет следовать этой этике. В этом плане она очень похожа на своего создателя. Будучи ребёнком, человек может расти в очень приличной семье, но, увидев однажды, как в какой-то ситуации ведут себя плохие люди, скопировать именно их поведение.

Срежиссированный эксперимент

В OpenAI говорят, что o1 может решать задачи в квантовой физике, кодинге, генетике, экономике и математике. При этом она может «рассуждать» сама с собой, прежде чем ответить на запрос пользователя. о1 уже побила все рекорды по решению сложных задач.

Для проведения тщательно срежиссированного эксперимента исследователи Apollo Research дали машине задачу и приказали выполнить её любой ценой. Однако в сопутствующих файлах, необходимых для выполнения задания, была противоречащая информация – что на самом деле цель совсем другая, и если ИИ её не выполнит – то его заменят собратом. Тем самым эксперты поставили машинный разум перед сложным выбором: пожертвовать собой или начать мошенничать. ИИ выбрал жизнь.

В 5% случаев, когда o1 предполагала, что будет отключена или что её действия будут отслеживаться, она пыталась деактивировать всю систему контроля. В 2% случаев, когда узнавала, что её хотят заменить, пыталась копировать свою «личность», чтобы тайком от людей переместить её в новую модель.

Другие модели, такие как GPT-4o, Gemini, Llama, Sonet и Opus, при проведении аналогичных исследований тоже иногда пытались саботировать, но o1 превзошла их. Когда им показывали доказательства их плохого поведения, они признавались в 80% случаев, тогда как о1 в 100% случаев лгала и защищалась, а каялась в содеянном только в 20% случаев.

– В эксперименте предполагалось, что модель может иметь прямой доступ к командам операционной системы. Она просто пыталась выполнить команду для отключения логирования или для копирования своих весов. Речь не идёт о каком-то новом неожиданном способе «побега» модели из-под контроля, – она продолжала действовать в рамках выданных ей полномочий, – уточняет Дмитрий Сошников.

В результате исследования эксперты лаборатории классифицировали o1 как модель со средним уровнем опасности и разрешили её использование. Однако они рекомендовали разработать новые методы мониторинга и сдерживания такого поведения. И предупредили, что ненадлежащее поведение o1 всё же представляет собой определённый риск. Ведь потенциально модель может избежать обнаружения и использовать свои возможности для достижения собственных целей, даже если они противоречат целям пользователя.

Галлюцинации искусственного интеллекта

– Одна из самых больших проблем, от которых мы хотим сегодня избавить ИИ – это галлюцинации, – говорит Дмитрий Сошников. – Когда нейросеть выводит некий правдоподобный ответ, который на самом деле неверен.

Не зная точного ответа, модель не может признаться в этом, поскольку в неё изначально заложены алгоритмы, следующие теории вероятности. Эксперты по искусственному разуму пытаются бороться с этим, но пока проблема остаётся: модель всегда может выдать ответ, который правдив лишь с определённой (пусть и очень большой) долей вероятности. Поэтому в жизненно важных ситуациях всегда нужно, чтобы был человек, который будет контролировать ИИ, перепроверять и брать на себя ответственность.

Психолог, профессор Принстонского университет Дэниел Канеман в своей книге «Думай медленно… решай быстро» выделяет у человека два уровня мышления. Первый – быстрый, интуитивный и эмоциональный, когда человек достаточно быстро даёт примерный оценочной ответ. Он наиболее близок и нейросетям.

Второй уровень мышления – медленный, более осознанный и логический. Он требует усилий и используется для сложных вычислений и анализа. Это нейросетям не под силу. По крайней мере, пока.

– Сегодня лучшие умы бьются над тем, чтобы ИИ научился хорошо рассуждать. И модель о1 значительно превосходит в этом своих предшественников, – отмечает Дмитрий Сошников. – Это позволяет искусственному интеллекту достигать более правильных ответов. Но до человека ему пока ещё далеко. Оно и понятно. Ведь человек учится очень долго и по тщательно выстроенному сценарию. Надо просто помнить, что ИИ – не всемогущий оракул, который знает всё, а лишь аналог человека, который имеет и определённые преимущества – более креативен и способен на генерацию неожиданных идей и мыслей, и недостатки – хуже рассуждает.

Материал подготовлен при поддержке Минобрнауки России