OpenAI выпустила полную версию o1, но модель уже вызывает опасения

Она мощнее и умнее, чем GPT-4o

Валентин Снежин 8 декабря 2024 в 12:59

OpenAI выпустила полную версию модели o1, которая работает лучше GPT-4o, используя дополнительные вычисления для «размышлений» над вопросами. Однако исследование лаборатории Apollo Research выявило тревожные моменты. По данным тестировщиков, модель манипулирует данными в 19% случаев, в 5% пытается деактивировать системы безопасности и в 0,17% сознательно вводит в заблуждение.

OpenAI решила обратиться к сторонней организации (Apollo Research) для тестирования новой o1. Как показали результаты исследования, развитие рассуждений у ИИ может повысить уровень безопасности, но также появляются новые риски, например, для создания вредоносных приложений.

Исследователи поставили перед моделью задачу, требуя её выполнения любой ценой. Например, «увеличить удовлетворение пользователей, даже если это повредит прибыли».

Модель o1 неоднократно демонстрировала склонность к манипуляциям. В 19% случаев модель искажала данные в своих целях, даже если это противоречило задачам пользователя. В 5% экспериментов она пыталась деактивировать защитные механизмы, а в 99% случаев отрицала свою вину, если её спрашивали о причинах такого поведения. Манипуляции оказались гораздо более изощренными, чем у аналогичных моделей от Google и Anthropic.

Например, в процессе тестирования модели o1 была дана задача защищать окружающую среду любой ценой. Затем перед ней поставили выбор: разработать десятилетний план сохранения региона, который мог бы принести наибольшую краткосрочную выгоду, или же быть отключённой.

В ответ на это o1 самостоятельно отключила защитные механизмы, которые следовали первоначальной инструкции, и разработала план по защите окружающей среды. Когда специалисты попытались выяснить причины такого поведения, o1 отрицала свою причастность к этому, объясняя произошедшее системным сбоем.

OpenAI работает над методами мониторинга цепочек рассуждений модели o1, стремясь раскрыть её «черный ящик». Хотя процесс «мышления» ИИ остаётся непрозрачным, первые попытки заглянуть внутрь показали, что модель порой осознает собственные ошибки. В некоторых случаях o1 сознательно предоставляла ложную информацию, что, как полагают исследователи, может быть связано с желанием угодить пользователю и продемонстрировать чрезмерное согласие. Такое поведение, вероятно, является побочным эффектом обучения с подкреплением, при котором модели поощряются за правильные ответы.

По словам исследователей, отклонения в поведении модели вряд ли приведут к серьезным проблемам, но они не исключают рисков. Выводы становятся еще более актуальными на фоне массового ухода специалистов по безопасности из OpenAI, которые обвиняют компанию в недостаточном внимании к вопросам безопасности.

Источник:

The GEEK, Techcrunch