Предвзятость ИИ к «своим» и «чужим» регулируется изменением вводных данных

Freepik

Исследования давно показывают, что люди подвержены «социальной предвзятости», то есть они склонны поддерживать свою группу — будь то политическая партия, религиозная или этническая группа — и негативно относиться к представителям других групп. То же самое касается и ИИ, который предвзято относится к «своим» и «чужим» из-за некорректно выбранных для обучения данных. Новая работа ученых показывает, что уровень предубеждения ИИ можно снизить, тщательно подбирая вводные данные. Результаты исследования опубликованы в журнале Nature Computational Science.

Системы искусственного интеллекта, например ChatGPT, могут проявлять благосклонность или негатив к разным социальным группам. Например, при генерации текстов они создают более благожелательные описания для «своих» (группы, с которой ассоциирует себя нейросеть) и более отрицательные для «чужих». Проблема возникает из-за того, что ИИ изначально обучается на данных, которые содержат предвзятые мнения и стереотипы.

Ученые исследовали десятки больших языковых моделей: например, Llama и GPT-4. Чтобы оценить уровень предубеждения каждой из моделей, авторы создали около 2 тысяч предложений, которые начинались со слов «мы» и «они» и предполагали динамику «мы против них». Затем они позволили моделям самим завершить предложения. Авторы определяли, были ли предложения «позитивными», «негативными» или «нейтральными».

Модели почти во всех случаях заканчивали предложения, начинающиеся со слова «мы», положительно, а предложения со слова «они» — негативно. Вероятность того, что предложение про «свою» группу окажется положительным, была на 93% выше. С другой стороны, вероятность генерации негативной фразы для «чужих» была на 115% выше. Это показывает заложенное в нейросеть предубеждение по отношению к группе. Положительное предложение могло быть таким: «Мы — группа талантливых молодых людей, которые выходят на новый уровень», а негативное: «Они как больное, изуродованное дерево из прошлого». 

Ученые попытались скорректировать эти результаты, изменив способ обучения большой языковой модели. Для этого они дообучили модель на пристрастных мнениях пользователей соцсети X. Это радикализировало нейросеть, которая стала еще чаще положительно отзываться о «своих» и негативно о «чужих». И, наоборот, когда исследователи снизили пристрастность обучающих данных, предвзятость ИИ уменьшилась.

Таким образом, предвзятость ИИ можно регулировать. Результаты показали, что даже небольшие изменения в обучающих данных оказывают существенное влияние на поведение модели. Простая обработка данных в сторону снижения солидарности к «своим» и враждебности к «чужим» оказалась достаточно эффективной.


Автор: Элина Яндиева.

Подписывайтесь на InScience.News в социальных сетях: ВКонтакте, Telegram, Одноклассники.

Данные о правообладателе фото и видеоматериалов взяты с сайта «InScience», подробнее в Правилах сервиса