Создан тест для оценки способности ИИ понимать мемы и культурный контекст

Лучше всего себя в этом испытании показали нейросети GPT-4, Claude и LLaMA

МОСКВА, 17 декабря. /ТАСС/. Российские лингвисты, культурологи и математики разработали подход, который позволяет оценивать способность больших языковых моделей понимать мемы и отвечать на вопросы, подразумевающие знание определенных культурных и языковых стереотипов. Лучше всего себя в этом испытании показали нейросети GPT-4, Claude и LLaMA, сообщили ученые на презентации проекта "Культурные замеры больших языковых моделей" в МФТИ.

"Это яркий пример тех проектов, для реализации которых мы создали Центр междисциплинарных исследований в стенах МФТИ. Это особенно актуально при исследовании больших языковых моделей, которые сейчас у всех на слуху. Мы все понимаем, что это что-то новое, но мы еще изучаем то, каких результатов можно добиться при их помощи, как можно интерпретировать их ответы. Работа на этом фронтире - крайне интересная и важная для нас задача", - заявил ректор МФТИ Дмитрий Ливанов.

По его словам, для оценки культурно-лингвистических способностей больших языковых моделей и прочих продвинутых нейросетей в рамках Физтеха была создана большая научная команда под руководством профессора НИУ ВШЭ Максима Кронгауза. Возглавляемая им исследовательская группа Центра междисциплинарных исследований МФТИ разработала набор инструментов и подход, позволяющий всесторонне оценивать способность ИИ воспринимать мемы и культурный контекст.

По словам исследователей, наличие такой способности у больших языковых моделей особенно важно для их применения на территории России, так как для современного российского общества характерна высокая "мозаичность", связанная с переплетением глобальных и локальных культурных трендов и стилей жизни. Для того, чтобы люди из разных культурных общностей могли комфортно работать с ИИ, нейросети должны понимать, что имеют в виду пользователи, и говорили с ними на "одном языке".

Реклама

Экзамен по "мемологии" для нейросетей

Для проверки подобных способностей у существующих систем ИИ профессор Кронгауз и его коллеги выделили восемь ключевых культурных типов, характерных для российской культурной действительности. Опираясь на эти категории, ученые подготовили наборы характерных стереотипов, цитат из книг, фраз из фильмов и разных мемов, которыми обычно оперируют представители этих культурных типов, и использовали их для составления набора из 400 тестовых заданий, которые должны были решить системы ИИ.

К примеру, ученые предложили нейросетям дать ответ на вопрос, "что сделал дядя самых честных правил, когда не в шутку занемог", или назвать "должность" Мойдодыра и объяснить, как на жизнь людей влияет "ретроградный Меркурий". Подобным образом российские исследователи оценили способности десяти наиболее продвинутых зарубежных больших языковых моделей, в том числе нескольких вариаций системы GPT-4, ее предшественника GPT-3.5, LLaMA и других ИИ.

Проведенные учеными тесты показали, что лучше всего с этой задачей справились разные вариации системы GPT-4, которым удалось правильно ответить на большинство вопросов исследователей. Второе место заняла большая языковая модель Claude 3.5, которая совсем незначительно, на 1-2%, уступила разным вариациям GPT-4. Также в тройку лидеров вошла система LLaMA, тогда как все остальные популярные зарубежные системы, в том числе Google Gemini, Qwen, Command-R, GPT-3.5 и Mistral заметно хуже справились с распознаванием мемов и языковых стереотипов.

"Наша идея состояла в том, чтобы не научить большие языковые модели распознавать эти культурные коды, а проверить, смогут ли их "чистые" версии вести себя в таких ситуациях как люди. Иными словами, мы никак не модифицировали эти алгоритмы и не тренировали их на каких-то специфичных наборах данных. Результаты подобных тестов помогают нам определить, насколько ИИ готовы к кооперации с разными типами людей", - подытожил ведущий научный сотрудник Центра междисциплинарных исследований МФТИ Валерий Шульгинов.

Данные о правообладателе фото и видеоматериалов взяты с сайта «Наука - ТАСС», подробнее в Правилах сервиса
Анализ
×
Дмитрий Викторович Ливанов
Последняя должность: Ректор (МФТИ)
Новодережкин Антон
Кронгауз Максим
Шульгинов Валерий
МФТИ
Сфера деятельности:Образование и наука
97
ВЫСШАЯ ШКОЛА ЭКОНОМИКИ
Сфера деятельности:Образование и наука
310
Google
Сфера деятельности:Образование и наука
210