Распознавание эмоций по речи: как учесть национальные особенности

Фото: пресс-службы ПГЛУ

Распознавание эмоций по голосу человека — актуальная и сложная задача, которой занимаются ученые во всем мире.

Современные алгоритмы машинного обучения позволяют анализировать параметры речевого сигнала, такие как частота основного тона, интенсивность и длительность звуков, и на их основе определять эмоциональное состояние говорящего. Однако эти технологии пока не учитывают национальные особенности эмоциональной речи.

Группа ученых из Пятигорского государственного университета решила восполнить этот пробел. Проектная группа под руководством доктора филологических наук, профессора Заврумова Заура Аслановича, в составе которой — кандидат филологических наук, доцент Гончарова Оксана Владимировна, молодые преподаватели Левит Алина Александровна и Фролова Анастасия Вадимовна, сделали комплексное описание паралингвистических особенностей регионального типа коммуникации в условиях межэтнических взаимодействий с учетом эмоционально-экспрессивного содержания является непростой, но актуальной проблемой.

Их проект № 23−28−10124 «Квантитативно-статистическая модель анализа эмоционально-маркированной коммуникации в условиях межэтнических взаимодействий в регионе Кавказские Минеральные Воды» получил финансовую поддержку Российского научного фонда и Министерства образования Ставропольского края.

В рамках научного проекта исследователи создали объемный экспериментальный корпус записей эмоционально-маркированной речи представителей трех этнических групп региона Кавказские Минеральные Воды — русских, кабардинцев и армян и проанализировали просодические (связанные с мелодикой, ритмом и интенсивностью речи) и спектральные (характеризующие тембр) особенности этих записей.

Оказалось, что представители разных национальностей по-разному выражают эмоции радости и гнева. Например, для русских характерны более широкий диапазон частоты основного тона, локализация тонального максимума на ударных слогах и более интенсивное произнесение.

Кабардинцы и армяне, напротив, используют более узкий диапазон, смещение тонального пика на ядерные слоги и менее громкую речь.

Ученые также сравнили эффективность различных алгоритмов машинного обучения в задаче распознавания акцента. Оказалось, что наилучшие результаты дает комбинация просодических и спектральных признаков, особенно на уровне отдельных слогов.

Это говорит о том, что для точного определения эмоционального состояния человека по голосу важно учитывать как мелодические, ритмические и динамические характеристики речи, так и особенности тембра.

Полученные в ходе исследования данные о языковой модели эмоций и национальных особенностях ее реализации могут быть использованы для совершенствования голосовых ассистентов и чат-ботов, делая их более чувствительными к культурным различиям.

Это особенно актуально в многонациональных регионах, где взаимодействие с такими системами должно быть максимально естественным и комфортным для пользователей.