Умные словари. Тональность текста помогут распознать математические методы

Подходы в современной компьютерной лингвистике к анализу текстов активно развиваются. Это важно, например, для обработки потоков новостей. Предполагается, что они содержат разнообразную информацию о позициях по разным вопросам, высказываемых государственными органами, компаниями, мнения частных лиц, положительное или отрицательное отношение упомянутых субъектов друг к другу и т. п.

Доступные сегодня вычислительные мощности позволяют применять для обработки больших массивов документов широкий класс математических методов, способствующих эффективному решению задач поиска, классификации, кластерного анализа, выявления скрытых закономерностей в данных.

Компьютерным моделированием владения естественным языком, а также решением прикладных задач автоматической обработки текстов и речи занимается компьютерная лингвистика, история которой началась в 1950-х годах с исследований известного американского лингвиста, публициста и философа Ноама Хомского по формализации структуры естественного языка, а также с пробных экспериментов по машинному переводу и первых ИИ-программ. Компьютерные лингвисты создаютинструменты распознавания текста и устной речи, системы перевода, текстовые редакторы, учебные материалы по языку, голосовых помощников, умных чат-ботов и многое другое.

Необходимость интеллектуальной автоматической обработки возникает, в частности, из-за количества производимых в мире текстов. Во многих случаях, чтобы принять обоснованное решение или найти нужную информацию, необходимо прочитать, понять и взять в расчет огромное их число. Например, чтобы получить из Интернета информацию об ожидаемом спросе на конкретный продукт, специалистам пришлось бы читать тексты по этой теме в течение ста лет. Без компьютера тут явно не обойтись. Поскольку объектом обработки компьютерной лингвистики выступают тексты на естественном языке, ее развитие невозможно представить без базовых знаний в области общей лингвистики, в частности, в области фонологии и графики (изучают воспринимаемую слухом или зрением сторону языковых знаков) и семантики (разбор смыслов).

Одна из интересных и востребованных задач автоматической обработки текстов — анализ тональности. Тональность — это отношение, позитивное или негативное, некоторого лица к содержанию текста или каким-то его аспектам. Анализ тональности может быть общим и таргетированным (по отношению к некоторой сущности или теме). Общая тональность высказывания и таргетированная могут отличаться. Например, в предложении «Я рад, что Иванов проиграл» общая тональность автора текста позитивная, а тональность по отношению к Иванову — негативная.

Исследования подходов к анализу тональности начинались с определения общей тональности, а сегодня рассматриваются все более разнообразные задачи таргетированного анализа: извлекается тональность по отношению к конкретным сущностям, их свойствам или темам.

Этой задачей и озаботились ученые Московского государственного университета им. М.В.Ломоносова. Работа была поддержана грантами Российского фонда фундаментальных исследований (ныне — РЦНИ). О полученных результатах «Поиску» рассказала руководитель проекта «Автоматический анализ тональности текстов с множественными оценками на основе оценочных фреймов» ведущий научный сотрудник МГУ, доктор технических наук Наталья ЛУКАШЕВИЧ.

— Наталья Валентиновна, что же такое анализ тональности текстов СМИ?
— Он имеет несколько особенностей. В частности, в новостях часто упоминается значительное количество сущностей, по отношению к большинству из которых тональность является нейтральной. Она может быть прямо высказана автором или упоминаемыми субъектами или выведена из описываемых действий сущностей по отношению друг к другу. Во многих предложениях могут встречаться несколько субъектов (выражающих свое мнение) и несколько объектов тональности. При этом тональность субъектов по отношению к объектам может быть различной, — рассказала ученая. — Кроме того, высказанные оценки нужно отличать от негативных/позитивных событий, не оказывающих влияние на выражение и восприятие (наводнение, землетрясение), и негативных/позитивных событий, которые могут неявно выражать тональность, например, «X уволил Y», «рост экономики в X». Все это затрудняет определение таргетированной тональности как авторской, так и между упомянутыми сущностями и требует создания специализированных моделей и лексических ресурсов.

— И ваша команда создавала эти ресурсы?
— Да. Мы разметили новостной корпус RuSentNE для обучения моделей машинного обучения, в котором представлены, позитивное или негативное отношение автора к упоминаемым людям, организациям и т. п., позитивные или негативные отношения между упомянутыми лицами, позитивные или негативные аргументы или оценки. Напомним, что корпус словаря — это совокупность всех словарных статей. Примеры разметки в специальной онлайновой системе Brat представлены на иллюстрации (см. примеры 1 и 2).

Из разметки первого примера видно, что Apple и Samsung относятся друг другу негативно, и указана причина этого отношения. Во втором примере премьер-министр Италии Маттео Ренци позитивно относится к писателю Фо, однако находится в негативном эмоциональном состоянии из-за смерти Фо.

На основе созданного размеченного корпуса в этом году было проведено открытое тестирование различных подходов к анализу тональности в рамках Международной конференции по компьютерной лингвистике «Диалог». В нем приняло участие достаточно много научных команд, результаты работы которых обсуждались на секции конференции.

— А как с такой задачей справляется всеми обсуждаемая модель ChatGPT?
— Мы применили ChatGPT к тестовому множеству нашего тестирования. Попросту говоря, система ChatGPT была нашим неофициальным участником. Модели задавался следующий вопрос (в переводе на английский язык): «Каково отношение в предложении [переведенное предложение] к цели [переведенный объект]? Выбери один из вариантов “за, против или нейтрально” и объясни, почему». Модель плохо распознавала в предложении, что слово «ведущий» (leading) выражает положительную тональность.

Был собран словарь оценочной лексики на основе фреймов RuSentiFrames, которые содержат слова-предикаты, ссылающиеся на некоторую ситуацию с несколькими участниками и имеющие так называемые оценочные коннотации, то есть связанные с определенными тональностями, например, между участниками ситуации.

— Расскажите об этом поподробнее.
Лексикон RuSentiFrames позволяет описать разную тональность автора к разным участникам ситуации, а также выделить позитивные и негативные эффекты для каждого участника. Это дает возможность более детального семантического анализа текста. Для улучшения качества словаря исследователи провели лингвистический анализ примеров в корпусах, опрос носителей русского языка с помощью краудсорсинга, сделали специализированный дистрибутивный анализ. Также был разработан метод применения лексикона RuSentiFrames для автоматической разметки тональности отношений в большой коллекции текстов. Использование подобного корпуса для предобучения такой модели, как BERT, позволяет улучшить качество извлечения тональности отношений.

— Что такое BERT?
— В конце 2018 года исследователи из Google AI Language открыли исходный код новой техники обработки естественного языка (NLP) под названием BERT, который явился значительным прорывом в производительности.

Большинство словарей оценочной лексики имеет вид простых списков с оценками тональности. Они не могут отразить сложность отношений между участниками, а также учитывать различия между позитивными/негативными тональностями и фактами с негативными/позитивными последствиями. Например, в известном словаре MPQA (Wilsonetal, 2005) английских оценочных слов указывается, что слово refuse («отказать» — кто, кому, в чем) имеет негативную тональность. Также описан и русский глагол «отказать» в словаре оценочных слов RuSentiLex (LoukachevitchandLevchik, 2016). В упрощенных подходах анализа тональности, основанных на таких словарях, предполагается, что сущности, встречающиеся рядом с отрицательным словом, получат отрицательные оценки тональности по отношению к ним. Однако на самом деле совокупность оценок, связанных со словом «отказать», значительно сложнее. В ситуации, описываемой этим глаголом, есть три участника: «кто отказал», «кому отказал», «в чем оказал». Глагол «отказать» сообщает, что имеется отрицательное отношение первого участника ситуации ко второму и третьему или для второго участника ситуации имеются явные негативные последствия отказа, или для первого участника ситуация относительно нейтральна и никаких негативных последствий из употребления данного глагола не следует. При этом позиция автора к ситуации в целом и к участникам не высказана.

— Есть ли другие красноречивые примеры?
— С конкретным фреймом словаря RuSentiFrames могут быть связаны несколько типов языковых выражений. Например, отдельные слова, в основном глаголы и существительные: «отказать», «отказ», «осудить», «осуждение», «благодарить». Идиомы: «вешать лапшу на уши», «взять за горло». Коллокации: «нанести вред», «нанести обиду», «нанести поражение. Могут быть глаголы или существительные с предлогами в постпозиции, что дает возможность снизить неоднозначность исходного слова, например, «выступать против», «завязывать с», свободные словосочетания, синонимичные единицам фрейма.

К слову, оценочный фрейм под названием «запретить» связан с 53 словами и словосочетаниями, включая такие выражения, как «налагать запрет», «наложение запрета», «закрывать доступ», «закрытие доступа», «прекращение доступа», «прекратить доступ», «налагать вето» и др.

— Как используется словарь RuSentiFrames?
— Разработка прошла тестирование, в результате которого была отмечена корреляция оценок экспертов, которые создавали ресурс RuSentiFrames, и ответов носителей русского языка. При этом были найдены несколько неточностей в описаниях словаря. Проблемой эксперимента оказалось и некоторое различие шкал оценок, в которых опрашивались люди в эксперименте и описаниях.

Лексикон RuSentiFrames был применен для автоматической разметки коллекции текстов для задачи извлечения оценочных отношений. Такой корпус затем использовали для предобучения нейросетевых моделей.

— В конце разговора принято спрашивать о планах…
— Поддержка РЦНИ исследований по анализу тональности позволила создать несколько новых компьютерных ресурсов для анализа текстов на русском языке (размеченный корпус текстов, словарь нового типа на основе фреймов), а также новые модели для автоматического анализа тональности. В дальнейшем предполагается исследование новых задач в таргетированном анализе тональности, например, одновременное извлечение источника тональности, объекта тональности, собственно тональности на основе единой модели.

Подготовил Андрей СУББОТИН