В Российском государственном гуманитарном университете завершилась ежегодная научная конференция по компьютерной лингвистике «Диалог». Основным организатором события традиционно выступила компания ABBYY, мировой разработчик решений в области интеллектуальной обработки информации и лингвистики. За четыре дня исследователи представили более 100 докладов, а мероприятие посетили более 250 участников – лингвистов, ученых, инженеров, разработчиков и студентов. «Диалог» остается самой крупной международной конференцией по своему направлению в России.
Помимо выступлений, на секциях конференции прошли круглые столы по актуальным темам. Одна из них – соотношение нейросетевых и лингвистических подходов для решения задач языковой аналитики, например, оценки тональности, идентификации фейковых новостей, извлечения фактов. Конференция отразила важный тренд: меняются подходы к одному из главных продуктов обучения сетей – векторным моделям, отражающим сочетаемость слова (эмбеддингам). Если поначалу важным казался только объем «сырых» текстов, на которых они строились, то теперь модели эволюционируют в сторону использования разнообразной языковой и даже энциклопедической информации. Это сближает лингвистические и нейросетевые подходы. Еще одной ключевой темой «Диалога» стала мультимодальная лингвистика и обучение роботов.
«Одна из основных проблем в области мультимодальной лингвистики – это способ оценки эффективности: непросто сравнить поведение разных чат-ботов или роботов, чтобы уверенно сказать, какой способ обучения лучше. Разработка таких методик оценки – одна из задач нашей конференции», – комментирует Владимир Селегей, председатель программного комитета «Диалога» и директор департамента перспективных исследований компании ABBYY.
Приглашенными докладчиками конференции стали Крис Биман из Гамбургского университета, один из ведущих аналитиков в области компьютерной семантики, и Пик Воссен из Амстердамского университета, основатель и президент Глобальной Ассоциации WordNet. Биман рассказал об адаптивных технологиях обучения нейросетей, а Воссен поделился результатами тестирования робота Leolani, который познает мир через общение с людьми, запоминая и учитывая ошибки.
Важной частью «Диалога» стал форум Dialogue Evaluation – технологические соревнования разработчиков систем автоматического анализа текстов. Соревнования прошли по четырем направлениям:
- автоматическая генерация заголовков новостей
- создание моделей для малоресурсных языков
- определение референциальных цепочек (различных упоминаний одного и того же объекта в тексте)
- автоматическое восстановление опущенной информации (эллипсиса)
Участники обучали тестируемые алгоритмы с помощью специально подготовленных данных (датасетов). Dialogue Evaluation подтвердил значимый тренд в современной компьютерной лингвистике: в таких соревнованиях все большую роль играют учащиеся вузов. В частности, лучшими оказались студенты и аспиранты Школы прикладной математики и информатики МФТИ (кафедра компьютерной лингвистикиABBYY и лаборатория iPavlov).
Информационными партнерами «Диалога» выступили издания Индикатор, Наука и жизнь, Теории и практики, Типичный программист, Мел, телеканал «Наука».