Новосибирск, 30 марта 2020, 08:00 — REGNUM Сотрудники Института вычислительных технологий Сибирского отделения РАН (СО РАН) разработали систему, позволяющую переводить издания со старой орфографией в современную почти без участия человека.
Издание СО РАН «Наука в Сибири» уточняет, что алгоритм может выполнять рутинную работу редакторов и даёт дополнительные инструменты для анализа текстов.
«Представьте, что вы решили оцифровать, а затем опубликовать книгу, которая была издана в дореволюционное время. Новейшие мощные сканеры, способные работать без участия человека, сами перелистывают страницы, современное программное обеспечение преобразовывает отсканированные страницы в текст, но он будет, естественно, в исходной старой орфографии, — уточняет издание. — Это неудобно для потенциальной обработки документа, ведь большинство алгоритмов автоматического анализа работают только с произведениями в современной орфографии. Для этого и нужна система автоматического приведения текста в привычный для читателя вид».
За основу взят «Справочник по старой орфографии русского языка» П. И. Давыдова. На основе перечисленных в нём норм дореволюционного правописания — с учётом послереволюционных новаций — был разработан переводчик.
Разработчики отмечают, что алгоритм «создан с целью заменить не эксперта, а скорее корректора, для работы с большими объёмами текстов».
Программа пока не способна правильно анализировать случаи, которых нет в справочниках. Но она будет дорабатываться.
История вопроса
Английский историк, философ Фрэнсис Бэкон в XVI веке высказал мнение, что наука должна дать человеку власть над природой и тем улучшить его жизнь, добавляя, что наука должна занимать достойное место в «царстве человека». Фактически он заложил основы научного исследования, известен его знаменитый афоризм Scientia potentia est («Знание — сила»). Первые же исследователи появились в XIX веке.