Сибирские ученые создали систему перевода дореволюционных текстов на современный язык
Ученые из Новосибирска создали систему, которая позволяет переводить дореволюционные издания в современную русскую орфографию почти без человеческого участия. Изобретение сможет делать работу редакторов, а у исследователей появился дополнительный инструмент для анализа текстов.
Сотрудники Института вычислительных технологий СО РАН создали систему, которая переводит дореволюционные издания в современную русскую орфографию. Программа сможет выполнять рутинную работу редакторов, а исследователи получат новый инструмент для анализа текстов, сообщает «Наука в Сибири».
Существует несколько вариантов перевода текстов из одной орфографии в другую: перевод по правилам, статистический, основанный на машинном обучении, нейронный машинный перевод и гибридный, который сочетает все эти методы. Сотрудники ИВТ СО РАН выбрали подход, основанный на правилах правописания.
Исследователи взяли за основу «Справочник по старой орфографии русского языка» Павла Давыдова, в котором указаны изменения о правописании морфем и употреблении отдельных букв. Старое правописание морфем делится на несколько групп слов, у каждой из которых устаревшая морфема и морфологические признаки. Ученые сравнили устаревшее и современное написание для каждой группы, нашли закономерности между ними и описали правила перевода, которые вошли в программу.
Изначальная идея состояла в том, что алгоритм должен определить, принадлежит ли входное слово к одной из групп, то есть найдена ли нужная морфема в слове, и обладает ли оно соответствующими морфологическими признаками. Если да, то к слову применяется правило перевода для той группы, к которому оно относится. В противном случае оно остается без изменений. Получившееся слово поступает морфологическому анализатору.
Первый этап перевода — исправление морфем. После этого программа переходит к замене устаревших букв. Алгоритмом морфологического анализа стала библиотека Pymorphy, созданная на языке программирования Python. Она анализирует слова и склоняет их по заданным грамматическим параметрам. Программа опирается на данные словаря OpenCorpora, а для незнакомых слов строит гипотезы.
«Конечно, неизбежно останутся такие случаи, в которых эксперт должен будет решать, правильно сделан перевод или нет», — отметила инженер-программист ИВТ СО РАН Елизавета Тагирова.
По словам ученых, чем старее текст, тем больше можно найти примеров, которые требуют вмешательства эксперта, потому как не все правила кодифицированы.
Исследователи уточняют, что алгоритм должен заменить не эксперта, а корректора для работы с большими объемами текстов. Программа пока не может правильно анализировать случаи, которых нет в справочниках. Есть несколько способов доработать ее. Во-первых, выявить закономерности написания и дополнить существующий алгоритм новыми правилами. Другой способ — использовать методы машинного обучения для сложных случаев, которые могут быть учтены при обучении на корпусе параллельных текстов, в котором каждому документу в современной орфографии сопоставлен аналогичный, но в дореволюционном виде.
«Если наш проект будет востребован массовыми пользователями в лице, например, библиотек с большим объемом дореволюционных фондов, то создание такого корпуса — задача ближайшего будущего», — подчеркнула Тагирова.