Сибирские ученые создали систему перевода дореволюционных текстов на современный язык

© culture.ru
Сибирские ученые создали систему перевода дореволюционных текстов на современный язык
26 Мар 2020, 06:49

Ученые из Новосибирска создали систему, которая позволяет переводить дореволюционные издания в современную русскую орфографию почти без человеческого участия. Изобретение сможет делать работу редакторов, а у исследователей появился дополнительный инструмент для анализа текстов.

Сотрудники Института вычислительных технологий СО РАН создали систему, которая переводит дореволюционные издания в современную русскую орфографию. Программа сможет выполнять рутинную работу редакторов, а исследователи получат новый инструмент для анализа текстов, сообщает «Наука в Сибири».

Существует несколько вариантов перевода текстов из одной орфографии в другую: перевод по правилам, статистический, основанный на машинном обучении, нейронный машинный перевод и гибридный, который сочетает все эти методы. Сотрудники ИВТ СО РАН выбрали подход, основанный на правилах правописания.

Исследователи взяли за основу «Справочник по старой орфографии русского языка» Павла Давыдова, в котором указаны изменения о правописании морфем и употреблении отдельных букв. Старое правописание морфем делится на несколько групп слов, у каждой из которых устаревшая морфема и морфологические признаки. Ученые сравнили устаревшее и современное написание для каждой группы, нашли закономерности между ними и описали правила перевода, которые вошли в программу.

Изначальная идея состояла в том, что алгоритм должен определить, принадлежит ли входное слово к одной из групп, то есть найдена ли нужная морфема в слове, и обладает ли оно соответствующими морфологическими признаками. Если да, то к слову применяется правило перевода для той группы, к которому оно относится. В противном случае оно остается без изменений. Получившееся слово поступает морфологическому анализатору.

Первый этап перевода — исправление морфем. После этого программа переходит к замене устаревших букв. Алгоритмом морфологического анализа стала библиотека Pymorphy, созданная на языке программирования Python. Она анализирует слова и склоняет их по заданным грамматическим параметрам. Программа опирается на данные словаря OpenCorpora, а для незнакомых слов строит гипотезы.

«Конечно, неизбежно останутся такие случаи, в которых эксперт должен будет решать, правильно сделан перевод или нет», — отметила инженер-программист ИВТ СО РАН Елизавета Тагирова.

По словам ученых, чем старее текст, тем больше можно найти примеров, которые требуют вмешательства эксперта, потому как не все правила кодифицированы.

Исследователи уточняют, что алгоритм должен заменить не эксперта, а корректора для работы с большими объемами текстов. Программа пока не может правильно анализировать случаи, которых нет в справочниках. Есть несколько способов доработать ее. Во-первых, выявить закономерности написания и дополнить существующий алгоритм новыми правилами. Другой способ — использовать методы машинного обучения для сложных случаев, которые могут быть учтены при обучении на корпусе параллельных текстов, в котором каждому документу в современной орфографии сопоставлен аналогичный, но в дореволюционном виде.

«Если наш проект будет востребован массовыми пользователями в лице, например, библиотек с большим объемом дореволюционных фондов, то создание такого корпуса — задача ближайшего будущего», — подчеркнула Тагирова.


Комментарии:
В связи с событиями, происходящими в мире, мы призываем вас к трезвому и взвешенному комментированию материалов на нашем сайте.

Мы с уважением относимся к праву каждого человека высказывать свое мнение. В то же время Тайга.инфо не приветствует призывы к агрессии, экстремизму, межнациональной вражде.

Также просим воздерживаться от оскорблений, в частности националистического характера.

Высказанные ниже мнения могут не совпадать с мнением редакции. Редакция не несет ответственности за содержание комментариев.

Не допустимы и удаляются комментарии, которые нарушают действующее законодательство и содержат:
  1. оскорбления личного, религиозного, национального, политического, рекламного и иных характеров;
  2. ссылки на источники информации, не имеющей отношения к обсуждаемой теме.
Нажимая кнопку «Комментировать», вы безоговорочно принимаете эти условия.


Новости из рубрики:

Мнения
«Нейтрализованных» депутатов толкают на политические методы
Виктор Козодой
Нейтрализуя неугодных депутатов, не вводя их в состав руководства хотя бы комиссий, лишая сопричастности, их толкают на путь политической конфронтации.
На эту же тему
© Тайга.инфо, 2004-2020
Версия: 5.0

Почта: info@taygainfo.ru

Телефон редакции:
+7 (383) 3-195-520

Издание: 18+
Редакция не несет ответственности за достоверность информации, содержащейся в рекламных объявлениях. При полном или частичном использовании материалов гиперссылка на tayga.info обязательна.

Яндекс цитирования Яндекс.Метрика