Нейросеть научили расшифровывать рукописные записи с дореволюционной орфографией⁠⁠

0 177

Столичный Главархив совместно с "Яндекс" разработали платформу "Поиск по архивам". Нейросеть распознает рукописные тексты в документах XVII-XIX веков и переводит их в цифровой формат.

О скором создании этой платформы говорили еще в сентябре 2022 года. Сейчас сервис уже работает, опробовать можно здесь. Пока доступно 2,5 млн страниц метрических книг с текстовой расшифровкой из Главархива Москвы, а также архивов Оренбургской и Новгородской областей. В дальнейшем количество фондов и источников будет расти.

Сервис существенно экономит время в составлении генеалогического древа. Для сравнения: расшифровка страницы рукописного текста у профессионала займет до получаса, нейросеть же справится за несколько секунд. К тому же, на платформе "Поиск по архивам" есть фильтры по годам, архивам, фондам и описям. Неочевидный плюс технологии состоит еще и в минимизации выдачи оригиналов документов, тем самым спасая их от быстрого обветшания.

Нейросеть обучалась на сотнях тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятках миллионов сгенерированных примеров. В основу проекта лег сервис Главархива "Моя семья". Эксперты также помогали алгоритмам учиться распознавать рукописные тексты и следили за качеством расшифровки.

Что дальше? Почерк врача?

«Всё, что нажито непосильным трудом» придётся вернуть … «Чёрные метки» «неприкасаемым». Процесс запущен

Вышли два сообщения, которые либеральные СМИ будут активно замалчивать и на то у них есть все основания, ибо именно с момента публикации именно этих сообщений, Россия вошла в «Период очищения». Рубеж ...

Переговоры в Стамбуле — "тройная вилка" от Путина
  • pretty
  • Вчера 07:22
  • В топе

ЕЛЕНА  ПАНИНАОтказаться от предложенных Путиным переговоров с Россией в Стамбуле Зеленский не смог. Учитывая же заявление Трампа о его возможности прилететь в Стамбул, становится ясно: Россия и С...