Yandex nauczył sieci neuronowe odszyfrowywania zapisów archiwalnych za pomocą złożonej pisowni
Miscellanea / / April 03, 2023
Rękopisy historyczne, które są trudne do przeanalizowania, są niemal natychmiast przekształcane przez sztuczną inteligencję w tekst drukowany.
Yandex uruchomił nową usługę o nazwie Archive Search, która wykorzystuje sieci neuronowe do odszyfrowywania zapisów archiwalnych ze złożoną przedrewolucyjną pisownią.
Serwis zapewnia dostęp do ponad 2,5 miliona stron dokumentów historycznych wraz z transkrypcjami tekstu. Jego algorytm, zbudowany w oparciu o system optycznego rozpoznawania znaków, uwzględnia specyfikę pisma ręcznego, rozpoznaje litery, które straciły na aktualności i rozumie specjalną strukturę dokumentów archiwalnych.
Specjaliści firmy wytrenowali sieć neuronową na tablicy danych składającej się z setek tysięcy odręcznych linii z prawdziwych tekstów z XVIII-XIX wieku i dziesiątek milionów wygenerowanych przykładów.
Rękopisy, które są trudne do przeanalizowania przez nieprzygotowaną osobę, technologia Yandex niemal natychmiast zamienia się w tekst drukowany. Dzięki temu w bazie danych serwisu można szybko znaleźć dokumenty, w których wymieniono nazwisko, miejscowość lub dowolne inne słowa.
„Szukaj w archiwach” zwiększy efektywność pracy historyków, socjologów, demografów, genealogów oraz pomoże tym, którzy poszukują informacji o swojej rodzinie.
Pierwszym funduszem zaprezentowanym w serwisie było Archiwum Główne Moskwy – to na jego materiałach twórcy trenowali sieć neuronową. Baza danych zawiera również dokumenty z archiwów obwodów orenburskiego i nowogrodzkiego. Z biegiem czasu liczba magazynów i dostępnych zeskanowanych plików będzie rosła.
Możesz wyszukiwać materiały z XVIII - początku XX wieku, które cieszą się największą popularnością wśród użytkowników. Są to księgi parafialne, karty spowiedzi oraz rewizje z wynikami spisu ludności. Dokumenty można znaleźć w katalogu lub za pomocą paska wyszukiwania. Istnieją filtry według lat, archiwów, funduszy i inwentarzy.
Obok skanu każdej strony wyświetlane jest dekodowanie linia po linii wykonane przez sieci neuronowe. Jeśli najedziesz kursorem na żądany fragment, zostanie on natychmiast podświetlony na kopii cyfrowej.