Optical Character Recognition (OCR) of Swedish texts

Inlagt av Dana Dannélls 2024-05-22

Torsdag den 16 maj organiserade Språkbanken Text en workshop om Swedish OCR (Optical Character Recognition) och HTR (Hand Written Text Recognition). Syftet med workshopen var att

dela erfarenheter och utbyta kunskaper om hur långt vi har kommit med utvecklingen av tekniken för svenska texter
ta reda på var vi står idag
inventera vilka resurser vi har till vår förfrågande för att kunna förbättra tekniken.

Workshopen anordnades inom HumInfra-initiativet tillsammans med KB-labb och Riksarkivet.

Workshopen inleddes med en presentation av Robin Kurtz från KB-Labb om arbetet med digitaliseringen av tidningsmaterial på KB, och om de senaste resultaten från experimenten med Post-OCR korrigering på ett material som sträcker sig från 1818 till 2018.

Därefter presenterade Erik Lenas från Riksarkivet arbetet med layoutanalys på historiska texter samt en öppen källkodsmodell och ett användargränssnitt som stödjer teckentolkning av äldre svensk handskrift.

Slutligen presenterade Dana Dannélls från Språkbanken Text arbetet med OCR på historiskt material under de senaste tio åren, samt vilka referensdata som finns tillgängliga för att träna och förbättra OCR-analys.

Workshopen avslutades med en diskussion om våra framtida planer och vårt fortsatta samarbete det kommande året.

Se hela programmet och presentationerna här.

Bild: Deltagare på workshop. (Bild av Staffan Melin)

Deltagare på workshopen. (Foto: Staffan Melin)

Optical Character Recognition (OCR) of Swedish texts

Etiketter