OCR | Språkbanken Text

Klassificera mera - vägled din automatiska textigenkänning!

Läs mer om Klassificera mera - vägled din automatiska textigenkänning!

I den här bloggen ägnar vi oss åt datorers förmåga att läsa analog text. Denna förmåga är nuförtiden ofta mycket god: det är inte bara tryckt text utan även handskrift som datorerna kan förmås att uttolka. Det goda resultatet kan emellertid helt utebli om inte manegen först krattas ordentligt. En datormodell som är tränad att hantera bilder av text, den behandlar nämligen varje bild den utsätts för som just en bild av en text. Matar man modellen med en bild av en ballong, försöker den således läsa ballongen och transkribera den.

Optical Character Recognition (OCR) of Swedish texts

Läs mer om Optical Character Recognition (OCR) of Swedish texts

Torsdag den 16 maj organiserade Språkbanken Text en workshop om Swedish OCR (Optical Character Recognition) och HTR (Hand Written Text Recognition). Syftet med workshopen var att

The Kubhist corpus of Swedish newspapers

Läs mer om The Kubhist corpus of Swedish newspapers

Among the flurry of Språkbanken’s historical resources we find the Kubhist corpus – a diachronic collection of historical newspaper texts – in two versions: Kubhist 1 spanning the time period of 1750–1950, and Kubhist 2 spanning the time period of 1645–1926. Historical corpora of this kind, especially when available in searchable format, are valuable sources of information for learning about our history, language and culture.

Prenumerera på OCR