Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

OCR

Klassificera mera - vägled din automatiska textigenkänning!

I den här bloggen ägnar vi oss åt datorers förmåga att läsa analog text. Denna förmåga är nuförtiden ofta mycket god: det är inte bara tryckt text utan även handskrift som datorerna kan förmås att uttolka. Det goda resultatet kan emellertid helt utebli om inte manegen först krattas ordentligt. En datormodell som är tränad att hantera bilder av text, den behandlar nämligen varje bild den utsätts för som just en bild av en text. Matar man modellen med en bild av en ballong, försöker den således läsa ballongen och transkribera den.

The Kubhist corpus of Swedish newspapers

Among the flurry of Språkbanken’s historical resources we find the Kubhist corpus – a diachronic collection of historical newspaper texts – in two versions: Kubhist 1 spanning the time period of 1750–1950, and Kubhist 2 spanning the time period of 1645–1926. Historical corpora of this kind, especially when available in searchable format, are valuable sources of information for learning about our history, language and culture.

Prenumerera på OCR