Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

Svenska tidningar 1818-1870

Citering Information

Språkbanken Text (2020). Svenska tidningar 1818-1870 (uppdaterad: 2020-05-26). [Data set]. Språkbanken Text. https://doi.org/10.23695/9bnq-xc71
BibTeX Ytterligare sätt att citera datamängden.
Ett urval av svenska tidningar tryckta mellan 1818 och 1870 från samlingarna på Kungliga biblioteket (KB). För OCR analys.

Svenska tidningar 1818–1870 innehåller ett urval av digitaliserade versioner av svenska tidningar från 1818 till 1870. Det är en del av den så kallad Kubhist corpus which was digitized at Kubhist-korpus som digitaliserades av Kungliga biblioteket (KB). En tidning valdes slumpmässigt from varje år. För varje tidning valdes två sidor, andra och fjärde. Sidorna bearbetades automatiskt med hjälp av avancerad dokumentlayoutanalys där varje segment i den digitaliserade sidan inramades och numrerades. Vidare har varje segment bearbetades med Abbyy FineReader version 11 och slutligen transkriberades manuellt av ett transkriptionsföretag som är specialiserat på så kallad double-keying.

Denna datamängd innehåller 106 sidor, 5,059 segments och 186,013 ord totalt.

Materialet producerades inom projektet Utvärdering och förfining av en förbättrad OCR-process för massdigitalisering som finansieras av RJ (dnr IN18-0940: 1) för perioden 2019-2020.

Ladda ned

Fil Storlek Modifierad Licens
458.22 MB 2020-05-26 CC BY 4.0
attribution

Typ

  • Korpus
  • Tränings- och utvärderingsdata

Språk

svenska

Storlek

Token: 186 013

Nyckelord

  • fraktur
  • historical newspapers
  • OCR
  • reference text

Updaterad

2020-05-26

Kontakt

Språkbanken Text
sb-info@svenska.gu.se