Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

Svenska tidningar 1871-1906

Citering Information

Språkbanken Text (2022). Svenska tidningar 1871-1906 (uppdaterad: 2022-05-03). [Data set]. Språkbanken Text. https://doi.org/10.23695/6kg4-8h62
BibTeX Ytterligare sätt att citera datamängden.
Ett urval av svenska tidningar tryckta mellan 1871 och 1906 från samlingarna på Kungliga biblioteket (KB). För OCR analys.

Svenska tidningar 1871–1906 innehåller ett urval av digitaliserade versioner av svenska tidningar från 1871 till 1906. Det är en del av den så kallad Kubhist corpus which was digitized at Kubhist-korpus som digitaliserades av Kungliga biblioteket (KB). En tidning valdes slumpmässigt from varje år. För varje tidning valdes två sidor, andra och fjärde. Sidorna bearbetades automatiskt med hjälp av avancerad dokumentlayoutanalys där varje segment i den digitaliserade sidan inramades och numrerades. Vidare har varje segment bearbetades med Abbyy FineReader version 11 och slutligen transkriberades manuellt av ett transkriptionsföretag som är specialiserat på så kallad double-keying.

Denna datamängd innehåller 74 sidor, 45,445 segment och 337,635 ord totalt.

Materialet producerades inom projektet Utvärdering och förfining av en förbättrad OCR-process för massdigitalisering som finansieras av RJ (dnr IN18-0940: 1) för perioden 2019-2020.

Fil Storlek Modifierad Licens
831.74 MB 2022-05-03 CC BY 4.0
attribution

Typ

  • Korpus
  • Tränings- och utvärderingsdata

Språk

svenska

Storlek

Token: 337 635

Nyckelord

  • fraktur
  • historical newspapers
  • OCR
  • reference text

Updaterad

2022-05-03

Kontakt

Språkbanken Text
sb-info@svenska.gu.se