Hoppa till huvudinnehåll

sv-COVID-19

Blandade artiklar relaterade till coronaviruspandemin
sv-covid-19 är en samling svenska nyhetestexter, vetenskapliga och populärvetenskapliga artiklar och artiklar från vissa bloggar och sociala medier, till exempel Flashback och Twitter, som började publiceras i början av coronaviruspandemin (tidigt 2020). Korpusen består av drygt åtta miljoner ord och 9000 artiklar. Korpusen innehåller olika texttyper och texter med olika stilnivåer. Texterna har märkts upp med ordklasstaggar, morfologisk analys och lemma, samt viss strukturell och funktionell information, som till exempel författarnamn.

Referenser

Fil Storlek Modifierad Licens
sv-covid-19.xml.bz2
this file contains a scrambled version of the corpus Information (XML)
200.6 MB 2023-05-29 CC BY 4.0
attribution
stats_sv-covid-19.csv
Ordstatistik: Information (CSV)
12.47 MB 2023-05-29 CC BY 4.0
attribution

Typ

  • Korpus

Språk

svenska

Storlek

Meningar: 488 246
Token: 8 130 201

Nyckelord

  • news texts
  • social media
  • scientific articles
  • medical articles

Kontakt

Språkbanken
sb-info@svenska.gu.se