Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

Bloggmix 2012

Citering Information

Språkbanken Text (2017). Bloggmix 2012 (uppdaterad: 2017-02-23). [Data set]. Språkbanken Text. https://doi.org/10.23695/scfd-zp59
BibTeX Ytterligare sätt att citera datamängden.
Material från ett urval av svenska bloggar. Uppdateras regelbundet.

Urvalet av bloggar för bloggmixen görs med hjälp av topplistorna på bloggportalen.se, både Mest besökta privata bloggar, Mest besökta proffsbloggar och de lokala topplistorna för olika regioner.

Närmare information, som bloggarens ort och ålder, hämtas också från Bloggportalen. Materialet har inte kontrollerats manuellt, vilket betyder att det kan förekomma spam. Några engelskspråkiga bloggar har plockats bort då de upptäckts, och vissa bloggar har inte kunnat läsas in av tekniska skäl.

Tidsperioden sträcker sig från de första inläggen i de utvalda bloggarna till de senaste inläggen. Korpusen uppdateras regelbundet.

Tillgänglig via

Ladda ned

Fil Storlek Modifierad Licens
bloggmix2012.xml.bz2
this file contains a scrambled version of the corpus Information (XML)
1.17 GB 2017-02-23 CC BY 4.0
attribution
stats_BLOGGMIX2012.txt
Ordstatistik: Information (CSV)
60.09 MB 2017-02-26 CC BY 4.0
attribution

Del av samling

Typ

  • Korpus

Språk

svenska

Storlek

Meningar: 5 112 279
Token: 80 041 223

Updaterad

2017-02-23

Kontakt

Språkbanken
sb-info@svenska.gu.se