Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

Ny korpus i Korp: SVT nyheter

27 oktober 2021

Nu finns det en ny korpus i Korp som innehåller nyhetsartiklar från svt.se. Artiklarna är från 2004 till september 2021.
Korpusen innehåller omkring 200 miljoner tokens, vilket är ett ganska stort material, och den är rik på metadata. Det finns bland annat information om publiceringsdatum, kategori, nyckelord och en länk till artikeln på svt.se.

Materialet är efterlängtat då det både är aktuellt och innehåller modernt och vårdat språk. Planen är att korpusen ska uppdateras två gånger per år. Vid nästa uppdatering kommer korpusen att delas upp årsvis, för att förenkla vissa typer av sökningar.

Korpusen heter SVT nyheter och finns här: 
https://spraakbanken.gu.se/korp/#?corpus=svt-2004,svt-2005,svt-2006,svt-2007,svt-2008,svt-2009,svt-2010,svt-2011,svt-2012,svt-2013,svt-2014,svt-2015,svt-2016,svt-2017,svt-2018,svt-2019,svt-2020,svt-2021,svt-2022,svt-nodate

Materialet är nedladdningsbart dels som meningsmängder och dels som ordfrekvenser. Dessa hittar man här: https://spraakbanken.gu.se/resurser/corpus?s=svt+nyheter&language=All


Korp är Språkbanken Texts korpusverktyg med vilket man kan söka i stora mängder text från bland annat dagstidningar, skönlitteratur och sociala medier. Läs mer om verktyget Korp här: https://spraakbanken.gu.se/verktyg/korp

 

Korp korpus SVT Nyheter