Språkbanken Text och KB-labb lanserar ny datasamling: Kubord

17 februari 2022

Språkbanken Text och KB-labb samarbetar runt att skapa nya forskningsdata för humanistisk och samhällsvetenskaplig forskning. Som ett första resultat av samarbetet lanserar vi nu datasamlingen Kubord, som består av strax under en miljard ord från det senaste decenniet av moderna dagstidningar. Dessa har tagits fram hos KB-labb genom att mata in tidningstexter i Språkbanken Texts språkteknologiska analyskedja Sparv. På så sätt har texterna delats upp i ord, så kallad tokenisering, och utökats med lingvistiska särdrag såsom ordklasser, betydelser och sammansättningsinformation.

Kubord innehåller upphovsrättsskyddat material och därför är orden inte försedda med kontextuell information, till skillnad från många andra datasamlingar inom Språkbanken. Trots detta är den här samlingen av stort värde för forskare som vill studera ordens förändring över modern tid. Kubord används bland annat i ordboksarbetet som pågår på Institutionen för svenska, flerspråkighet och språkteknologi. För ordboksredaktionen är det viktigt att kunna ta reda på hur vanliga orden är i modernt språk för att lättare kunna identifiera nyord och ord som inte används längre.

Kubord innehåller idag ord från Dagens Nyheter, Göteborgs-Posten och Svenska Dagbladet från åren 2010-2020, men samlingen kommer utökas löpande med nya tidningar och årgångar.

Kubord finns fritt tillgänglig för nedladdning från Språkbanken Texts hemsida och kan även utforskas i Språkbanken Texts forskningsverktyg Korp.