Hur fångar vi upp svenskans nya ord med hjälp av Kubord? 

Krympflation, sugardejting, teckentolka och tyngdtäcke är några av alla de ord vilkas betydelser och användningar just nu analyseras av oss som ingår i forskningsprojektet Svenska Akademiens samtidsordböcker vid Språkbanken Text. Analyserna ska ligga till grund för innehållet i framtida ordboksartiklar i de två samtidsordböckerna Svenska Akademiens ordlista (SAOL) och Svensk ordbok utgiven av Svenska Akademien (SO). På senare tid har den relativt nyskapade datamängden Kubord, som finns tillgänglig via Språkbanken Texts samlingar och via forskningsverktyget Korps Kubordläge, kommit att spela en mycket …

Valmanifest 2022 – En språkteknologisk snabbanalys

En dryg vecka innan valet var äntligen alla riksdagspartiernas valmanifest på plats. Vi tänkte det vore intressant att göra några enkla analyser av texten och se vad vi kan ta reda på med språkteknologiska verktyg. Det första vi gjorde var att köra dokumenten genom Språkbankens annotationsverktyg Sparv. Detta gav oss bland annat läsbarhetsvärden och attitydanalys. Genomsnittslängden på manifesten är ca 6.000 ord, men varierar en hel del, från Kristdemokraternas 1.623 ord till Moderaternas 11.139. Antal ord LIX NK OVIX POS NEG C …

Vilket ord är bäst?

I förra blogginlägget fick vi läsa om korsord, en populär sysselsättning så här under sommarmånaderna. En relaterad hobby om man vill vara lite mer social är förstås att spela Scrabble – även känt under det svenska namnet Alfapet, samt i olika digitala versioner, bland annat Wordfeud. Men hur många poäng går det egentligen att få på ett enda ord? Vilket Scrabble-ord är bäst?

En syntaktisk beskrivningsmodell för modern svensk text

Sverige har en relativt lång tradition av att skapa en typ av korpus som brukar kallas trädbank. En trädbank är en samling texter som har annoterats (märkts upp) med ordklasser och syntaktisk struktur. Den syntaktiska strukturen för en mening kan ritas upp så att den liknar ett träd. Trädbanken Talbanken skapades redan på 70-talet (Teleman, 1974) och texterna (och delar av annoteringen) har återanvänts i flera trädbanker sedan dess. Trädbankerna kan sedan t ex användas för att studera grammatiska frågor, för att …

Om ordklasser för svenska språket

Ordklassindelning används i många språkteknologiska verktyg därför att det är ett sätt att skilja mellan olika användningar av ett ord. Genom ordklasserna kan man enklare söka efter liknande ord och uttryck i stora textmängder, eller skapa en ny text med liknande form. Att automatiskt dela in orden i texter i ordklasser är därmed en av de grundläggande metoderna inom artificiell intelligens, för att få datorn att förstå mänskligt språk. Människan har länge delat in ord i olika klasser eller kategorier, beroende på …

Grym och häftig ordförändring

Ord kan förändra sina betydelser. Man behöver inte en doktorgrad i språkvetenskap för att upptäcka att grym i (1) betyder inte samma sak som i (2). (1) — Ja, så här grym kan fotbollen vara. Tyvärr, menade Gefles tränare Lennart ’Liston’ Söderberg. Dagens Nyheter 1987-05-18 (2) Jag hörde inte vad mina lagspelare sa, om de kallade på mig eller minsta lilla, för det var en sådan skön och grym stämning. Svenska Dagbladet 2013-09-03 Det finns dock en del svårare frågor. Finns det …

The Kubhist corpus of Swedish newspapers

Among the flurry of Språkbanken’s historical resources we find the Kubhist corpus – a diachronic collection of historical newspaper texts – in two versions: Kubhist 1 spanning the time period of 1750–1950, and Kubhist 2 spanning the time period of 1645–1926. Historical corpora of this kind, especially when available in searchable format, are valuable sources of information for learning about our history, language and culture. These are especially appealing for researchers coming from the digital humanities who study history, literature, linguistics, sociology …

Vad är en tsunami för slags våg egentligen?

Ordet tsunami var helt okänt för de flesta i Sverige före julhelgen 2004. Då inträffade ju det som så småningom kom att kallas tsunamikatastrofen, en förfärlig naturkatastrof som skördade otaliga dödsoffer i Sydasien och Sydostasien. Det är klart att en tsunami är en sorts våg, men vilken sorts våg handlar det om? Hur talade man om detta naturfenomen på svenska före 2004? I fackkretsar – bland seismologer, etc. – har man förstås länge känt till ordet tsunami, men även i allmänspråket dyker …