En syntaktisk beskrivningsmodell för modern svensk text

Sverige har en relativt lång tradition av att skapa en typ av korpus som brukar kallas trädbank. En trädbank är en samling texter som har annoterats (märkts upp) med ordklasser och syntaktisk struktur. Den syntaktiska strukturen för en mening kan ritas upp så att den liknar ett träd. Trädbanken Talbanken skapades redan på 70-talet (Teleman, 1974) och texterna (och delar av annoteringen) har återanvänts i flera trädbanker sedan dess. Trädbankerna kan sedan t ex användas för att studera grammatiska frågor, för att …

Om ordklasser för svenska språket

Ordklassindelning används i många språkteknologiska verktyg därför att det är ett sätt att skilja mellan olika användningar av ett ord. Genom ordklasserna kan man enklare söka efter liknande ord och uttryck i stora textmängder, eller skapa en ny text med liknande form. Att automatiskt dela in orden i texter i ordklasser är därmed en av de grundläggande metoderna inom artificiell intelligens, för att få datorn att förstå mänskligt språk. Människan har länge delat in ord i olika klasser eller kategorier, beroende på …

Grym och häftig ordförändring

Ord kan förändra sina betydelser. Man behöver inte en doktorgrad i språkvetenskap för att upptäcka att grym i (1) betyder inte samma sak som i (2). (1) — Ja, så här grym kan fotbollen vara. Tyvärr, menade Gefles tränare Lennart ’Liston’ Söderberg. Dagens Nyheter 1987-05-18 (2) Jag hörde inte vad mina lagspelare sa, om de kallade på mig eller minsta lilla, för det var en sådan skön och grym stämning. Svenska Dagbladet 2013-09-03 Det finns dock en del svårare frågor. Finns det …

The Kubhist corpus of Swedish newspapers

Among the flurry of Språkbanken’s historical resources we find the Kubhist corpus – a diachronic collection of historical newspaper texts – in two versions: Kubhist 1 spanning the time period of 1750–1950, and Kubhist 2 spanning the time period of 1645–1926. Historical corpora of this kind, especially when available in searchable format, are valuable sources of information for learning about our history, language and culture. These are especially appealing for researchers coming from the digital humanities who study history, literature, linguistics, sociology …

Vad är en tsunami för slags våg egentligen?

Ordet tsunami var helt okänt för de flesta i Sverige före julhelgen 2004. Då inträffade ju det som så småningom kom att kallas tsunamikatastrofen, en förfärlig naturkatastrof som skördade otaliga dödsoffer i Sydasien och Sydostasien. Det är klart att en tsunami är en sorts våg, men vilken sorts våg handlar det om? Hur talade man om detta naturfenomen på svenska före 2004? I fackkretsar – bland seismologer, etc. – har man förstås länge känt till ordet tsunami, men även i allmänspråket dyker …