Hoppa till huvudinnehåll

Forskning

Vår språkteknologiska forskning har sin tyngdpunkt i textbaserade empiriska studier och är nära knuten till utveckling av en nationell forskningsinfrastruktur, som syftar till att möjliggöra forskning på språkliga data, med särskilt fokus på svenska språket.

Språkbanken Texts mer än 20 aktiva forskare är framgångsrika inom ett brett spektrum av teman, såsom datorstödd språkinlärning, språkförändring, hantering av historiska texter, korpusbaserad grammatikforskning, OCR, lexikologi, biomedicinsk språkteknologi, sentiment- och argumentanalys, anonymisering och sökverktyg. Ofta görs detta i samarbete med experter från angränsande ämnen inom språkvetenskap, övrig humaniora och datavetenskap.

Projekt

2026 - 2029
This project investigates speech and language as early markers of cognitive decline by integrating linguistic analysis with neuropsychological tests and biomarkers. Using large-scale, clinically validated datasets and state-of-the-art AI methods, it aims to identify, combine, and track linguistic, cognitive, and behavioral indicators to improve early diagnosis, monitoring, and prognosis of dementia.
  • Dimitrios Kokkinakis
  • Charalambos Themistocleous
  • Lina Rydén
  • Johan Skoog
  • cognitive decline
  • linguistic biomarkers
  • language disorders
  • neuropsychological tests
2026 - 2028
Historisk levnadsstandard är ett centralt forskningsfält inom ämnet ekonomisk historia. I detta forskningsfält har förslavade individer ofta osynliggjorts på grund av att de saknas i de källor som vanligen används. Detta projekt ska studera hur förslavade människor i 1800-talets USA beskrev sin levnadsstandard, baserat på en stor mängd ”slavnarrativ” – självbiografiska texter av, eller intervjuer med, före detta förslavade människor. Tidigare forskning uppskattar att det finns cirka 5 000 sådana berättelser från USA i olika arkivsamlingar. Berättelserna kommer att samlas i en annoterad textkorpus. Den annoterade textkorpusen kommer så småningom att göras fritt tillgänglig för vidare forskning, för att kunna användas för såväl historisk som språkvetenskaplig eller annan forskning. När korpusen har tagit form, kommer vi att studera hur dessa individer beskrev både sin materiella levnadsstandard (i form av ägande av materiella saker) och sina icke-materiella livsvillkor (med fokus på det trauma som slaveriets våld och tvång innebar). Textanalysen kommer att omfatta både datorstödd analys och forskardriven, korpusbaserad diskursanalys av berättelserna. Detta tillvägagångssätt möjliggör en större helhetsbild av de förslavades många olika röster än vad tidigare (huvudsakligen anekdotisk) forskning på området har kunnat ge. Vi kommer att analysera om dessa två aspekter varierade med avseende på sociala, kulturella och geografiska faktorer, samt om de förändrades över tid – framförallt i och med att individerna befriade sig själva eller blev befriade från slaveriet. Projektet genomförs av Klas Rönnbäck (ekonomisk historia), Irene Elmerot (korpuslingvistisk diskursanalys) och Leif-Jöran Olsson (språkteknologi), i samarbete med Morgan State University i USA och en bred internationell referensgrupp med framstående forskare från olika forskningsämnen.
  • Leif-Jöran Olsson
  • Klas Rönnbäck
  • Irene Elmerot
  • Economic History
  • digital humanities
  • Corpus-Assisted Discourse Studies
  • computational linguistics
  • historiskt material
  • kulturarv
2022 - 2028
HUMINFRA  är en ny distribuerad, nationell infrastruktur för forskning inom humaniora, konst och samhällsvetenskap.
  • Gerlof Bouma
  • Dana Dannélls
  • Markus Forsberg
  • Dimitrios Kokkinakis
  • Elena Volodina
2025 - 2028
Ökad social stratifiering är förknippat med samhälleliga problem, tydligast i det globala syd. Forskningen om ursprunget till hög social stratifiering har därför ökat, men empiriska och metodologiska utmaningar försvårar arbetet. Vårt projekt syftar till att undersöka ursprunget till den höga sociala stratifieringen i Argentina (1850–1900), en gång ett rikt land men nu drabbat av kriser och ojämlikhet – omtalat som den ”argentinska paradoxen”. Vi tänker använda avancerad OCR-teknik för att digitalisera ett rikt källmaterial på individnivå. Med mått på sysselsättningsstruktur, läskunnighet och social rörlighet ger vi ny kunskap om det historiska ursprunget till den ”argentinska paradoxen”.
  • Stefania Galli
  • Dana Dannélls
  • Juliá Ciarelli, Juan Pablo
  • digital humanities
  • historiskt material
  • multilingual
  • Economic History
2023 - 2028
Mormor Karl är 27 år - är en forskningsmiljö som samlar kompetens från tre större områden för att studera pseudonymisering systematiskt, nämligen språkteknologi datavetenskap & dataintegritet lingvistik & språkinlärning. Avsikten är att genom forskningsmiljösatsningen stödja Sveriges arbete med öppen tillgång till forskningsdata.
  • Elena Volodina
  • Simon Dobnik
  • Xuan-Son Vu
  • Therese Lindström Tiedemann
  • Maria Irena Szawerna
  • Lisa Södergård
  • pseudonymization
  • research data
  • språkteknologi
  • allmän lingvistik
  • svenska som andraspråk
  • pseudonymisering
  • dataintegritet
  • forskningsdata
2021 - 2028
Inom ramarna för projektet förvaltas och vidareutvecklas Svenska Akademiens lexikala databas (Salex). Vidare bedrivs arbete med Svenska Akademiens båda samtidsordböcker Svenska Akademiens ordlista (SAOL) och Svensk ordbok utgiven av Svenska Akademien (SO). Arbetet sker på uppdrag av och i samarbete med Svenska Akademien.
  • Kristian Blensenius
  • Markus Forsberg
  • Louise Holmer
  • Hans Landqvist
  • Stellan Petersson
  • Emma Sköldberg
  • Jonatan Uppström
  • Ann Lillieström
2020 - 2028
Ett samarbetsprojekt mellan Språkbanken Text, FLoV och CLASP som syftar att utarbeta metoder för språkteknologisk behandling av argumentation.
  • Anna Lindahl
  • Stian Rødven-Eide
  • Axel Almquist
  • Bill Noble
  • Christine Howes
  • Ellen Breitholtz
  • Vladislav Maraev
  • Martin Kaså
  • linguistics
  • computational linguistics
  • argumentation
  • text
  • dialogue
  • pragmatics
  • semantics
  • politics
  • forum
  • online discussion
  • argumentation technology
  • argument mining
2021 - 2028
Developing tools for systematic studies of text classification
  • Niklas Zechner
Catta
2022 - 2027
This program has two main aims, firstly to develop corpus-based methods for detecting semantic change (over time) and variation (across social groups and media). This will create general tools for the study and detection of language change at large-scale and directly benefit historical linguistics and lexicography. Secondly, we will collaborate with researchers from social sciences, gender studies, and literature to answer their research questions. We will develop tools, evaluation data, and research methodology for their specific needs.
  • Nina Tahmasebi
  • Simon Hengchen
  • Haim Dubossarsky
  • Dominik Schlechtweg
  • Shafqat Virk
  • Emma Sköldberg
  • Mats Malm
  • Mia Liinason
  • Sarah Valdez
  • Dirk Geeraerts
  • Stefano de Pascale
  • lexical-semantic-change
2021 -
CompSLA (Computational Second Language Acquisition) is a cooperation whose primary aim is to encourage the development of datasets and tools related to L2 (second language) learning for lower-resourced languages.
  • Elena Volodina
  • David Alfter
  • Arianna Masciolini
  • Yousuf Ali Mohammed
  • Ricardo Muñoz Sánchez
  • Maria Irena Szawerna