Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

Forskning

Vår språkteknologiska forskning har sin tyngdpunkt i textbaserade empiriska studier och är nära knuten till utveckling av en nationell forskningsinfrastruktur, som syftar till att möjliggöra forskning på språkliga data, med särskilt fokus på svenska språket.

Språkbanken Texts mer än 20 aktiva forskare är framgångsrika inom ett brett spektrum av teman, såsom datorstödd språkinlärning, språkförändring, hantering av historiska texter, korpusbaserad grammatikforskning, OCR, lexikologi, biomedicinsk språkteknologi, sentiment- och argumentanalys, anonymisering och sökverktyg. Ofta görs detta i samarbete med experter från angränsande ämnen inom språkvetenskap, övrig humaniora och datavetenskap.

Projekt

Paraplyprojekt
Linguists often try to explain language change, but all our explanations are necessarily post hoc and thus difficult to evaluate. What happens if we turn to the future instead of the past and try to predict language change?
  • Aleksandrs (Sasha) Berdicevskis
  • Yvonne Adesam
  • Evie Coussé
  • Nina Tahmasebi
  • linguistics
  • computational linguistics
  • language change
  • language evolution
  • sociolinguistics
cassandra logo
HUMINFRA  är en ny distribuerad, nationell infrastruktur för forskning inom humaniora, konst och samhällsvetenskap.
  • Gerlof Bouma
  • Dana Dannélls
  • Markus Forsberg
  • Dimitrios Kokkinakis
  • Elena Volodina
Projektet ska med hjälp av konstruktionsgrammatik utveckla ett nätverk som (a) beskriver svenska språkliga konstruktioner och (b) länkar dem till konstruktioner i andra språk.
  • Benjamin Lyngfelt
  • Maia Andreasson
  • Kristian Blensenius
  • Linnea Bäckström
  • Steffen Höder
  • Peter Ljunglöf
  • Jonatan Uppström
  • linguistic typology
Mormor Karl är 27 år - är en forskningsmiljö som samlar kompetens från tre större områden för att studera pseudonymisering systematiskt, nämligen språkteknologi datavetenskap & dataintegritet lingvistik & språkinlärning. Avsikten är att genom forskningsmiljösatsningen stödja Sveriges arbete med öppen tillgång till forskningsdata.
  • Elena Volodina
  • Simon Dobnik
  • Xuan-Son Vu
  • Therese Lindström Tiedemann
  • pseudonymization
  • research data
  • språkteknologi
  • allmän lingvistik
  • svenska som andraspråk
  • pseudonymisering
  • dataintegritet
  • forskningsdata
Inom ramarna för projektet förvaltas och vidareutvecklas Svenska Akademiens lexikala databas (Salex). Vidare bedrivs arbete med Svenska Akademiens båda samtidsordböcker Svenska Akademiens ordlista (SAOL) och Svensk ordbok utgiven av Svenska Akademien (SO). Arbetet sker på uppdrag av och i samarbete med Svenska Akademien.
  • Kristian Blensenius
  • Markus Forsberg
  • Louise Holmer
  • Hans Landqvist
  • Stellan Petersson
  • Emma Sköldberg
  • Jonatan Uppström
  • Ann Lillieström
ICALL - Intelligent Computer Assisted Language Learning. The aim of the project is to develop an open-source system architecture for supporting ICALL, i.e. CALL that reuses NLP tools and NL resources, with emphasis on the Nordic languages.
  • Lars Borin
  • Elena Volodina
  • Hrafn Loftsson
  • Birna Arnbjörnsdóttir
  • ICALL
  • NLP4CALL
  • Swedish as a second language
  • Second language infrastructure
  • second language learning
Den svenska akademiska ordlistan har utvecklats av forskare med anknytning till forskningsområdena språkteknologi, lexikologi/lexikografi och svenska som andraspråk.
  • Lexicography
  • second language learning
  • NLP4CALL
Ett samarbetsprojekt mellan Språkbanken Text, FLoV och CLASP som syftar att utarbeta metoder för språkteknologisk behandling av argumentation.
  • Anna Lindahl
  • Stian Rødven-Eide
  • Axel Almquist
  • Bill Noble
  • Christine Howes
  • Ellen Breitholtz
  • Vladislav Maraev
  • Martin Kaså
  • linguistics
  • computational linguistics
  • argumentation
  • text
  • dialogue
  • pragmatics
  • semantics
  • politics
  • forum
  • online discussion
  • argumentation technology
  • argument mining
Developing tools for systematic studies of text classification
  • Niklas Zechner
Catta
This program has two main aims, firstly to develop corpus-based methods for detecting semantic change (over time) and variation (across social groups and media). This will create general tools for the study and detection of language change at large-scale and directly benefit historical linguistics and lexicography. Secondly, we will collaborate with researchers from social sciences, gender studies, and literature to answer their research questions. We will develop tools, evaluation data, and research methodology for their specific needs.
  • Nina Tahmasebi
  • Simon Hengchen
  • Haim Dubossarsky
  • Dominik Schlechtweg
  • Shafqat Virk
  • Emma Sköldberg
  • Mats Malm
  • Mia Liinason
  • Sarah Valdez
  • Dirk Geeraerts
  • Stefano de Pascale
  • lexical-semantic-change
Consumption patterns and life-style in Swedish literature – novels 1830-1860
  • Lars Borin
  • Markus Forsberg
  • Christer Ahlberger
We will apply corpus-driven methods as a way to expand and correct existing hand-crafted linguistic resources, and conversely we will use hand-crafted resources as additional sources of supervision when learning meaning representations automatically.
  • Richard Johansson
  • Luis Nieto Piña
The goal of this project is to create a database of comparable lexical items in a number of representative languages spoken in the Himalayan region in India and to use this database for investigating the Himalayas as a linguistic area.
  • Lars Borin
  • Taraka Rama
  • Anju Saxena
  • Bernard Comrie
  • language technology
  • areal linguistics
  • linguistic typology
  • computational linguistics
  • Lexicography
Digitization of Grierson’s Linguistic Survey of India (LSI; 1903-1927)
  • Lars Borin
  • Shafqat Virk
  • Anju Saxena
  • Bernard Comrie
A Multilingual Annotated Corpus of Grammars for the World's Languages
  • Shafqat Virk
  • Markus Forsberg
  • Harald Hammarström
Syftet med projektet är lägga grunden för att bygga upp en tjänst för en öppen molnbaserad OCR-tjänst. Tjänsten ska kunna utnyttjas av svenska minnesinstitutioner för att ladda upp stora mängder med äldre texter, där det är svårt att få bra OCR-resultat med kommersiella lösningar, och få tillbaka bra OCR-lästa textfiler.
  • Dana Dannélls
  • Lars Borin
  • Gerlof Bouma
  • OCR
  • historiskt material
EnetCollect (the European Network for Combining Language Learning with Crowdsourcing Techniques) was a large network project funded as a COST Action that ran from March 2017 till September 2021. It involved stakeholders from more than 40 different countries and has been the catalyst for numerous collaborative research efforts, achievements and publications.
  • Elena Volodina
The purpose of this project is to fine-tune and evaluate a test platform for OCR-production that was developed by Kungliga biblioteket (KB) in cooperation with the Norwegian software company Zissor in 2017.
  • Dana Dannélls
  • Lars Björk
  • Torsten Johansson
  • OCR
  • digital humanities
  • historiskt material
  • kulturarv
  • language technology
Tolkning och förståelse av funktionella symtom i primärvården
  • Dimitrios Kokkinakis
  • Eva Lidén
  • Elisabeth Björk Brämberg
  • Sylvia Määttä
  • Staffan Svensson
Under vilka förutsättningar försvagas yttrandefrihet och demokrati av hat och hot mot journalister online?
  • Peter Ljunglöf
  • Oscar Björkenfeldt
  • Måns Svensson
Det ettåriga pilotprojektet inventerar och analyserar maskinellt en unik samling av pressmaterial från 1923 års jubileumsutställning i Göteborg. Projektet är ett samarbete mellan GPS400, Språkbanken Text, Universitetsbiblioteket och Riksarkivet.
  • Lars Borin
  • Dana Dannélls
  • Markus Forsberg
Ordlistor i 9 språk för språkinlärning.
  • Elena Volodina
  • Sofie Johansson Kokkinakis
  • ICALL
  • NLP4CALL
  • second language learning
  • CEFR profiles
  • Swedish as a second language
Förbättrad annotering för Korps korpusinfrastruktur
  • Yvonne Adesam
  • Lars Borin
  • Gerlof Bouma
  • Markus Forsberg
  • Richard Johansson
The L2P project sets to describe Swedish Second Language learner lagnuage from the point of view of receptive and productive linguistic knowledge by level of proficiency, as contrasted on the basis of learner essays (SweLL-pilot corpus) and textbook texts (COCTAILL corpus).
  • Elena Volodina
  • Therese Lindström Tiedemann
  • Yousuf Ali Mohammed
  • David Alfter
  • ICALL
  • NLP4CALL
  • linguistic complexity
  • SLA
  • second language learning
  • CEFR profiles
The market Language primarily is funded by MAW in which we look at the changing concepts around “the market”. They have transitioned from implying a concrete physical market to increasingly abstract markets like Europe-wide iron markets, as well as marriage and dating markets. They have also increasingly become actors in our lives, “the market reacted badly to the new corona restrictions”. We will complement the conceptual historians in-depth analyses with computational models of change. This project ranges 2022-2025.
  • Henrik Björck
  • Shafqat Virk
  • Claes Ohlsson
Utveckling av automatiska annoteringsverktyg för fornsvenska texter.
  • Gerlof Bouma
  • Yvonne Adesam
En svensk medicinsk testkollektion
  • Karin Friberg Heppin
  • Anni Järvelin
Projektet META-NORD har som mål att etablera en öppen lingvistisk infrastruktur i de baltiska och nordiska länderna.
  • Lars Borin
  • Markus Forsberg
I detta projekt vill vi genom utnyttjande befintliga samlingar av digitaliserade grammatiska beskrivningar (ca 9000 st) utöka möjligheterna att göra stora språkjämförelser.
  • Shafqat Virk
  • Markus Forsberg
  • Harald Hammarström
MOLTO: s mål är att utveckla en uppsättning verktyg för att översätta texter mellan flera språk i realtid med hög kvalitet. Språk är separata moduler i verktyget och kan varieras. prototyper som täcker en majoritet av EU: s 23 officiella språk kommer att byggas.
  • Dana Dannélls
  • Generation
  • translation
  • multilingual
  • cultural heritage
  • GF
Personcentrerad information och kommunikation till personer med kolorektal cancer som genomgår kirurgi
  • Dimitrios Kokkinakis
The aim of the project is to investigate the role and importance of rumouring for the vaccination skepticism growing on the internet, and how it can be understood as an expression of civic engagement in the present digital times entailing crucial transformations for everyday civic culture.
  • Dimitrios Kokkinakis
  • Lars Borin
  • Mia-Marie Hammarlin
  • Fredrik Miegel
  • digital humanities
Projektet syftar till att utveckla språkteknologiska metoder för att utvinna, kombinera, bearbeta, analysera och tolka olika former av skrift- och talspråk samt ögonrörelsemätningar under textläsning hos personer i olika stadier av kognitiv nedsättning och friska kontroller.
  • Dimitrios Kokkinakis
  • Kristina Lundholm Fors
  • Malin Antonsson
  • Marie Eckerström
  • Charalambos Themistocleous
  • language disorders
Syftet med projektet är att tillgängliggöra lexikala resurser för språkteknologi i form av länkade öppna data åtkomliga via Språkbanken.
  • Lars Borin
  • Dana Dannélls
  • Markus Forsberg
  • LOD
  • Semantiska webben
  • länkad data
The goal of this project is to finalize the evaluation framework SuperLim by contributing training data for the current collection of test sets, a reference implementation (baseline), and a standardized web-based test environment for comparison between models and publication of results (leaderboard).
  • Markus Forsberg
  • Aleksandrs (Sasha) Berdicevskis
  • Gerlof Bouma
  • Felix Morger
  • Anna Lindahl
  • Dana Dannélls
  • Magnus Sahlgren
  • Love Börjeson
  • Francisca Hoyer
  • Elena Volodina
  • evaluation
  • bias
  • language models
SuperLim 2.0 logotype
Målet med projektet är att skapa högkvalitativa testmängder för att möjliggöra för alla aktörer inom svensk NLP att utvärdera och jämföra språkmodeller.
  • Markus Forsberg
  • Yvonne Adesam
  • Aleksandrs (Sasha) Berdicevskis
  • Dana Dannélls
  • Felix Morger
  • Gerlof Bouma
  • Magnus Sahlgren
  • Love Börjeson
  • Johanna Bergman
  • utvärdering
  • språkmodeller
  • fördomar
Gold reserve
SweFN++-projektet handlar om att skapa en central infrastrukturkomponent för svensk språkteknologi, nämligen en stor fritt tillgänglig lexikonresurs med rik lingvistisk information.
  • Lars Borin
  • Dana Dannélls
  • Dimitrios Kokkinakis
  • Markus Forsberg
  • Jonatan Uppström
  • Leif-Jöran Olsson
  • Malin Ahlberg
  • Maria Toporowska Gronostaj
  • Karin Friberg Heppin
  • Richard Johansson
  • lexikon
  • lexikal semantik
  • modern
  • integrerad lexikonresurs
  • frasnät
Målet med Svenskt Språkdatalabb är att skapa en nationell kunskapsnod inom språkteknologi, och ta fram svenska referensdatamängder för NLP som sedan tillgängliggörs med öppen access i AI Innovation of Swedens datafabrik.
  • Peter Ljunglöf
  • Aleksandrs (Sasha) Berdicevskis
Projektet går ut på att utveckla en databas över svenska konstruktioner, ett s.k. konstruktikon.
  • Lars Borin
  • Dana Dannélls
  • Markus Forsberg
  • Leif-Jöran Olsson
  • Jonatan Uppström
  • Benjamin Lyngfelt
  • Kristian Blensenius
  • Linnea Bäckström
  • Anna Ehrlemark
  • Per Malm
  • Joel Olofsson
  • Julia Prentice
  • Rudolf Rydstedt
  • Emma Sköldberg
  • Sofia Tingsell
  • Lexicography
  • integrerad lexikonresurs
  • constructicon
SweLL syftar till att skapa en plattform för att samla in, digitalisera, normalisera, lingvistiskt annotera och elektroniskt tillgängliggöra texter skrivna av inlärare av svenska.
  • Elena Volodina
  • Yousuf Ali Mohammed
  • Arild Matsson
  • Mats Wirén
  • Beáta Megyesi
  • Julia Prentice
  • Gunlög Sundberg
  • Lena Granstedt
  • Monica Reichenberg
  • Lisa Rudebeck
  • Second language infrastructure
  • Swedish as a second language
  • essay annotation
  • correction annotation
  • pseudonymization
Computerised text classification is used to help identify documents on the topic of patient-centred care.
  • Niklas Zechner
The project studies the rise of complex verb constructions in Germanic.
  • Evie Coussé
  • Gerlof Bouma
  • Nicoline van der Sijs
  • Dirk-Jan de Kooter
  • Trude Dijkstra
The main aim of this research program is to advance the state of the art in language technology resources and methods for semantic processing of Swedish text, in order to provide researchers and others with more sophisticated tools for working with the information contained in large volumes of digitized text, e.g., by being able to correlate and compare the content of texts and text passages on a large scale.
  • Jacobo Rouces
  • Lars Borin
  • Nina Tahmasebi
  • Dimitrios Kokkinakis
  • Pierre Nugues
  • Richard Johansson
  • Dubhashi Devdatt
  • culturomics
I det här projektet bygger vi automatiska, korpus-baserade verktyg för att studera lexikala semantiska förändringar för både det svenska och engelska språket.
  • Nina Tahmasebi
  • Simon Hengchen
  • Richard Johansson
  • Maria Koptjevskaja Tamm
Projektet undersöker hur nordiska personnamn i kontinentala källor anpassades till tyska, franska och latin under medeltiden. Syftet är att beskriva variationsmönstren i anpassningarna och att utveckla en teoretisk modell som förklarar varför olika strategier användes.
  • Michelle Waldispühl
  • Lars Borin
  • Dana Dannélls
  • Jonatan Uppström
  • språk
  • culture
  • historiskt material
Språkbanken Text collaborates with the Department of Philosophy, Linguistics and Theory of Science to create an annotated corpus of Xhosa, an underresourced Bantu language of South Africa (also known as isiXhosa and Xosa).
  • Anne Schumacher
  • Martin Hammarstedt
  • Aleksandrs (Sasha) Berdicevskis
  • Markus Forsberg
  • Eva-Marie Karin Bloom Ström
  • Aron Einar Zahran
  • Onelisa Slater
  • linguistic typology
  • field linguistics
  • African languages
  • Bantu languages
  • glossing
 Proportion of the South African population that speaks isiXhosa as their first language, according to Census 2011 at electoral ward level