Skip to main content

News archive

Månadens profil: Magnus Ahltorp

Magnus Ahltorp är språkteknolog och lingvist på Isof. Han är ansvarig för Språkrådets digitala lexikon, till exempel ordboken Lexin som snart lanseras i en ny version. Han utvecklar dessutom språkteknologiska verktyg för olika typer av språkligt material.

Läs intervjun med Magnus Ahltorp på språkbanken.se

Under vinjetten Månadens profil på språkbanken.se presenteras personer vars arbete har anknytning till Nationella språkbanken.

Swe-Clarin på turné: Heldag om AI och forskning på historiska arkivtexter

Vilka möjligheter ger AI och språkteknologi för forskning på historiska arkivtexter? Onsdag 1 februari bjuder Swe-Clarin in till en heldag om detta i Uppsala.

Automatisk handskriftsigenkänning baserad på AI och tillämpning av språkteknologi på de digitaliserade texterna förändrar idag drastiskt förutsättningarna för forskning på historiska arkivtexter.

1 februari bjuder Swe-Clarin in till en heldag där forskare och experter ger en fördjupad inblick i de digitala verktygens möjligheter. Evenemanget riktar sig till forskare inom alla discipliner som använder sig av handskrivna eller historiska texter som forskningsdata.

Swe-Clarin är den svenska noden i CLARIN ERIC, som bygger upp en europeisk forskningsinfrastruktur baserad på språkteknologi. Dagen arrangeras i samarbete med Datorlingvistikgruppen vid Institutionen för lingvistik och filologi vid Uppsala universitet och CDHU, Centrum för digital humaniora vid Uppsala universitet.

Plats: Universitetshuset i Uppsala, Biskopsgatan 3, sal IV. Tid: Onsdag den 1 februari kl 9.30-16.30 med efterföljande mingel. Evenemanget är kostnadsfritt och lunch ingår, men vänligen anmäl dig senast 27 januari. Har du frågor? Hör av dig till eva.pettersson@lingfil.uu.se

Anmäl dig här >>

 

Program
09.30 Lars Borin (Göteborgs universitet/Swe-Clarin): Introduktion: Swe-Clarin

10.00 Ekta Vats (CDHU): Handwritten text recognition: recent advances and future trends

10.45 Paus

11.00 Hanna Willdal (Isof): Automatiserad handskriftstolkning av folkminnesuppteckningar – pågående arbete och erfarenheter

11.45 Lunch

13.00 Karl-Magnus Johansson (Riksarkivet): Machine learning and local knowledge - combining HTR and citizen humanities

13.45 Erik Lenas (Riksarkivet): Digitalisering av historisk text: svårigheter och möjligheter

14.30 Fika

15.00 Beáta Megyesi (Uppsala universitet/Swe-Clarin): Lost in transcription of historical ciphers: AI models and user perspective

15.45 Korp/Strix-demo (Göteborgs universitet/Språkbanken Text)

16.30 Mingel med förfriskningar

Månadens profil: Elena Volodina

Elena Volodina är forskare inom lingvistik, språkteknologi och språkvetenskaplig databehandling vid Språkbanken Text. Just nu är hon aktuell med projektet ”Mormor Karl är 27 år”, som fått 18 miljoner kr i forskningsbidrag från Vetenskapsrådet.

Läs intervjun med Elena Volodina på språkbanken.se

Läs mer om projektet

Under vinjetten Månadens profil på språkbanken.se presenteras personer vars arbete har anknytning till Nationella språkbanken.

Cassandra: a toolset for analyzing and visualizing language change

Within the Cassandra project we are using Korp to analyze numerous instances of language change: not one, not two, but dozens (and in the future, potentially hundreds).
At this scale, it is impossible to perform searches (and process their results) manually. Fortunately, Korp has an API that makes automatization of this process possible. We have created a set of scripts (v1.0.0) that can be easily used to generate tables and plots like the ones in Figure 1 with a few simple commands. … Fortsätt läsa ”Cassandra: a toolset for analyzing and visualizing language change”

Hur fångar vi upp svenskans nya ord med hjälp av Kubord? 

Krympflation, sugardejting, teckentolka och tyngdtäcke är några av alla de ord vilkas betydelser och användningar just nu analyseras av oss som ingår i forskningsprojektet Svenska Akademiens samtidsordböcker vid Språkbanken Text.
Analyserna ska ligga till grund för innehållet i framtida ordboksartiklar i de två samtidsordböckerna Svenska Akademiens ordlista (SAOL) och Svensk ordbok utgiven av Svenska Akademien (SO). På senare tid har den relativt nyskapade datamängden Kubord, som finns tillgänglig via Språkbanken Texts samlingar och via forskningsverktyget Korps Kubordläge, kommit att spela en mycket … Fortsätt läsa ”Hur fångar vi upp svenskans nya ord med hjälp av Kubord? ”

LIVE and LEARN Festschrift

I samband med Lars Borin 65-årsdag har vi sammanställt en festskrift bestående av 30 artiklar. Artiklarna kommer från vänner och kollegor runt om i världen och handlar om ämnen som på ett eller annat sätt har inspirerats av Lars arbete. Ett gemensamt tema för artiklarna är det ständiga behovet av att lära, vilket anspelas på volymens titel: LIVE and LEARN.

Volymen är nu tillgänglig elektroniskt: https://gupea.ub.gu.se/handle/2077/74254

”Mormor Karl” ska göra personuppgifter anonyma

Texter som används som forskningsdata får inte innehålla personuppgifter som kan avslöja riktiga personer, något som i dag ofta hindrar forskare från att fritt använda textmaterialet. Forskningsmiljön ”Mormor Karl är 27 år” har getts nästan 18 miljoner kronor i bidrag från Vetenskapsrådet för att utveckla språkteknologiska algoritmer som automatiskt byter personuppgifter till en pseudonym i texter.

- I dag finns det risk att personer som nämns i ord i olika textmassor går att identifiera. Det kan vara med namn eller yrke, men också annan känslig information som politiska åsikter, berättar Elena Volodina, forskare vid Språkbanken Text vid Institutionen för svenska, flerspråkighet och språkteknologi.  

Elena Volodina är huvudsökande till Vetenskapsrådet för forskningsmiljön Mormor Karl är 27 år: automatisk pseudonymisering av forskningsdata som i november getts 17,6 miljoner kronor i bidrag. Under de sex kommande åren ska gruppen systematiskt studera pseudonymer i större textmassor. Målet är att skapa språkteknologiska algoritmer som kan upptäcka personuppgifter och känslig information i stora textmassor och automatiskt ersätta orden med lämpliga pseudonymer. På så sätt kan personuppgifter skyddas och alla texter användas i olika slags forskning. 

Läs hela nyheten om projektet här >>

Läs mer om projektet här >>