Hoppa till huvudinnehåll

Alla nyheter

Ny korpus speglar det svenska ordförrådet under 1900-talet

SAOB1950 är en korpus bestående av inscannade böcker från 1950 till 2007. Texterna används som källmaterial för att uppdatera SAOB, Svenska Akademiens ordbok, med ett urval som speglar det svenska ordförrådet framför allt under 1900-talets senare hälft.

Nu finns korpusen i Korp, både i det moderna läget, och i ett eget SAOB-läge där SAOB-redaktionen gjort ett eget korpusurval.

Korpusen finns även att ladda ner som omkastade meningsmängder från Språkbanken Texts sida med språkliga data.

Ordlista

  • korpus: en stor samling språkliga data

CALD-pseudo workshop på EACL 2024

Välkommen att skicka in bidrag till CALD-pseudo workshop om datorbaserade metoder för pseudonymisering av språkdata. Workshopen är en del av konferensen för den europeiska avdelningen av Association for Computational Linguistics (EACL) som äger rum 21-22 mars 2024 på Malta.

Tillgången till forskningsdata är kritisk inom flera forskningsdomäner, men personligt innehåll hindrar ofta data från att vidareanvändas. Dataskyddsförordningen, GDPR (EU-kommissionen, 2016), föreslår pseudonymisering som en lösning för att säkra öppen tillgång till forskningsdata. Den största utmaningen är hur man effektivt pseudonymiserar data så att individer inte kan identifieras, samtidigt som man behåller data som är användbar för forskning inom bland annat datalingvistik, lingvistik och naturlig språkbehandling. 

Under workshopen diskuteras flera utmaningar inom pseudonymisering. 

Läs mer på workshopens webbsida >>

RaPID-5@LREC-COLING2024 - en heldagsworkshop i maj 2024 i Turin, Italien

Den 5:e RaPID-workshopen (RaPID-5) är ett tvärvetenskapligt forum för forskare att dela information, rön, metoder, modeller och erfarenhet av insamling och bearbetning av data som produceras av individer med olika former av mentala, kognitiva, neuropsykiatriska eller neurodegenerativa funktionsnedsättningar, såsom afasi, demens, autism, Parkinsons sjukdom eller schizofreni. RaPID-5 kommer öppnas för bidrag inom kort.

RaPID-5@LREC-COLING2024: Resources and ProcessIng of linguistic, para-linguistic and extralinguistic Data from people with various forms of cognitive/psychiatric/developmental impairments 

Heldagsworkshop: maj 2024 (information om exakt datum kommer)
Plats: Lingotto Conference Centre - Turin (Italien)
Läs mer här: https://spraakbanken.gu.se/en/rapid-2024 

Den 5:e RaPID-workshopen (RaPID-5) är ett tvärvetenskapligt forum för forskare att dela information, rön, metoder, modeller och erfarenhet av insamling och bearbetning av data som produceras av individer med olika former av mentala, kognitiva, neuropsykiatriska eller neurodegenerativa funktionsnedsättningar, såsom afasi, demens, autism, Parkinsons sjukdom eller schizofreni. Data innebär spontant [kontinuerligt] tal och transkriptioner, ögonrörelsemätningar, och olika typer av digitala och multimodala biomarkörer som exempelvis sensordata från mobiltelefoner, klockor, armband och liknande.

Ett särskilt intresse med RaPID-5 är studier om samband mellan olika språkliga, paralingvistiska och extralingvistiska observationer för att identifiera, utvinna, korrelera, utvärdera och  modellera olika språkliga och/eller multimodala fenotyper och mätningar, som kan användas för att underlätta diagnos, övervaka utvecklingen eller förutsäga individer i riskzonen för att utveckla neurodegenerativa eller neuropsykiatriska sjukdomar.

RaPID-5 välkomnar särskilt bidrag om multidisciplinära aspekter av databearbetning från den ovannämnda populationen, och med fokus på samspelet mellan klinisk/medicinsk vetenskap/informatik, språkteknologi, och datavetenskap.

Möt vår nya forskningsingenjör Herbert Lange

Från Tyskland till Sverige till Tyskland och så tillbaka igen. När längtan blev för stark kom ett tips om en anställning som systemadministratör på Språkbanken Text, Göteborgs universitet.

– Jag är inblandad i drift av datainfrastruktur på Språkbanken, och sköter om resurser som hjälper forskare att bedriva sitt arbete.

Herbert är ursprungligen från München men doktorerade i datavetenskap på Göteborgs universitet. Ämnet var databaserad språkinlärning för latin. För språk är något som hen tycker är spännande.

–  Det är viktigt att kunna kommunicera, och det är fascinerande att det går att kommunicera även om det finns utmaningar såsom flertydighet.

Efter sin doktorsexamen tog pandemin henom åter till Tyskland där hen arbetade med forskningsinfrastruktur inom språkvetenskap,  QUEST och Text+.

Just nu ser Herbert till att Språkbanken Texts federerade inloggning fungerar på fler av webbtjänsterna, så att det räcker med en inloggning för de olika systemen.

Vad ni kanske inte visste om Herbert är att hen pluggade även Medeltidshögtyska på universitetet.

– Ett ord som jag tycker om är "ieman", som beroende på kontext kan betyda både "någon" eller "ingen".
 

Meet our new PhD student Maria Irena Szawerna

Research data often contains both personal and sensitive information, which can be a problem if you want to share the data. Our newest PhD student Maria Irena Szawerna will help with this problem by focusing on pseudonymization, especially pseudonym generation.

Born and raised in Wrocław, Poland, she took her Master’s degree in linguistics in Heidelberg, Germany. As she started dating a Swede she planned a move to Sweden. At the same time, she started to look for something more practical to do with her linguistic knowledge.

– My friends from college became copywriters, translators and teachers. I started thinking about doing computational linguistics.

So Maria got accepted into the Master in Language Technology programme at the University of Gothenburg.

– I enjoy the academic stuff, it is a kind of a family tradition. Many of my family members were teachers or worked in academia so it is familiar to me.

Having graduated she started to look for work and was made aware of a PhD position at Språkbanken Text. It fitted what she had worked on before: corpus linguistics. She is working with Elena Volodina and her project Mormor Karl. One goal is to create algorithms for automatic pseudonimzation of research data. This has the benefit of increasing the accessability of data that contains sensitive information.

– Hopefully my work will give students an easier situation working with contemporary data than I had.

In her spare time Maria likes to play games, everything from computer to roleplaying games. She also enjoys going out to take pictures of Swedish wildlife.

– Now we play the new Swedish edition of Drakar & Demoner. It trains my Swedish, even though I mostly get better at the names of medieval arms!

The Eurasian oystercatcher (strandskata / Haematopus ostralegus, picture taken in Uddevalla)
The Eurasian oystercatcher (strandskata / Haematopus ostralegus, picture taken in Uddevalla by Maria Irena Szawerna)

Meet our new PhD student Emilie Francis

Two months ago Emilie Francis arrived in Sweden. She is one of the newest PhD students at Språkbanken Text, Gothenburg University. Originally from Victoria, Canada, she likes Gothenburg, which she thinks is very similar to her home town.

Two months ago Emilie Francis arrived in Sweden. She is one of the newest PhD students at Språkbanken Text, Gothenburg University. Originally from Victoria, Canada, she likes Gothenburg, which she thinks is very similar to her home town.

“Emi”, as she likes to be called, was looking for a job related to NLP and data.

I was not specifically looking for a PhD position this time, but I have been before. After another job opportunity fell through due to the COVID pandemic, I came across this position and applied.

What research are you going to do?

I am going to study language in the media and bias, misinformation and the impact on politics and society. Being younger, I hear people talk about social media and all the scandals the algorithms are promoting. But have the radicals become more vocal? And has the activation of people and their participation in social media made people become more divisive on a lot of topics? My theory is that social media has made the gap wider.

Right now Emilie Francis is looking into current research on bias and factuality in media, and how certain organizations judge different publications.

My current objective is to study the frameworks they use and see if it is applicable at a document level.

And on your computer screen right now?

– I am designing a statistics course for PhD students at Språkbanken Text.

She also has a dog called Nagi.

 He is an Akita Inu. He is 2 years old and has a lot of energy!

The dog Nagi.

Månadens profil: Harald Berthelsen

Hur tillgängliggör man inspelningar som bitvis är av dålig kvalitet och innehåller ord som inte längre används? Harald Berthelsen jobbar just nu med att tillgängliggöra Isofs inspelningar av dialekter – ett arbete som just nu är på experimentstadiet och i förlängningen kan ge nya möjligheter att skapa talteknologi för minoritetsspråk.

Läs intervjun med Harald Berthelsen på språkbanken.se

Under vinjetten Månadens profil på språkbanken.se presenteras personer vars arbete har anknytning till Nationella språkbanken.

Mormor Karl arrangerar öppet hus

Är du intresserad av pseudonymisering och integritetsskydd av forskningsdata? Välkommen på öppet hus 29 november som arrangeras av projektet "Mormor Karl är 27 år".

Är du intresserad av pseudonymisering och integritetsskydd av forskningsdata? Välkommen på öppet hus 29 november som arrangeras av projektet "Mormor Karl är 27 år".

Läs mer på Nationella Språkbankens hemsida.