Nyheter | Språkbanken Text

Ny korpus speglar det svenska ordförrådet under 1900-talet

30 november 2023

SAOB1950 är en korpus bestående av inscannade böcker från 1950 till 2007. Texterna används som källmaterial för att uppdatera SAOB, Svenska Akademiens ordbok, med ett urval som speglar det svenska ordförrådet framför allt under 1900-talets senare hälft.

Nu finns korpusen i Korp, både i det moderna läget, och i ett eget SAOB-läge där SAOB-redaktionen gjort ett eget korpusurval.

Korpusen finns även att ladda ner som omkastade meningsmängder från Språkbanken Texts sida med språkliga data.

Ordlista

korpus: en stor samling språkliga data

CALD-pseudo workshop på EACL 2024

24 november 2023

Välkommen att skicka in bidrag till CALD-pseudo workshop om datorbaserade metoder för pseudonymisering av språkdata. Workshopen är en del av konferensen för den europeiska avdelningen av Association for Computational Linguistics (EACL) som äger rum 21-22 mars 2024 på Malta.

Tillgången till forskningsdata är kritisk inom flera forskningsdomäner, men personligt innehåll hindrar ofta data från att vidareanvändas. Dataskyddsförordningen, GDPR (EU-kommissionen, 2016), föreslår pseudonymisering som en lösning för att säkra öppen tillgång till forskningsdata. Den största utmaningen är hur man effektivt pseudonymiserar data så att individer inte kan identifieras, samtidigt som man behåller data som är användbar för forskning inom bland annat datalingvistik, lingvistik och naturlig språkbehandling.

Under workshopen diskuteras flera utmaningar inom pseudonymisering.

Läs mer på workshopens webbsida >>

RaPID-5@LREC-COLING2024 - en heldagsworkshop i maj 2024 i Turin, Italien

21 november 2023

Den 5:e RaPID-workshopen (RaPID-5) är ett tvärvetenskapligt forum för forskare att dela information, rön, metoder, modeller och erfarenhet av insamling och bearbetning av data som produceras av individer med olika former av mentala, kognitiva, neuropsykiatriska eller neurodegenerativa funktionsnedsättningar, såsom afasi, demens, autism, Parkinsons sjukdom eller schizofreni. RaPID-5 kommer öppnas för bidrag inom kort.

RaPID-5@LREC-COLING2024: Resources and ProcessIng of linguistic, para-linguistic and extralinguistic Data from people with various forms of cognitive/psychiatric/developmental impairments

Heldagsworkshop: maj 2024 (information om exakt datum kommer)
Plats: Lingotto Conference Centre - Turin (Italien)
Läs mer här: https://spraakbanken.gu.se/en/rapid-2024

Den 5:e RaPID-workshopen (RaPID-5) är ett tvärvetenskapligt forum för forskare att dela information, rön, metoder, modeller och erfarenhet av insamling och bearbetning av data som produceras av individer med olika former av mentala, kognitiva, neuropsykiatriska eller neurodegenerativa funktionsnedsättningar, såsom afasi, demens, autism, Parkinsons sjukdom eller schizofreni. Data innebär spontant [kontinuerligt] tal och transkriptioner, ögonrörelsemätningar, och olika typer av digitala och multimodala biomarkörer som exempelvis sensordata från mobiltelefoner, klockor, armband och liknande.

Ett särskilt intresse med RaPID-5 är studier om samband mellan olika språkliga, paralingvistiska och extralingvistiska observationer för att identifiera, utvinna, korrelera, utvärdera och modellera olika språkliga och/eller multimodala fenotyper och mätningar, som kan användas för att underlätta diagnos, övervaka utvecklingen eller förutsäga individer i riskzonen för att utveckla neurodegenerativa eller neuropsykiatriska sjukdomar.

RaPID-5 välkomnar särskilt bidrag om multidisciplinära aspekter av databearbetning från den ovannämnda populationen, och med fokus på samspelet mellan klinisk/medicinsk vetenskap/informatik, språkteknologi, och datavetenskap.

Höstworkshop i repris: Strix

20 november 2023

Strix är en textforskningsplattform som gör det möjligt att analysera hela texter och dokument. På årets Höstworkshop berättade Yousuf Ali Mohammed på Språkbanken Text om fördelarna med Strix.

Läs nyheten på Nationella språkbankens hemsida >>

Möt vår nya forskningsingenjör Herbert Lange

15 november 2023

Från Tyskland till Sverige till Tyskland och så tillbaka igen. När längtan blev för stark kom ett tips om en anställning som systemadministratör på Språkbanken Text, Göteborgs universitet.

– Jag är inblandad i drift av datainfrastruktur på Språkbanken, och sköter om resurser som hjälper forskare att bedriva sitt arbete.

Herbert är ursprungligen från München men doktorerade i datavetenskap på Göteborgs universitet. Ämnet var databaserad språkinlärning för latin. För språk är något som hen tycker är spännande.

– Det är viktigt att kunna kommunicera, och det är fascinerande att det går att kommunicera även om det finns utmaningar såsom flertydighet.

Efter sin doktorsexamen tog pandemin henom åter till Tyskland där hen arbetade med forskningsinfrastruktur inom språkvetenskap, QUEST och Text+.

Just nu ser Herbert till att Språkbanken Texts federerade inloggning fungerar på fler av webbtjänsterna, så att det räcker med en inloggning för de olika systemen.

Vad ni kanske inte visste om Herbert är att hen pluggade även Medeltidshögtyska på universitetet.

– Ett ord som jag tycker om är "ieman", som beroende på kontext kan betyda både "någon" eller "ingen".

Meet our new PhD student Maria Irena Szawerna

13 november 2023

Research data often contains both personal and sensitive information, which can be a problem if you want to share the data. Our newest PhD student Maria Irena Szawerna will help with this problem by focusing on pseudonymization, especially pseudonym generation.

Born and raised in Wrocław, Poland, she took her Master’s degree in linguistics in Heidelberg, Germany. As she started dating a Swede she planned a move to Sweden. At the same time, she started to look for something more practical to do with her linguistic knowledge.

– My friends from college became copywriters, translators and teachers. I started thinking about doing computational linguistics.

So Maria got accepted into the Master in Language Technology programme at the University of Gothenburg.

– I enjoy the academic stuff, it is a kind of a family tradition. Many of my family members were teachers or worked in academia so it is familiar to me.

Having graduated she started to look for work and was made aware of a PhD position at Språkbanken Text. It fitted what she had worked on before: corpus linguistics. She is working with Elena Volodina and her project Mormor Karl. One goal is to create algorithms for automatic pseudonimzation of research data. This has the benefit of increasing the accessability of data that contains sensitive information.

– Hopefully my work will give students an easier situation working with contemporary data than I had.

In her spare time Maria likes to play games, everything from computer to roleplaying games. She also enjoys going out to take pictures of Swedish wildlife.

– Now we play the new Swedish edition of Drakar & Demoner. It trains my Swedish, even though I mostly get better at the names of medieval arms!

The Eurasian oystercatcher (strandskata / Haematopus ostralegus, picture taken in Uddevalla) — The Eurasian oystercatcher (strandskata / Haematopus ostralegus, picture taken in Uddevalla by Maria Irena Szawerna)