Hoppa till huvudinnehåll

Mormor Karl är 27 år

Automatisk pseudonymisering av forskningsdata

Bakgrund

Tillgång till textuell forskningsdata är kritisk för framsteg inom flera forskningsdomäner men personligt innehåll hindrar ofta vidareanvändning. Det finns risker både i att personer kan identifieras via t.ex. namn eller yrke, och att annan känslig information om dem kan läka ut t.ex. politiska åsikter. GDPR rekommenderar pseudonymisering för att maskera all personlig och känslig information. I nuläget saknar vi dock djupare kunskap om pseudonymisering och dess påverkan på forskningsdata, och behöver studera dessa utifrån flera vinklar. Vår forskningsmiljö samlar kompetens från tre större områden för att studera pseudonymisering systematiskt, nämligen språkteknologi datavetenskap & dataintegritet lingvistik & språkinlärning. Avsikten är att genom forskningsmiljösatsningen stödja Sveriges arbete med öppen tillgång till forskningsdata. 

Projektbeskrivning

Vi satsar på följande inriktningar: 

1. utveckling av automatiska metoder för att upptäcka, markera och ersätta personliga identifikatorer med passande alternativ i fritt skrivna texter (t.ex. uppsatser) med ett huvudfokus på lingvistiska utmaningar, såsom ortografiska fel, flertydiga ord, semantisk korrelation med kontexten, osv 

2. analys av typer och antal av identifikatorer kontra acceptabel nivå på personskydd, med efterföljande experiment för att identifiera personen bakom pseudonymiserad text. Det sista för att få bevis att pseudonymisering framgångsrikt kan skydda personer bakom texter 

3. analys av pseudonymiseringens påverkan på forskningsdata, inklusive läsbarhet, datans forskningsvärde för teoretiska studier (t.ex. kring språkinlärning) och för praktiska tillämpningar (t.ex. språkbedömning) 

Vision och planering

2023 -- anställning av doktorander

2024 --

2025 --

2026 --

2027 --

2028 --

 

Institut/organisationer

  • Göteborgs universitet, Institution för svenska, flerspråkighet, språkteknologi
  • Göteborgs universitet, Institution för filosofi, lingvistik, och vetenskapsteori
  • Umeå universitet, Institutionen för datavetenskap 
  • Helsinki universitet, Nordiska språk

 

Projektlängd

Projektmedlemmar

  • Elena Volodina (Projektledare)
    elena.volodina@svenska.gu.se
  • Simon Dobnik (PI)
    simon.dobnik@gu.se
    Institutionen för filosofi, lingvistik och vetenskapsteori
  • Xuan-Son Vu (PI)
    xuan-son.vu@umu.se
    Institutionen för datavetenskap, Umeå universitet
  • Therese Lindström Tiedemann (PI)
    therese.lindstromtiedemann@helsinki.fi
    Department of Finnish, Finnougrian and Scandinavian studies, Helsingfors universitet

Finansiering

  • Vetenskapsrådet (2022-02311)

Forskningsområden

  • språkteknologi
  • allmän lingvistik
  • svenska som andraspråk
  • pseudonymisering
  • dataintegritet
  • forskningsdata

Projekttyp

  • Forskningsprojekt
  • Externt finansierat