Mormor Karl är 27 år: Automatisk pseudonymisering av forskningsdata

Officiell projektsida: https://mormor-karl.github.io/

Bakgrund

Tillgång till textuell forskningsdata är kritisk för framsteg inom flera forskningsdomäner men personligt innehåll hindrar ofta vidareanvändning. Det finns risker både i att personer kan identifieras via t.ex. namn eller yrke, och att annan känslig information om dem kan läka ut t.ex. politiska åsikter. GDPR rekommenderar pseudonymisering för att maskera all personlig och känslig information. I nuläget saknar vi dock djupare kunskap om pseudonymisering och dess påverkan på forskningsdata, och behöver studera dessa utifrån flera vinklar. Vår forskningsmiljö samlar kompetens från tre större områden för att studera pseudonymisering systematiskt, nämligen språkteknologi, datavetenskap & dataintegritet, lingvistik & språkinlärning. Avsikten är att genom forskningsmiljösatsningen stödja Sveriges arbete med öppen tillgång till forskningsdata.

Projektbeskrivning

Vi satsar på följande inriktningar:

1. utveckling av automatiska metoder för att upptäcka, markera och ersätta personliga identifikatorer med passande alternativ i fritt skrivna texter (t.ex. uppsatser) med ett huvudfokus på lingvistiska utmaningar, såsom ortografiska fel, flertydiga ord, semantisk korrelation med kontexten, osv

2. analys av typer och antal av identifikatorer kontra acceptabel nivå på personskydd, med efterföljande experiment för att identifiera personen bakom pseudonymiserad text. Det sista för att få bevis att pseudonymisering framgångsrikt kan skydda personer bakom texter

3. analys av pseudonymiseringens påverkan på forskningsdata, inklusive läsbarhet, datans forskningsvärde för teoretiska studier (t.ex. kring språkinlärning) och för praktiska tillämpningar (t.ex. språkbedömning)

Vi kommer att använda SweLL data (pilot och gold) med elevuppsatser (ca 1000 uppsatser), som har samlats och manuellt annoterats i ett tidigare projekt, och generalisera till andra domäner, såsom datan från sociala nätverk tillgänglig via Språkbanken Text. Sråkteknologi, maskininlärning, neurala nätverk, word embeddings är några av de metoder som vi kommer att använda.

Alla verktyg och datamängder kommer att tillängliggöras; teoretiska och metodologiska insikter kommer att diskuteras utförligt i artiklar.

Vision och planering

2023 -- anställning av doktorander, juridiska avtal, partneravtal, tillgång till datan, om-annotering av SweLL-pilot till SweLL-gold standard.

2024 -- anställning av doktorander, workshop på EACL 2024, CEFR-annotering av SweLL-gold uppsatser, utveckling av modeller att upptäcka personliga uppgifter.

2025 -- vidare utveckling av modeller, forskning på LLMs roll i pseudonymisering och generation av pseudonymer, experiment med återidentifiering, insamling av fiktiva texter.

2026 -- arbetet med de insamlade texterna, ytterligare forskning på LLMer, experiment med hur personliga uppgifter uppfattas av modeller.

2027 --

2028 --

Institut/organisationer

Göteborgs universitet, Institution för svenska, flerspråkighet, språkteknologi
Göteborgs universitet, Institution för filosofi, lingvistik, och vetenskapsteori
Lunds universitet, Institutionen för datavetenskap
Helsingfors universitet, Nordiska språk

Publikationer

Ingo Siegert, Maria Irena Szawerna, Khalid Choukri, Simon Dobnik, Paweł Kamocki, Therese Lindström Tiedemann, Pierre Lison, Ricardo Muñoz Sánchez, Ildikó Pilán, Lisa Södergård, Kossay Talmoudi, Elena Volodina, Xuan-Son Vu. 2026. Proceedings of the Joint Workshop on Legal and Ethical Issues in Human Language Technologies and Computational Approaches to Language Data Pseudonymization, Anonymization, De-identification, and Data Privacy (LEGAL2026 and CALD-pseudo 2026) @ LREC 2026. [pdf]
Maria Irena Szawerna, Simon Dobnik. 2026. Birds of a Feather: Do Embedding Representations of Personal Information Flock Together?, i Proceedings of the Joint Workshop on Legal and Ethical Issues in Human Language Technologies and Computational Approaches to Language Data Pseudonymization, Anonymization, De-identification, and Data Privacy (LEGAL2026 and CALD-pseudo 2026) @ LREC 2026
Maria Irena Szawerna, Jacob Lee Suchardt. 2026. Fill-in-the-Blanks: Automatic Generation and Evaluation of Language Models' Pseudonyms for English and Swedish Texts, i Proceedings of the Fifteenth Language Resources and Evaluation Conference (LREC 2026). [pdf]
Maria Irena Szawerna, David Alfter, Elena Volodina. 2025. Annotating Personal Information in Swedish Texts with SPARV, i Proceedings of the First Workshop on Natural Language Processing and Language Models for Digital Humanities,11 September, 2025 Varna, Bulgaria / Isuri Nanomi Arachchige, Francesca Frontini, Ruslan Mitkov and Paul Rayson (eds.). [pdf]
Therese Lindström Tiedemann, Lisa Södergård, Elena Volodina, Simon Dobnik, Maria Irena Szawerna, Ricardo Muñoz Sánchez, Xuan-Son Vu. 2025. Om mormor Karl sägs vara 27 år gammal, vad säger det om skribenten? En presentation om att identifiera och ersätta identifierande element i språkvetenskapliga forskningsdata, in Abstractsamling. Svenskans beskrivning 40 (Svebe40), Workshop om Pseudonymisering inom språkvetenskap, 26–28 maj 2025, Stockholm.
Elena Volodina, Simon Dobnik, Therese Lindström Tiedemann, Ricardo Muñoz Sánchez, Maria Irena Szawerna, Lisa Södergård, Xuan-Son Vu. 2025. Towards shared standards for pseudonymization of research data, in Proceedings of the Huminfra Conference (HiC 2025), Stockholm. [pdf]
Nikolai Ilinykh, Maria Irena Szawerna. 2025. “I Need More Context and an English Translation”: Analysing How LLMs Identify Personal Information in Komi, Polish, and English. In Proceedings of the Third Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2025). [pdf]
Maria Irena Szawerna, Simon Dobnik, Ricardo Muñoz Sánchez, and Elena Volodina. 2025. The Devil’s in the Details: the Detailedness of Classes Influences Personal Information Detection and Labeling. In Proceedings of the The Joint 25th Nordic Conference on Computational Linguistics and 11th Baltic Conference on Human Language Technologies (NoDaLiDa/Baltic-HLT 2025). [pdf]
Maria Irena Szawerna, Simon Dobnik, Ricardo Muñoz Sánchez, Elena Volodina. 2024. Swedish Learner Essays Revisited: Further Insights into Detecting Personal Information. An abstract at the Tenth Swedish Language Technology Conference (SLTC), Linköping, Sweden. [pdf]
Ricardo Muñoz Sánchez, Simon Dobnik, Therese Lindström Tiedemann, Maria Irena Szawerna and Elena Volodina. 2024. Name Biases in Automated Essay Assessment. An abstract at the 28th International Congress of Onomastic Sciences - University of Helsinki, Helsinki, Finland. [link]
Ricardo Muñoz Sánchez, Simon Dobnik, Maria Irena Szawerna, Therese Lindström Tiedemann and Elena Volodina. 2024. Did the Names I Used within My Essay Affect My Score? Diagnosing Name Biases in Automated Essay Scoring. In Proceedings of the the EACL workshop Computational Approaches to Language Data Pseudonymization (CALD-pseudo-2024). EACL, Malta, 2024. Association for Language Technology. [pdf]
Maria Irena Szawerna, Simon Dobnik, Ricardo Muñoz Sánchez, Therese Lindström Tiedemann and Elena Volodina. 2024. Detecting Personal Identifiable Information in Swedish Learner Essays. In Proceedings of the the EACL workshop Computational Approaches to Language Data Pseudonymization (CALD-pseudo-2024). EACL, Malta, 2024. Association for Language Technology. [pdf]
Elena Volodina , Simon Dobnik, Therese Lindström Tiedemann, Xuan-Son Vu, David Alfter, Maria Irena Szawerna, Ricardo Muñoz Sánchez. 2024. Proceedings of the EACL workshop on Computational Approaches to Language Data Pseudonymization (CALD-pseudo), Editors. EACL, Malta, 2024. Association for Language Technology. [pdf]
Maria Irena Szawerna, Simon Dobnik, Therese Lindström Tiedemann, Ricardo Muñoz Sánchez, Xuan-Son Vu and Elena Volodina. 2024. Pseudonymization Categories across Domain Boundaries. In Proceedings of LREC-Coling 2024. [pdf]
Elena Volodina, Simon Dobnik, Therese Lindström Tiedemann and Xuan-Son Vu. 2023. Grandma Karl is 27 Years old – Research Agenda for Pseudonymization of Research Data. Proceedings of the 2023 IEEE Ninth International Conference on Big Data Computing Service and Applications (BigDataService), Workshop on Big Data and Machine Learning with Privacy Enhancing Tech. Athens, Greece. [pdf]

Mormor Karl

Paraplyprojekt

Mormor Karl är 27 år: Automatisk pseudonymisering av forskningsdata

Bakgrund

Projektbeskrivning

Vision och planering

Institut/organisationer

Publikationer

Projektlängd

Projektmedlemmar

Finansiering

Forskningsområden

Projekttyp

VR pressmeddelande

GU nyhet - november 2022

UmU nyhet - december 2022

PhD annons, maj 2023