Det här är en liten korpus som består av 10 par texter på svenska och engelska, annoterade med kategorier av personliga uppgifter. Annoteringen liknar den av TAB-korpusen (https://aclanthology.org/2022.cl-4.19/). De tjugo texterna har sitt ursprung i Parallel Global Voices-korpusen (https://nlp.ilsp.gr/pgv/, CC BY 4.0) och var annoterade för hand. Denna korpus innehåller data från Global Voices-webbsidorna (https://globalvoices.org/, CC BY 3.0).
Standardreferens
Maria Irena Szawerna, Jacob Lee Suchardt
(2026):
Fill-in-the-Blanks: Automatic Generation and Evaluation of Language Models' Pseudonyms for English and Swedish Texts,
i Proceedings of the Fifteenth Language Resources and Evaluation Conference (LREC 2026),
sida 1155-1169
Datacitering
Szawerna, Maria Irena, & Suchardt, Jacob Lee. PGV-PII [Data set]. Bearbetad och distribuerad av Språkbanken. https://doi.org/10.23695/qcqg-3613
Ytterligare sätt att citera datamängden.
En liten samling av 10 par parallella texter på svenska och engelska, annoterade med kategorier på personliga uppgifter.
Annotation
Texterna är annoterade med kategorier på personliga uppgifter enligt TAB-anvisningarna (https://aclanthology.org/2022.cl-4.19/)
Avsedd användning
Den här korpusen kan användas för att testa personuppgiftsigenkänning eller generering av pseudonymer.
Ladda ned
| Fil | Storlek | Modifierad | Licens |
|---|---|---|---|
| 49.75 KB | 2026-02-27 | CC-BY-4.0 |