Hoppa till huvudinnehåll

PGV-PII

Standardreferens Information

Maria Irena Szawerna, Jacob Lee Suchardt (2026): Fill-in-the-Blanks: Automatic Generation and Evaluation of Language Models' Pseudonyms for English and Swedish Texts, i Proceedings of the Fifteenth Language Resources and Evaluation Conference (LREC 2026), sida 1155-1169 BibTeX

Datacitering Information

Szawerna, Maria Irena, & Suchardt, Jacob Lee. PGV-PII [Data set]. Bearbetad och distribuerad av Språkbanken. https://doi.org/10.23695/qcqg-3613
BibTeX Ytterligare sätt att citera datamängden.
En liten samling av 10 par parallella texter på svenska och engelska, annoterade med kategorier på personliga uppgifter.

Det här är en liten korpus som består av 10 par texter på svenska och engelska, annoterade med kategorier av personliga uppgifter. Annoteringen liknar den av TAB-korpusen (https://aclanthology.org/2022.cl-4.19/). De tjugo texterna har sitt ursprung i Parallel Global Voices-korpusen (https://nlp.ilsp.gr/pgv/, CC BY 4.0) och var annoterade för hand. Denna korpus innehåller data från Global Voices-webbsidorna (https://globalvoices.org/, CC BY 3.0).

Annotation

Texterna är annoterade med kategorier på personliga uppgifter enligt TAB-anvisningarna (https://aclanthology.org/2022.cl-4.19/)

Avsedd användning

Den här korpusen kan användas för att testa personuppgiftsigenkänning eller generering av pseudonymer.

Ladda ned

Fil Storlek Modifierad Licens
gv-pii.bz2
corpus Information (jsonl)
49.75 KB 2026-02-27 CC-BY-4.0

Typ

  • Korpus
  • Tränings- och utvärderingsdata

Språk

svenska
engelska

Storlek

Token: 22 589
Meningar: 1 117

Nyckelord

  • pseudonymization
  • anonymization
  • parallel
  • news

Skapad av

  • Szawerna, Maria Irena
  • Suchardt, Jacob Lee

Skapad

2025-10-07

Kontakt

sb-info@svenska.gu.se