Hoppa till huvudinnehåll

PGV-PII

Datacitering Information

Szawerna, Maria Irena, & Suchardt, Jacob Lee. PGV-PII [Data set]. Språkbanken Text. https://doi.org/10.23695/qcqg-3613
BibTeX Ytterligare sätt att citera datamängden.
En liten samling av 10 par parallella texter på svenska och engelska, annoterade med kategorier på personliga uppgifter.

Det här är en liten korpus som består av 10 par texter på svenska och engelska, annoterade med kategorier av personliga uppgifter. Annoteringen liknar den av TAB-korpusen (https://aclanthology.org/2022.cl-4.19/). De tjugo texterna har sitt ursprung i Parallel Global Voices-korpusen (https://nlp.ilsp.gr/pgv/, CC BY 4.0) och var annoterade för hand. Denna korpus innehåller data från Global Voices-webbsidorna (https://globalvoices.org/, CC BY 3.0).

Annotation

Texterna är annoterade med kategorier på personliga uppgifter enligt TAB-anvisningarna (https://aclanthology.org/2022.cl-4.19/)

Avsedd användning

Den här korpusen kan användas för att testa personuppgiftsigenkänning eller generering av pseudonymer.

Tillgänglig via

Åtkomst Plattform Licens

Ladda ned

Fil Storlek Modifierad Licens
gv-pii.bz2
corpus Information (jsonl)
49.75 KB 2026-02-27 CC-BY-4.0

Typ

  • Korpus
  • Tränings- och utvärderingsdata

Språk

svenska
engelska

Storlek

Token: 22 589
Meningar: 1 117

Nyckelord

  • pseudonymization
  • anonymization
  • parallel
  • news

Skapad av

  • Szawerna, Maria Irena
  • Suchardt, Jacob Lee

Skapad

2025-10-07

Kontakt

sb-info@svenska.gu.se