Hoppa till huvudinnehåll

UD2.18_Swedish-SweLL

Datacitering Information

Masciolini, Arianna, Berdicevskis, Aleksandrs, Szawerna, Maria Irena, & Grand-Clement, Caroline (2026). UD2.18_Swedish-SweLL (uppdaterad: 2026-06-15). [Data set]. Bearbetad och distribuerad av Språkbanken. https://doi.org/10.23695/6bxr-zx80
BibTeX Ytterligare sätt att citera datamängden.
En parallell Universal Dependencies-trädbank baserad på SweLL (Swedish Learner Language-korpusen).

UD_Swedish-SweLL är en parallell Universal Dependencies-trädbank baserad på SweLL (Swedish Learner Language-korpusen), en samling uppsatser skrivna av vuxna inlärare av svenska som andraspråk. Den här versionen, som släpps i samband med UD 2.18, består av en 510 slumpmässigt utvalda meningar samt 134 meningar skrivna av fransktalande elever. Alla meningar kommer ifrån SweLL-gold och är parade med en korrigering och felkategoritaggade. För mer information om trädbanken, se den officiella README-filen.

Annotation

Utöver de annoteringar som finns tillgängliga i källkorpusen (pseudonymisering, felklassificering och normalisering) är varje token lemmatiserad, UPOS-taggad och dependensannoterad enligt Universal Dependencies-standarden. Annotatörerna är själva andraspråkstalare.

Förbehåll

  • Lemmana, ordklasserna och dependensrelationerna är systematiskt manuellt validerade, medan de morfologiska analyserna kontrollerades endast för token som är markerade som inlärarfel i källkorpusen och/eller vars automatiska lemmatisering, ordklasstaggning och/eller dependensannotering visade sig vara felaktiga.
  • Den här resursen innehåller bara en del av de inlärarmetadata som finns tillgängliga för SweLL-gold. För att få tillgång till en version av trädbanken med all metadata, ansök om tillgång till SweLL-gold.

Avsedd användning

(Tvärspråkliga) andraspråksinlärningsstudier, evaluering av dependensparsrar.

Referenser

Tillgänglig via

Åtkomst Plattform Licens
CC-BY-4.0
CC-BY-4.0
CC-BY-SA-4.0

Ladda ned

Fil Storlek Modifierad Licens
ud218_swedish-swell.xml.bz2
The annotated learner sentences in XML format Information (XML, omkastad)
257.02 KB 2026-06-15 CC-BY-4.0
ud218_swedish-swell-target.xml.bz2
The annotated corrected learner sentences in XML format Information (XML, omkastad)
262.28 KB 2026-06-15 CC-BY-4.0
ud218_swedish-swell.zip
The annotated learner sentences in CoNLL-U format (original and corrected) Information (CoNLL-U, omkastad)
1.64 MB 2026-05-20 CC-BY-SA-4.0
stats_ud218_swedish-swell.csv.zip
Token frequency list in CSV format (CSV)
30.73 KB 2026-06-15 CC-BY-4.0
stats_ud218_swedish-swell-target.csv.zip
Token frequency list for corrected sentences in CSV format (CSV)
30.23 KB 2026-06-15 CC-BY-4.0

Del av samling

Typ

  • Korpus

Språk

svenska

Storlek

Token: 10 895
Meningar: 643

Nyckelord

  • treebank
  • L2 Swedish
  • second language (L2)
  • language learning
  • essays

Skapad av

  • Masciolini, Arianna
  • Berdicevskis, Aleksandrs
  • Szawerna, Maria Irena
  • Grand-Clement, Caroline

Skapad

2026-06-15

Uppdaterad

2026-06-15

Kontakt

sb-info@svenska.gu.se