UD_Swedish-SweLL är en parallell Universal Dependencies-trädbank baserad på SweLL (Swedish Learner Language-korpusen), en samling uppsatser skrivna av vuxna inlärare av svenska som andraspråk. Den här versionen, som släpps i samband med UD 2.18, består av en 510 slumpmässigt utvalda meningar samt 134 meningar skrivna av fransktalande elever. Alla meningar kommer ifrån SweLL-gold och är parade med en korrigering och felkategoritaggade. För mer information om trädbanken, se den officiella README-filen.
Datacitering
Masciolini, Arianna, Berdicevskis, Aleksandrs, Szawerna, Maria Irena, & Grand-Clement, Caroline (2026). UD2.18_Swedish-SweLL (uppdaterad: 2026-06-15). [Data set]. Bearbetad och distribuerad av Språkbanken. https://doi.org/10.23695/6bxr-zx80
Ytterligare sätt att citera datamängden.
Annotation
Utöver de annoteringar som finns tillgängliga i källkorpusen (pseudonymisering, felklassificering och normalisering) är varje token lemmatiserad, UPOS-taggad och dependensannoterad enligt Universal Dependencies-standarden. Annotatörerna är själva andraspråkstalare.
Förbehåll
- Lemmana, ordklasserna och dependensrelationerna är systematiskt manuellt validerade, medan de morfologiska analyserna kontrollerades endast för token som är markerade som inlärarfel i källkorpusen och/eller vars automatiska lemmatisering, ordklasstaggning och/eller dependensannotering visade sig vara felaktiga.
- Den här resursen innehåller bara en del av de inlärarmetadata som finns tillgängliga för SweLL-gold. För att få tillgång till en version av trädbanken med all metadata, ansök om tillgång till SweLL-gold.
Avsedd användning
(Tvärspråkliga) andraspråksinlärningsstudier, evaluering av dependensparsrar.
Referenser
Elena Volodina, Arianna Masciolini, Beáta Megyesi, Julia Prentice, Lisa Rudebeck, Gunlög Sundberg, Mats Wirén (2025): SweLL with pride: How to put a learner corpus to good use, i Huminfra handbook: Empowering digital and experimental humanities / Gerlof Bouma, Dana Dannélls, Dimitrios Kokkinakis, Elena Volodina (eds.), sida 251-306
Guidelines for the annotation of interlanguage phenomena in UD_Swedish-SweLL
Arianna Masciolini, Aleksandrs Berdicevskis, Maria Irena Szawerna, Elena Volodina (2025): Annotating Second Language in Universal Dependencies: a Review of Current Practices and Directions for Harmonized Guidelines, i Proceedings of the Eighth Workshop on Universal Dependencies (UDW, SyntaxFest 2025), August 27, Ljubljana, Slovenia / Gosse Bouma, Çağrı Çöltekin (eds.), sida 153-163
Caroline Grand-Clement and Arianna Masciolini: Sharing is Caring: Advantages of Sharing a Language Background with Learners as an Annotator of Learner Data in UD (upcoming)
Tillgänglig via
| Åtkomst | Plattform | Licens |
|---|---|---|
| CC-BY-4.0 | ||
| CC-BY-4.0 | ||
|
|
CC-BY-SA-4.0 |
Ladda ned
| Fil | Storlek | Modifierad | Licens |
|---|---|---|---|
| 257.02 KB | 2026-06-15 | CC-BY-4.0 | |
| 262.28 KB | 2026-06-15 | CC-BY-4.0 | |
| 1.64 MB | 2026-05-20 | CC-BY-SA-4.0 | |
|
stats_ud218_swedish-swell.csv.zip
Token frequency list in CSV format
(CSV)
|
30.73 KB | 2026-06-15 | CC-BY-4.0 |
|
stats_ud218_swedish-swell-target.csv.zip
Token frequency list for corrected sentences in CSV format
(CSV)
|
30.23 KB | 2026-06-15 | CC-BY-4.0 |