UD_Swedish-SweLL är en parallell Universal Dependencies-trädbank baserad på SweLL (Swedish Learner Language-korpusen). Den första versionen, som släpps i samband med UD 2.17, består av 510 meningar parade med sina korrigerade versioner. Meningarna är slumpmässigt utvalda från SweLL-gold, en samling uppsatser skrivna av vuxna inlärare av svenska som andraspråk. För mer information om trädbanken, se den officiella README-filen.
Datacitering
Masciolini, Arianna, Berdicevskis, Aleksandrs, & Szawerna, Maria Irena (2025). UD2.17_Swedish-SweLL (uppdaterad: 2025-11-19). [Data set]. Språkbanken Text. https://doi.org/10.23695/fpnc-1v66
Ytterligare sätt att citera datamängden.
En parallell Universal Dependencies-trädbank baserad på SweLL (Swedish Learner Language-korpusen).
Annotation
Utöver de annoteringar som finns tillgängliga i källkorpusen (pseudonymisering, felklassificering och normalisering) är varje token lemmatiserad, UPOS-taggad och dependensannoterad enligt Universal Dependencies-standarden. Annotatörerna är själva andraspråkstalare.
Förbehåll
- Lemmana, ordklasserna och dependensrelationerna är systematiskt manuellt validerade, medan de morfologiska analyserna kontrollerades endast för token som är markerade som inlärarfel i källkorpusen och/eller vars automatiska lemmatisering, ordklasstaggning och/eller dependensannotering visade sig vara felaktiga.
- Den här resursen innehåller bara en del av de inlärarmetadata som finns tillgängliga för SweLL-gold. För att få tillgång till en version av trädbanken med all metadata, ansök om tillgång till SweLL-gold.
Avsedd användning
(Tvärspråkliga) andraspråksinlärningsstudier, evaluering av dependensparsrar.
Referenser
<a href='/om/personal/elena'>Elena Volodina</a>, <a href='/om/personal/arianna'>Arianna Masciolini</a>, Beáta Megyesi, Julia Prentice, Lisa Rudebeck, Gunlög Sundberg, Mats Wirén (2025): <a href="https://gup.ub.gu.se/publication/355697?lang=sv">SweLL with pride: How to put a learner corpus to good use</a>, in <em>Huminfra handbook: Empowering digital and experimental humanities / Gerlof Bouma, Dana Dannélls, Dimitrios Kokkinakis, Elena Volodina (eds.)</em>, pages <em>251-306</em> <a href="https://spraakbanken.gu.se/forskning/publikationer/bibtex/355697"> <img src="https://spraakbanken.gu.se/modules/custom/sb_publications/assets/bibtex.png" alt="BibTeX" class="inline"/> </a>Guidelines for the annotation of interlanguage phenomena in UD_Swedish-SweLL
<a href='/om/personal/arianna'>Arianna Masciolini</a>, <a href='/om/personal/sasha'>Aleksandrs Berdicevskis</a>, <a href='/om/personal/maria-szawerna'>Maria Irena Szawerna</a>, <a href='/om/personal/elena'>Elena Volodina</a> (2025): <a href="https://gup.ub.gu.se/publication/352761?lang=sv">Annotating Second Language in Universal Dependencies: a Review of Current Practices and Directions for Harmonized Guidelines</a>, in <em>Proceedings of the Eighth Workshop on Universal Dependencies (UDW, SyntaxFest 2025), August 27, Ljubljana, Slovenia / Gosse Bouma, Çağrı Çöltekin (eds.)</em>, pages <em>153-163</em> <a href="https://spraakbanken.gu.se/forskning/publikationer/bibtex/352761"> <img src="https://spraakbanken.gu.se/modules/custom/sb_publications/assets/bibtex.png" alt="BibTeX" class="inline"/> </a>
Tillgänglig via
| Åtkomst | Plattform | Licens |
|---|---|---|
| CC-BY-4.0 | ||
| CC-BY-4.0 | ||
|
|
CC-BY-SA-4.0 |
Ladda ned
| Fil | Storlek | Modifierad | Licens |
|---|---|---|---|
| 207.45 KB | 2026-01-19 | CC-BY-4.0 | |
| 212.09 KB | 2026-01-19 | CC-BY-4.0 | |
| 218.8 KB | 2025-11-19 | CC-BY-SA-4.0 | |
|
stats_ud217_swedish-swell.csv.zip
Token frequency list in CSV format
(CSV)
|
27.59 KB | 2026-01-19 | CC-BY-4.0 |
|
stats_ud217_swedish-swell-target.csv.zip
Token frequency list for corrected sentences in CSV format
(CSV)
|
27.04 KB | 2026-01-19 | CC-BY-4.0 |