Learner Language

Datacitering

Språkbanken (2025). Learner Language (uppdaterad: 2025-01-19). [Data set]. Bearbetad och distribuerad av Språkbanken. https://doi.org/10.23695/svn8-rt31

Ytterligare sätt att citera datamängden.

Learner Language är en samling av korpusar och lexikala resurser som beskriver inlärarspråket. Korpusar inkluderar både texter/audio som produceras av de som lär sig språket, och texter/språket som de utsätts för (läser eller hör, t.ex. kursböcker). Även en del derivata resurser utifrån dessa korpusar är med i denna samling.

Included resources

COCTAILL - is a corpus of course booksused for teaching Swedish as a second language at CEFR levels A1, A2, B1, B2, and C1.
SweLL-gold is a second language learner corpus, featuring pseudonymization, normalization and correction-annotation.
SweLL-pilot is a second language learner corpus, featuring CEFR labeling.
DaLAJ resources are a collection of sentence pairs (original - corrected) containing one error each.
MultiGED -- Multilingual Grammatical Error Detection - is a dataset for grammamatical error detection, featuring five languages (Czech, German, English, Italian, Swedish). The data is organized by sentences, where each token has an annotation whether it is correct or incorrect (c or i). The corrected version is not provided. MultiGED has been used for a shared task (https://spraakbanken.github.io/multiged-2023/)
MuClaGED -- Multi-Class Grammatical Error Detection - is a dataset for Swedish only, organized by sentences, each incorrect token associated with the type of correction (Orthography, Syntax, Morphology, etc.) and the type of edit (Addition, Deletion, Replacement)
MultiGEC -- Multilingual Grammatical Error Correction is a dataset for grammamatical error detection, featuring twelve languages (Czech, English, Estonian, German, Greek, Icelandic, Italian, Latvian, Russian, Slovene, Swedish and Ukrainian). The data is organized by essay pairs (original - corrected). MultiGEC has been used for a shared task (https://spraakbanken.github.io/multigec-2025/)
SVALex is a wordlist generated from the COCTAILL corpus.
SweLLex is a wordlist generated from the SweLL-pilot essays.
Sen*Lex is a sense-based wordlist, combining SVALex and SweLLex in one.
CoDeRooMor is a morphologically annotated list based on Sen*Lex, featuring annotations for word-building morphemes (roots, prefixes, suffixes etc) and word-building mechanisms (affixation, compounding, etc.).
Swe-MWELex is a list of multi-word expressions based on Sen*Lex, with CEFR labels and subcategorizations of MWEs into several types
L2Lex-Adj is a list of adjectives based on Sen*Lex, with CEFR labels, information on adjectival declensions and frequences.
L2Lex-AdjAdv is a list of adjectives and adverbs based on Sen*Lex, with CEFR labels, information on patterns of comparative degrees and frequences.
Kelly - is a wordlist covering ca 8.000 most frequent words in the web texts, and assigned to the six CEFR levels based on the frequency information.

Avsedd användning

Research, development and pedagogical applications within (second) language acquisition and intelligent computer-assisted language learning

Referenser

Elena Volodina, Ildikó Pilán, Stian Rødven-Eide, Hannes Heidarsson (2014): You get what you annotate: a pedagogically annotated corpus of coursebooks for Swedish as a Second Language, i NEALT Proceedings Series, volym 22, sida 128-144
Elena Volodina (2024): On two SweLL learner corpora – SweLL-pilot and SweLL-gold, i Proceedings of the Huminfra Conference (HiC 2024), 10-11 January, 2024, Gothenburg, Sweden / edited by Elena Volodina, Gerlof Bouma, Markus Forsberg, Dimitrios Kokkinakis, David Alfter, Mats Fridlund, Christian Horn, Lars Ahrenberg, Anna Blåder, sida 83-94
Elena Volodina, Ildikó Pilán, Ingegerd Enström, Lorena Llozhi, Peter Lundkvist, Gunlög Sundberg, Monica Sandell (2016): SweLL on the rise: Swedish Learner Language corpus for European Reference Level studies, i Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), May 23-28, 2016, Portorož, Slovenia
Elena Volodina, Lena Granstedt, Arild Matsson, Beáta Megyesi, Ildikó Pilán, Julia Prentice, Dan Rosén, Lisa Rudebeck, Carl-Johan Schenström, Gunlög Sundberg, Mats Wirén (2019): The SweLL Language Learner Corpus: From Design to Annotation, i Northern European Journal of Language Technology, volym 6, sida 67-104
Elena Volodina, Yousuf Ali Mohammed, Aleksandrs Berdicevskis, Gerlof Bouma, Joey Öhman (2023): DaLAJ-GED – a dataset for Grammatical Error Detection tasks on Swedish, i Proceedings of the 12th Workshop on Natural Language Processing for Computer Assisted Language Learning (NLP4CALL 2023) / edited by David Alfter, Elena Volodina, Thomas François, Arne Jönsson and Evelina Rennes, sida 94-101
Elena Volodina, Christopher Bryant, Andrew Caines, Orphée De Clercq, Jennifer-Carmen Frey, Elizaveta Ershova, Alexandr Rosen, Olga Vinogradova (2023): MultiGED-2023 shared task at NLP4CALL: Multilingual Grammatical Error Detection, i Proceedings of the 12th Workshop on Natural Language Processing for Computer Assisted Language Learning (NLP4CALL 2023)
Judit Casademont Moner, Elena Volodina (2022): Swedish MuClaGED: A new dataset for Grammatical Error Detection in Swedish, i Proceedings of the 11th Workshop on Natural Language Processing for Computer-Assisted Language Learning (NLP4CALL 2022)
Elena Volodina, Ildikó Pilán, Lorena Llozhi, Baptiste Degryse, Thomas François (2016): SweLLex: second language learners' productive vocabulary, i Linköping Electronic Conference Proceedings. Proceedings of the joint workshop on NLP for Computer Assisted Language Learning and NLP for Language Acquisition at SLTC, Umeå, 16th November 2016
Thomas François, Elena Volodina, Ildikó Pilán, Anaïs Tack (2016): SVALex: a CEFR-graded lexical resource for Swedish foreign and second language learners, i Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016), May 23-28, 2016 Portorož, Slovenia
Elena Volodina, Sofie Johansson Kokkinakis (2012): Introducing Swedish Kelly-list, a new free e-resource for Swedish, i LREC 2012 Proceedings, volym 2012
Elena Volodina, Yousuf Ali Mohammed, Therese Lindström Tiedemann (2021): CoDeRooMor: A new dataset for non-inflectional morphology studies of Swedish, i 23rd Nordic Conference on Computational Linguistics (NoDaLiDa) Proceedings, May 31–2 June, 2021, Reykjavik, Iceland Online / Simon Dobnik, Lilja Øvrelid (Editors)
Judit Casademont Moner, Elena Volodina (2022): Swedish MuClaGED: A new dataset for Grammatical Error Detection in Swedish, i Proceedings of the 11th Workshop on Natural Language Processing for Computer-Assisted Language Learning (NLP4CALL 2022)

Datamängder i samlingen

Antal träffar: 23

Resurs	Typ	Språk	Åtkomst
COCTAILL Korpus av kursböcker för undervisning av L2-svenska. Annoterade manuellt för textstruktur och pedagogiska/didaktiska kategorier; automatiskt uppmärkt med språkvetenskapliga annoteringar. Se mer här https://spraakbanken.gu.se/forskning/teman/icall/icall-l2-projects/l2-data	Korpus	svenska	Datamängd: coctaill.xml.bz2 2017-10-30 – 16.57 MB – CC-BY-4.0 Ordstatistik: stats_COCTAILL.txt.zip 2025-04-22 – 621.39 KB – CC-BY-4.0 Utforska i:
COCTAILL activities & examples Korpus av kursböcker för undervisning av L2-svenska. Annoterade manuellt för textstruktur och pedagogiska/didaktiska kategorier; automatiskt uppmärkt med språkvetenskapliga annoteringar.	Korpus	svenska	Ordstatistik: stats_COCTAILL-AE.txt.zip 2025-04-22 – 352 KB – CC-BY-4.0 Utforska i:
COCTAILL lesson text Korpus av kursböcker för undervisning av L2-svenska. Annoterade manuellt för textstruktur och pedagogiska/didaktiska kategorier; automatiskt uppmärkt med språkvetenskapliga annoteringar.	Korpus	svenska	Ordstatistik: stats_COCTAILL-LT.txt.zip 2025-04-22 – 379.61 KB – CC-BY-4.0 Utforska i:
CoDeRooMor, v.01 Dataset för morfologistudier (ordbildningsmorfologi), Svenska L2 profil-projektet	Lexikon	svenska	Datamängd: CodeRoomor_v01_lemgramView.csv 2021-04-13 – 1.96 MB – CC-BY-4.0 Datamängd: CodeRoomor_v01_morphemeView.csv 2021-04-13 – 856.29 KB – CC-BY-4.0 Datamängd: CodeRoomor_v01_lemgramView.xlsx 2021-04-13 – 1.72 MB – CC-BY-4.0 Datamängd: CodeRoomor_v01_morphemeView.xlsx 2021-04-13 – 699.46 KB – CC-BY-4.0 Utforska i:
DaLAJ v.1.0 Dataset for Linguistic Acceptability Judgments (and more), v.1.0., is a collection of sentences from SweLL (Swedish Learner Language) essays. Each DaLAJ sentence contains one error only	Korpus	svenska	Datamängd: datasetDaLAJsplit.csv 2021-06-21 – 1.46 MB – CC-BY-4.0 Datamängd: dalaj_documentation.tsv 2021-06-21 – 7.48 KB – CC-BY-4.0
DaLAJ-GED-Superlim 2.0 Dataset for Linguistic Acceptability Judgments (and more), v.2.0	Korpus	svenska	Datamängd: dalaj-ged-superlim.zip 2023-04-03 – 1.41 MB – CC-BY-4.0 Datamängd: dalaj-ged-tsv.zip 2023-05-20 – 1.15 MB – CC-BY-4.0 Datamängd: liuep197-11.pdf 2024-01-25 – 463.74 KB – CC-BY-4.0
Kelly Nyckelord för språkinlärning för unga och vuxna	Lexikon	svenska	Datamängd: kelly.xml 2017-09-15 – 5.56 MB – CC-BY-4.0 Datamängd: Swedish-Kelly_M3_CEFR.xls 2012-02-15 – 1.28 MB – CC-BY-4.0 Utforska i:
L2Lex-Adj L2Lex-Adj är en disambiguerad ordlista med svenska adjektiv för elever med svenska som andraspråk, inkl. frekvenserna från uppsatser (produktivt ordförråd, baserat på SweLL-piloten) och kursböcker (receptivt ordförråd, baserat på COCTAILL). För varje adjektiv, anges dess böjningsparadigm	Lexikon	svenska	Datamängd: l2lex-adj.xlsx 2025-02-20 – 85 byte – CC-BY-4.0 Datamängd: l2lex-adj.csv 2025-02-20 – 504.11 KB – CC-BY-NC-SA-4.0 Utforska i:
L2Lex-AdjAdv L2Lex-AdjAdv är en disambiguerad ordlista med svenska adjektiv och adverb för elever med svenska som andraspråk, inkl. frekvenserna från uppsatser (produktivt ordförråd, baserat på SweLL-piloten) och kursböcker (receptivt ordförråd, baserat på COCTAILL). För varje ingång i listan, anges det dess mekanism för att bygga komparativa former (t.ex. perifratisk, morfologisk, osv.).	Lexikon	svenska	Datamängd: l2lex-adjadv.xlsx 2025-02-20 – 85 byte – CC-BY-4.0 Datamängd: l2lex-adjadv.csv 2025-02-20 – 675.07 KB – CC-BY-4.0 Utforska i:
MuClaGED MuClaGED är en datamängd för multi-class Grammatical Error Detection för svenska. Den är baserad på SweLL-gold korpusen.	Korpus	svenska	Utforska i:
MultiGEC MultiGEC är en datamängd för Grammatical Error Correction (uppgift inom NLP) och innehåller parallel data för 12 språk och 17 delkorpusar. Varje delkorpus består av två eller fler varianter av samma texter (oftast uppsatser som skrivs av språkinlärare), där en version (orig) har skrivits av en författare (elev, student, etc.) och de andra versionerna (ref1, ref2, ...) är korrigerade versioner av samma text. Språk som ingår: tjeckiska, engelska, estniska, tyska, grekiska, isländska, italienska, lettiska, ryska, slovenska, svenska och ukrainska (engelska och ryska kan fås på begäran). Texter kommer från olika ursprungskorpusar, men har genomgått omformattering för att ha en gemensam format.	Korpus	tjeckiska, tyska, modern greek (1453-), engelska, estniska, isländska, italienska, lettiska, ryska, slovenska, svenska, ukrainska	Utforska i:
MultiGED MultiGED är en datamängd för Grammatical Error Detection (uppgift inom NLP) och innehåller data för 5 språk (tjeckiska, engelska, tyska, italienska och svenska).	Korpus	tjeckiska, tyska, engelska, italienska, svenska	Datamängd: multiged-2023.tar.bz2 2025-01-22 – 3.82 MB – Other Utforska i:
SenLex SenLex är en menings-baserad ordlista med ordförråd för elever med svenska som andraspråk med frekvenserna från uppsatser (produktivt ordförråd, baseras på SweLL-piloten) och kursböcker (receptivt ordförråd, baserat på COCTAILL)	Lexikon	svenska	Datamängd: sen-lex.xlsx 2025-02-19 – 85 byte – CC-BY-4.0 Datamängd: sen-lex.csv 2025-02-19 – 5.08 MB – CC-BY-NC-SA-4.0 Utforska i:
Skriftlig produktion i inlärarfranska Denna korpus innehåller elevtexter skrivna av svenska inlärare av franska.	Korpus	franska
SVALex SVALex är en ordlista med receptivt ordförråd för elever med svenska som andraspråk	Lexikon	svenska	Datamängd: svalex_xlsx.tar.bz2 2025-01-24 – 2.16 MB – CC-BY-NC-SA-4.0 Datamängd: svalex_tsv.tar.bz2 2025-01-24 – 203.25 KB – CC-BY-NC-SA-4.0 Utforska i:
Swedish MWELex Swe-MWELex är en betydelse-baserad ordlista med flerordsenheter som elever med svenska som andraspråk kan hantera på olika färdighetsnivåer enligt GERS (CEFR). Listan innehåller enheter och deras frekvenser från uppsatser (produktivt ordförråd, baserat på SweLL-pilot-korpusen) och kursböcker (receptivt ordförråd, baserat på COCTAILL). Utöver detta, varje flerordsenhet har manuellt klassificerats enligt deras typ (syntaktisk och lexikalisk), samt separat i undergrupper inom verb-baserade flerordsenheter.	Lexikon	svenska	Datamängd: swe-mwelex.xlsx 2025-03-12 – 184.75 KB – CC-BY-4.0 Datamängd: swe-mwelex.csv 2025-02-20 – 414.88 KB – CC-BY-NC-SA-4.0 Utforska i:
SweLL-gold Uppsatser skrivna av vuxenstuderande i svenska, manuellt pseudonymiserade och annoterade med felkategorier. Korpusen innehåller både originaltexten och en normaliserad version av varje uppsats. Insamlingperiod 2017-2020.	Korpus	svenska	Ordstatistik: stats_SWELLV1-ORIGINAL.txt.zip 2025-04-22 – 147.52 KB – CC-BY-4.0 Ordstatistik: stats_SWELLV1-TARGET.txt.zip 2025-04-22 – 132.13 KB – CC-BY-4.0 Utforska i:
SweLL-gold target SweLL-gold target är en av de två versionerna av SweLL-gold. Den innehåller den korrigerade versionen av elevernas uppsatser. Se SweLL-gold original för originalversionerna av uppsatserna.	Korpus	svenska	Ordstatistik: stats_SWELL-TARGET.txt.zip 2025-04-22 – 30.08 KB – CC-BY-4.0 Utforska i:
Samling SweLL-pilot Uppsatser skrivna av vuxenstuderande i svenska, annoterade med CEFR nivåerna (en Europeisk skala med färdighetsnivåer inom språkinlärningen). Uppsatserna samlades under perioden 2006-2015.	Korpus	svenska	Se 3 delresurser Utforska i:
SweLLex SweLLex är en ordlista med produktivt ordförråd för elever med svenska som andraspråk	Lexikon	svenska	Datamängd: SweLLex_v1_xlsx.tar.bz2 2025-01-24 – 3.21 MB – CC-BY-4.0 Datamängd: SweLLex_v1_tsv.tar.bz2 2025-01-24 – 213.59 KB – CC-BY-4.0 Utforska i:
TISUS-texter Essays written by L2 Swedish learners as part of a TISUS exam	Korpus	svenska	Utforska i:
UD2.17_Swedish-SweLL En parallell Universal Dependencies-trädbank baserad på SweLL (Swedish Learner Language-korpusen).	Korpus	svenska	Datamängd: ud217_swedish-swell.xml.bz2 2026-01-19 – 207.45 KB – CC-BY-4.0 Datamängd: ud217_swedish-swell-target.xml.bz2 2026-01-19 – 212.09 KB – CC-BY-4.0 Datamängd: ud217_swedish-swell.zip 2025-11-19 – 218.8 KB – CC-BY-SA-4.0 Ordstatistik: stats_ud217_swedish-swell.csv.zip 2026-01-19 – 27.59 KB – CC-BY-4.0 Ordstatistik: stats_ud217_swedish-swell-target.csv.zip 2026-01-19 – 27.04 KB – CC-BY-4.0 Utforska i:
UD2.18_Swedish-SweLL En parallell Universal Dependencies-trädbank baserad på SweLL (Swedish Learner Language-korpusen).	Korpus	svenska	Datamängd: ud218_swedish-swell.xml.bz2 2026-06-15 – 257.02 KB – CC-BY-4.0 Datamängd: ud218_swedish-swell-target.xml.bz2 2026-06-15 – 262.28 KB – CC-BY-4.0 Datamängd: ud218_swedish-swell.zip 2026-05-20 – 1.64 MB – CC-BY-SA-4.0 Ordstatistik: stats_ud218_swedish-swell.csv.zip 2026-06-15 – 30.73 KB – CC-BY-4.0 Ordstatistik: stats_ud218_swedish-swell-target.csv.zip 2026-06-15 – 30.23 KB – CC-BY-4.0 Utforska i:

Datacitering

Included resources

Avsedd användning

Referenser

Datamängder i samlingen

Typ

Språk

Storlek

Nyckelord

Uppdaterad

Kontakt

DOI