Swe-MWELex är en orlista med flerordsenheter som används produktivt eller receptivt inom undervisning av svenska som andraspråk. Listan baserar sig på två korpusar: SweLL-piloten, som innehåller uppsatser från andraspråkselever, och COCTAILL, som innehåller texter från kursböckerna som används för undervisning av svenska på kurser i svenska som andraspråk. Båda korpusar var manuellt annoterade med CEFR/GERS nivåerna. Dessa nivåer är projicerade till varje ord som observerats i texter av samma nivå. Listan är, således, inte preskriptiv, utan i högsta grad deskriptiv.
Varje enhet i listan innehåller lingvistisk information som delvis var automatisk annoterad, med vissa kategorier som har annoterats mauellt.
De angivna frekvenserna kommer också från de två källkorpusarna: COCTAILL och SweLL-pilot, se artiklarna här:
- Elena Volodina, Ildikó Pilán, Stian Rødven Eide and Hannes Heidarsson 2014. You get what you annotate: a pedagogically annotated corpus of coursebooks for Swedish as a Second Language. Proceedings of the third workshop on NLP for computer-assisted language learning. NEALT Proceedings Series 22 / Linköping Electronic Conference Proceedings 107: 128–144.
- Volodina Elena. (2024) On two SweLL learner corpora–SweLL-pilot and SweLL-gold. In Huminfra Conference, pp. 83-94.
- Elena Volodina, Ildikó Pilán, Ingegerd Enström, Lorena Llozhi, Peter Lundkvist, Gunlög Sundberg, Monica Sandell. 2016. SweLL on the rise: Swedish Learner Language corpus for European Reference Level studies. Proceedings of LREC 2016, Slovenia.
Man kan utforska Swe-MWELex på Lärka-plattformen (https://spraakbanken.gu.se/larka/svlp) under Svenska L2 profiler -> Lexikal profil -> Flerordsenheter. Man kan också filtrera och ladda ner resursen därifrån.