Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

Swedish MWELex

Standardreferens Information

Therese Lindström Tiedemann, David Alfter, Yousuf Ali Mohammed, Daniela Piipponen, Beatrice Silén, Elena Volodina (2024): Multiword expressions in Swedish as a second language: Taxonomy, annotation, and initial results, in Multiword Expressions in Lexical Resources: Linguistic, Lexicographic, and Computational Perspectives / edited by Voula Giouli and Verginica Barbu Mititelu, pages 309-348 BibTeX

Datacitering Information

Lindström Tiedemann Therese, Alfter David, & Volodina Elena (2023). Swedish MWELex (uppdaterad: 2023-04-20). [Data set]. Språkbanken Text. https://doi.org/10.23695/352q-wa92
BibTeX Ytterligare sätt att citera datamängden.
Swe-MWELex är en betydelse-baserad ordlista med flerordsenheter som elever med svenska som andraspråk kan hantera på olika färdighetsnivåer enligt GERS (CEFR). Listan innehåller enheter och deras frekvenser från uppsatser (produktivt ordförråd, baserat på SweLL-pilot-korpusen) och kursböcker (receptivt ordförråd, baserat på COCTAILL). Utöver detta, varje flerordsenhet har manuellt klassificerats enligt deras typ (syntaktisk och lexikalisk), samt separat i undergrupper inom verb-baserade flerordsenheter.

Swe-MWELex är en orlista med flerordsenheter som används produktivt eller receptivt inom undervisning av svenska som andraspråk. Listan baserar sig på två korpusar: SweLL-piloten, som innehåller uppsatser från andraspråkselever, och COCTAILL, som innehåller texter från kursböckerna som används för undervisning av svenska på kurser i svenska som andraspråk. Båda korpusar var manuellt annoterade med CEFR/GERS nivåerna. Dessa nivåer är projicerade till varje ord som observerats i texter av samma nivå. Listan är, således, inte preskriptiv, utan i högsta grad deskriptiv.
Varje enhet i listan innehåller lingvistisk information som delvis var automatisk annoterad, med vissa kategorier som har annoterats mauellt.

De angivna frekvenserna kommer också från de två källkorpusarna: COCTAILL och SweLL-pilot, se artiklarna här:

  • Elena Volodina, Ildikó Pilán, Stian Rødven Eide and Hannes Heidarsson 2014. You get what you annotate: a pedagogically annotated corpus of coursebooks for Swedish as a Second Language. Proceedings of the third workshop on NLP for computer-assisted language learning. NEALT Proceedings Series 22 / Linköping Electronic Conference Proceedings 107: 128–144.
  • Volodina Elena. (2024) On two SweLL learner corpora–SweLL-pilot and SweLL-gold. In Huminfra Conference, pp. 83-94.
  • Elena Volodina, Ildikó Pilán, Ingegerd Enström, Lorena Llozhi, Peter Lundkvist, Gunlög Sundberg, Monica Sandell. 2016. SweLL on the rise: Swedish Learner Language corpus for European Reference Level studies. Proceedings of LREC 2016, Slovenia.

Man kan utforska Swe-MWELex på Lärka-plattformen (https://spraakbanken.gu.se/larka/svlp) under Svenska L2 profiler -> Lexikal profil -> Flerordsenheter. Man kan också filtrera och ladda ner resursen därifrån.

Annotation

GERS nivåer, lemmatisering, betydelsedisambiguering, ordklasser, frekvenser, manuell klassificering / MWE kategorier

Förbehåll

Swe-MWELex lists the same item once for each proficiency level and type of use (productive vs receptive), if the item has been used at each of the levels, which means that, for example, the expression "till_exempel" (Eng. for example) is provided six time, once for each level at which it occurs. This also means that the number of unique items is much less than the number of entries.

Avsedd användning

undervisning av L2 svenska, utveckling av CALL och ICALL applikationer, använding som särdrag i klassificeringsuppgifter, profilering av svenska som andraspråk

Tillgänglig via

Åtkomst Plattform Licens
CC BY 4.0

Ladda ned

Fil Storlek Modifierad Licens
swe-mwelex.xlsx
Columns: Word (MWE in its dictionary form); Lemgram (MWE + word class); Sense (acc to Saldo); POS (word class acc. to SUC); SaldoPOS (word class acc to Saldo taxonomy); Type1:Syntactic-contiguity (subgroups of MWEs); Type2:Lexical-categories; Type3: Verbal-subcategory; Receptive (absolute frequencies in coursebooks), Productive (absolute frequencies in learner essays), Receptive TTR (relative frequencies per level and total in coursebooks), Productive TTR (relative frequencies per level and total in learner essays) (xlsx)
184.75 KB 2025-03-12 CC BY 4.0
swe-mwelex.csv
Columns: Word (MWE in its dictionary form); Lemgram (MWE + word class); Sense (acc to Saldo); POS (word class acc. to SUC); SaldoPOS (word class acc to Saldo taxonomy); Type1:Syntactic-contiguity (subgroups of MWEs); Type2:Lexical-categories; Type3: Verbal-subcategory; Receptive (absolute frequencies in coursebooks), Productive (absolute frequencies in learner essays), Receptive TTR (relative frequencies per level and total in coursebooks), Productive TTR (relative frequencies per level and total in learner essays) (csv)
414.88 KB 2025-02-20 CC BY-NC-SA 4.0

Typ

  • Lexikon

Språk

svenska

Storlek

Ingångar: 2 791

Nyckelord

  • multi-word expressions
  • second language wordlist
  • L2
  • receptive vocabulary
  • productive vocabulary
  • CEFR levels

Skapad av

  • Lindström Tiedemann Therese
  • Alfter David
  • Volodina Elena

Skapad

2023-04-20

Updaterad

2023-04-20

Kontakt

sb-info@svenska.gu.se