Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

MuClaGED

Standardreferens Information

Judit Casademont Moner, Elena Volodina (2022): Swedish MuClaGED: A new dataset for Grammatical Error Detection in Swedish, in Proceedings of the 11th Workshop on Natural Language Processing for Computer-Assisted Language Learning (NLP4CALL 2022) BibTeX

Datacitering Information

Judit Casademont Moner, & Elena Volodina (2025). MuClaGED (uppdaterad: 2025-01-19). [Data set]. Språkbanken Text. https://doi.org/10.23695/q9v4-vt57
BibTeX Ytterligare sätt att citera datamängden.
MuClaGED är en datamängd för multi-class Grammatical Error Detection för svenska. Den är baserad på SweLL-gold korpusen.


Dataset description

Data is provided in a tab-separated format consisting of five columns, namely, token id, token, list of error codes for addition, list of error codes for deletion and list of codes for replacement. See more on data format in the standard reference article.

License: CLARIN-ID, -PRIV, -NORED, -BY (https://www.kielipankki.fi/support/clarin-eula/#res).

Annotation

Each token has an error label (high level error type) and edit type that has been applied for correction (addition, deletion and replacement).

Avsedd användning

Grammatical Error Detection and labeling, (Second) Language Acquisiton studies, Learner Corpus Research, Noisy User-produced Data.

Tillgänglig via

Åtkomst Plattform Licens
misc

Del av samling

Typ

  • Korpus
  • Tränings- och utvärderingsdata

Språk

svenska

Storlek

Meningar: 8 553
Token: 155 415

Nyckelord

  • grammatical error detection
  • token-level detection
  • error labeling
  • error edit labeling
  • language learning
  • sentences

Skapad av

  • Judit Casademont Moner
  • Elena Volodina

Updaterad

2025-01-19

Kontakt

sb-info@svenska.gu.se