Hoppa till huvudinnehåll
Språkbanken Text är en avdelning inom Språkbanken.

MultiGEC

Standardreferens Information

{publication }

Datacitering Information

Masciolini, Arianna, Caines, Andrew, De Clercq, Orphée, Kruijsbergen, Joni, Kurfali, Murathan, Muñoz Sánchez, Ricardo, Volodina, Elena, Östling, Robert, Allkivi-Metsoja, Kais, Arhar Holdt, Špela, Auzina, Ilze, Darģis, Roberts, Drakonaki, Elena, Frey, Jennifer-Carmen, Glišić, Isidora, Kikilintza, Pinelopi, Nicolas, Lionel, Romanyshyn, Mariana, Rosen, Alexandr, Rozovskaya, Alla, Suluste, Kristjan, Syvokon, Oleksiy, Tantos, Alexandros, Touriki, Despoina-Ourania, Tsiotskas, Konstantinos, Tsourilla, Eleni, Varsamopoulos, Vassilis, Wisniewski, Katrin, Žagar, Aleš, & Zesch, Torsten (2025). MultiGEC (uppdaterad: 2025-01-19). [Data set]. Språkbanken Text. https://doi.org/10.23695/h9f5-8143
BibTeX Ytterligare sätt att citera datamängden.
MultiGEC är en datamängd för Grammatical Error Correction (uppgift inom NLP) och innehåller parallel data för 12 språk och 17 delkorpusar. Varje delkorpus består av två eller fler varianter av samma texter (oftast uppsatser som skrivs av språkinlärare), där en version (orig) har skrivits av en författare (elev, student, etc.) och de andra versionerna (ref1, ref2, ...) är korrigerade versioner av samma text. Språk som ingår: tjeckiska, engelska, estniska, tyska, grekiska, isländska, italienska, lettiska, ryska, slovenska, svenska och ukrainska (engelska och ryska kan fås på begäran). Texter kommer från olika ursprungskorpusar, men har genomgått omformattering för att ha en gemensam format.


Beskrivning

MultiGEC är en datamängd för automatisk korrigering av grammatiska fel -- på engelska Grammatical Error Correction (GEC) -- på 12 olika europeiska språk (tjeckiska, engelska, estniska, tyska, grekiska, isländska, italienska, lettiska, ryska, slovenska, svenska och ukrainska) som sammanställts av CompSLA-arbetsgruppen och över 20 externa dataleverantörer inom ramen för MultiGEC-2025, den första shared task för GEC på textnivå.

MultiGEC är indelat i 17 delkorpusar som täcker olika språk, domäner och korrigeringsstilar, vilka sammanfattas nedan. Mer detaljerad information om varje subkorpus finns tillgänglig som maskinläsbara metadata, vars format beskrivs här .

Annotation

För varje text finns en manuellt normaliserad (dvs. korrigerad) version. Ingen ytterligare annotering har utförts eller bevarats från källkorpusarna. För tre språk (isländska, tyska och ryska) består den första versionen av datamängden av förtokeniserade texter, som kommer att avtokeniseras i framtida versioner.

Förbehåll

Datan är relativt homogena och består till största delen av fulltextuppsatser skrivna av andraspråkselever och deras rättade versioner. För vissa språk används dock texter som är skrivna av modersmåltalare eller heterogen data, och för vissa språk innehåller datamängden inte uppsatser i fulltext utan textfragment. Mer information om dessa aspekter finns på spraakbanken.gu.se/en/compsla/multigec-dataset.

Avsedd användning

Grammatical Error Correction, (Second) Language Acquisiton studies, Learner Corpus Research, Noisy User-produced Data, pedagogical cases

Referenser

Tillgänglig via

Åtkomst Plattform Licens
subject to Terms of Use

Del av samling

Typ

  • Korpus
  • Tränings- och utvärderingsdata

Språk

tjeckiska
tyska
modern greek (1453-)
engelska
estniska
isländska
italienska
lettiska
ryska
slovenska
svenska
ukrainska

Storlek

Nyckelord

  • grammatical error correction
  • language learning
  • essays
  • multilinguality

Skapad av

  • Masciolini, Arianna
  • Caines, Andrew
  • De Clercq, Orphée
  • Kruijsbergen, Joni
  • Kurfali, Murathan
  • Muñoz Sánchez, Ricardo
  • Volodina, Elena
  • Östling, Robert
  • Allkivi-Metsoja, Kais
  • Arhar Holdt, Špela
  • Auzina, Ilze
  • Darģis, Roberts
  • Drakonaki, Elena
  • Frey, Jennifer-Carmen
  • Glišić, Isidora
  • Kikilintza, Pinelopi
  • Nicolas, Lionel
  • Romanyshyn, Mariana
  • Rosen, Alexandr
  • Rozovskaya, Alla
  • Suluste, Kristjan
  • Syvokon, Oleksiy
  • Tantos, Alexandros
  • Touriki, Despoina-Ourania
  • Tsiotskas, Konstantinos
  • Tsourilla, Eleni
  • Varsamopoulos, Vassilis
  • Wisniewski, Katrin
  • Žagar, Aleš
  • Zesch, Torsten

Updaterad

2025-01-19

Kontakt

sb-info@svenska.gu.se