SweLL - Infrastruktur för L2 svenska

Paraplyprojekt

ICALL - Intelligent Computer-Assisted Language Learning

Den fullständiga titeln: SweLL - forskningsinfrastruktur för svenska som andraspråk, RJ, 2017-2019 (-2020)

(SweLL - Swedish Learner Language)

Bakgrund

Forskning inom svenska som andraspråk (L2) har under de senaste åren fått allt större betydelse, bl.a. i samband med den aktuella flyktingsituationen i Sverige och hela Europa. Detta avspeglas i regeringens beslut att genom Skolverket satsa på Nyanländas lärande med ett mål att ta fram bedömningsmaterial för svenska.

Allmän beskrivning

SweLL syftar till att skapa en plattform för att samla in, digitalisera, normalisera, lingvistiskt annotera och elektroniskt tillgängliggöra texter skrivna av inlärare av svenska. En sådan textsamling skulle möjliggöra sökningar efter språkliga strukturer som utmärker inlärarspråk, med en normaliserad version till ett urval av texter. För andra språk finns flera andraspråkskorpusar, men de är en bristvara för svenskans del.

Behovet av en sådan infrastruktur är uttalat inom flera områden inom andraspråksforskning: lexikonstudier behöver L2 material för att kunna besvara frågor om hur ordförrådet utvecklas, studier om syntax behöver material för att verifiera hypoteser från experimentella studier, osv.

För att tillgodose bl.a. dessa behov syftar SweLL till att skapa en infrastruktur som består av:

en portal för datainsamling, både för import från filer och via online övningar
verktyg för analys av inlärarspråk
en L2-korpus på ca 600 texter annoterade med bl.a. fel
sökmöjligheter för L2-material, såsom sökningar på behärskningsnivåer och grammatiska strukturer

Materialet och verktyg kommer att tillgängliggöras genom Språkbanken. Ansök om tillgång.

Se en intervju om SweLL data med Elena Volodina. Språk: engelska (april 2018)

Se en intervju om vikten att ha interoperabilitet inom L2 resurser och verktyg med Elena Volodina. Språk: engelska (oktober 2018)

Institutioner/organisationer

Projektledare: Elena Volodina, Språkbanken, Göteborgs universitet

Fyra svenska universitet deltar i projektet:

Göteborgs universitet: Julia Prentice, Monica Reichenberg, Elena Volodina
Uppsala universitet: Beata Megyesi
Stockholms universitet: Lisa Rudebeck, Gunlög Sundberg, Mats Wirén
Umeå universitet: Lena Granstedt

Finansiering

Projektet finansieras av Riksbankens Jubileumsfond under 2017-2019 via anslaget IN16-0464:1

Medfinansiering kommer från

Göteborgs universitet, Institutionen för svenska, flerspråkighet och språkteknologi, som en del av satsning på university infrastructure activities
Nationella Språkbanken -- via gemensam medfinansiering från dess 10 deltagande institutioner och Vetenskapsrådet (2018--2024; dnr 2017-00626).
Institutionen för svenska och flerspråkighet vid Stockholms universitet - via ett nätverksbidrag

Presentationer

Elena Volodina (Spring 2021, Department of Swedish, UGOT) SweLL learner corpus: statistics, Korp access and more.
Elena Volodina, Yousuf Ali Mohammed, Sandra Derbring, Arild Matsson and Beata Megyesi (December 2020), COLING-2020, poster presentation. Towards privacy by design in learner corpora research: A case of on-the-fly pseudonymization of Swedish learner essays.
Elena Volodina (2020-11-25), NLP4CALL 2020, replacement keynote talk. Pseudonymization of learner corpora. [Slides]
Elena Volodina (2020-09-23), Baltic HLT 2020, keynote talk. Learner corpora – overcoming challenges with building and sharing the data. [Slides]
Elena Volodina (September 2019). NLP4CALL, organizer talk. SVALA - pseudonymization service for L2 Swedish . [Slides]
Elena Volodina, Arild Matsson (Dan Rosén and Mats Wirén) (September 2019). SVALA: an Annotation Tool for Learner Corpora generating parallel texts. Learner Corpus Research Conference-2019. Poland, Warszawa. [Slides]
Rudebeck, Lisa, Sundberg, Gunlög & Wirén, Mats. (12 februari 2019) SweLL: En forskningsinfrastruktur för svenska som andraspråk, Högre seminariet vid Institutionen för språkdidaktik, Stockholms universitet
Rudebeck, Lisa, Sundberg, Gunlög & Wirén, Mats. (10 april 2019). SweLL: En forskningsinfrastruktur för svenska som andraspråk, Högre seminariet vid Institutionen för för svenska och flerspråkighet, Stockholms universitet.
Lena Granstedt, Julia Prentice, Lisa Rudebeck & Gunlög Sundberg:(August 2019). Annotating Swedish Learner Language. Insights from designing and implementing the SweLL correction taxonomy. The 29th Conference of the European second language association EuroSLA, Lund 29-31 augusti 2019.
Elena Volodina, Lena Granstedt, Beáta Megyesi, Julia Prentice, Dan Rosén, Carl-Johan Schenström, Gunlög Sundberg & Mats Wirén. (2018). Annotation of learner corpora: first SweLL insights. Proceedings of SLTC-2018, Stockholm, Sweden [pdf]
Ildikó Pilán (and Elena Volodina). Exploring word embeddings and phonological similarity for the unsupervised correction of language learner errors. TPoster presentation at the COLING 2018 SIGHUM Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH).
Elena Volodina Towards a research infrastructure for Second Language Acquisition and teaching: case of L2 Swedish Guest talk at the University of Ljubljana, Slovenia, June 7 2018. [slides]
Elena Volodina Annotation of L2 corpora for NLP and SLA studies: case of SweLL, keynote talk at INDUS network meeting, Tübingen, Germany, 28 Feb-1 March 2018 [Slides]
Mats Wirén SweLL - an upcoming infrastructure for Swedish as a Second Language, Clarin L2 workshop, Gothenburg, 6-8 Dec 2018 [Slides]
Elena Volodina Legal issues in learner essay collection, Clarin L2 workshop, Gothenburg, 6-8 Dec 2018 [Slides]
Julia Prentice Error taxonomy and other considerations in the SweLL project, Clarin L2 workshop, Gothenburg, 6-8 Dec 2018 [Slides]
Dan Rosén The SweLL normalization editor for learner texts, Clarin L2 workshop, Gothenburg, 6-8 Dec 2018 [Slides] [More]
Prentice, Julia & Volodina, Elena. SweLL - Forskningsinfrastuktur för svenska som andraspråk. Konferensbidrag på Svenskans beskrivning 36, Uppsala universitet, 25-27 oktober 2017.[Slides]
"Infrastruktur för svensk andraspråksforksning (och annan svensk forskning). Möten mellan andraspråksforksning och datalingvistik". Arbeitstagung der Skandinavistik (ATDS). KIEL, 27-29 September 2017. (by Julia Prentice) [slides]
"Legal and ethical issues when dealing with learner essays" - Presentation at an NCN workshop (Nordic CLARIN Network), September 2017. (by Elena Volodina)
"Situation and legal problems with collecting learner texts" - Presentation at a meeting of enet-COLLECT, September 2017, Bolzano, Italy. (by Elena Volodina) [slides]
"SweLL in a nutshell" - Presentation at Språkbanken's internal talk series, August, 2017, Gothenburg, Sweden. (by Elena Volodina) [slides]
"Crowdsourcing Second Language learner data: experiences and prospects" - Presentation at a meeting of a European Network of e-Lexicography, February 2017, Budapest, Hungary (by Elena Volodina). [slides]
"SweLL - forskningsinfrastruktur för svenska som andraspåk" - Presentation at Swedish Language Council (Språkrådet), February 2017, Stockholm, Sweden. (by Elena Volodina) [slides]
"A Friend in Need? Research agenda for electronic Second Language infrastructure" - Presentation at SLTC, november 2016, Umeå, Sweden. (by Elena Volodina) [slides]

Blogginlägg

Pseudonymization of learner essays as a way to meet GDPR requirements: https://spraakbanken.gu.se/blogg/index.php/2020/10/27/pseudonymization-… (October 2020)
Korp searches in Second Language data: https://spraakbanken.gu.se/blogg/index.php/2020/06/17/korp-searches-in-… (June 2020)
Interoperability of second language resources and tools: https://www.clarin.eu/news/blog-post-elena-volodina-clarin-workshop-int… (2018-01-24)

Evenemang

National Swe-CLARIN workshop on searches in digital L2 resources. May, 2018, Stockholm, Sweden. [Website]
International CLARIN workshop on Interoperability of L2 resources and tools. December, 2017, Gothenburg, Sweden. [Website]

Publikationer

2021

Elena Volodina, Yousuf Ali Mohammed, and Julia Klezl. (2021) DaLAJ - a dataset for linguistic acceptability judgments for Swedish. Proceedings of the 10th NLP4CALL workshop. Linköping Electronic University Press, Vol. 177:3. [pdf] [an extended version on arXiv]

2020

Elena Volodina, Yousuf Ali Mohammed, Sandra Derbring, Arild Matsson and Beata Megyesi (2020). Towards privacy by design in learner corpora research: A case of on-the-fly pseudonymization of Swedish learner essays. In Proceedings of the 28th International Conference on Computational Linguistics (COLING) (pp. 357-369). [pdf]

2019

Elena Volodina, Lena Granstedt, Arild Matsson, Beáta Megyesi, Ildikó Pilán, Julia Prentice, Dan Rosén, Lisa Rudebeck, Carl-Johan Schenström, Gunlög Sundberg and Mats Wirén (2019). The SweLL Language Learner Corpus: From Design to Annotation. Northern European Journal of Language Technology, Special Issue.
Egon W. Stemle, Adriane Boyd, Maarten Janssen, Therese Lindström Tiedemann, Nives Mikelić Preradović, Alexandr Rosen, Dan Rosén, Elena Volodina. (2019) Working together towards an ideal infrastructure for language learner corpora. Learner Corpus Research 2017. In Andrea Abel, Aivars Glaznieks, Verena Lyding & Lionel Nicolas (eds.) Widening the Scope of Learner Corpus Research. Selected papers from the fourth Learner Corpus Research Conference. Corpora and Language in Use – Proceedings 5, Louvain-la-Neuve: Presses universitaires de Louvain, 427-468. [Post-print]
Wirén Mats, Arild Matsson, Dan Rosén, Elena Volodina. 2019. SVALA: Annotation of Second-Language Learner Text Based on Mostly Automatic Alignment of Parallel Corpora. CLARIN-2018 post-conference volume. LiUP Press. [pdf]
David Alfter, Lars Borin, Ildikó Pilán, Therese Lindström Tiedemann, Elena Volodina. 2019. From Language Learning Platform to Infrastructure for Research on Language Learning. CLARIN-2018 post-conference volume. LiUP Press. [pdf]
Elena Volodina, Arild Matsson, Dan Rosén and Mats Wirén. 2019. SVALA: an Annotation Tool for Learner Corpora generating parallel texts. Learner Corpus Research conference (LCR-2019). Proceedings.

2018

Beáta Megyesi, Sofia Johansson, Dan Rosén,Carl-Johan Schenström, Gunlög Sundberg, Mats Wirén & Elena Volodina. (2018). Learner Corpus Anonymization in the Age of GDPR: Insights from the Creation of a Learner Corpus of Swedish. Proceedings of the 7th NLP4CALL workshop. [pdf]
Elena Volodina, Lena Granstedt, Beáta Megyesi, Julia Prentice, Dan Rosén, Carl-Johan Schenström, Gunlög Sundberg & Mats Wirén. (2018). Annotation of learner corpora: first SweLL insights. Proceedings of SLTC-2018, Stockholm, Sweden [pdf]
Dan Rosén, Mats Wirén and Elena Volodina. (2018). Error Coding of Second-Language Learner Texts Based on Mostly Automatic Alignment of Parallel Corpora. Clarin-2018. [pdf]
Elena Volodina, Maarten Janssen, Therese Lindström Tiedemann, Nives Mikelic Preradovic, Silje Karin Ragnhildstveit, Kari Tenfjord and Koenraad de Smedt. (2018) Interoperability of Second Language Resources and Tools. Clarin-2018.
Pilán, Ildikó, & Volodina, Elena. (2018). Exploring word embeddings and phonological similarity for the unsupervised correction of language learner errors. In Proceedings of the Second Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (pp. 119-128) at COLING-2018. [pdf]

2017

Felix Hultin. 2017. Correct-Annotator: An Annotation Tool for Learner Corpora. Clarin Conference 2017, Budapest, Hungary. [pdf]
Stymne, S., Pettersson, E., Megyesi, B., and Palmér, A. (2017) Annotating Errors in Student Texts: First Experiences and Experiments. In Proceedings of Joint 6th NLP4CALL and 2nd NLP4LA Nodalida workshop, May 22, 2017, Gothenburg. [pdf ]
Elena Volodina, Beata Megyesi, Mats Wirén, Lena Granstedt, Julia Prentice, Monica Reichenberg, Gunlög Sundberg. 2016. A Friend in Need? Research agenda for electronic Second Language infrastructure. Proceedings of SLTC 2016, Umeå, Sweden [pdf]

Visioner och planer

2017

Setting up guidelines drafts (transkription, normalisering, korrigering, kodboken, pseudonymisering & pseudo-taxonomi, datahanterings plan, stegvis interaktion med berörda skolor).
Utveckling av verktyg (kiosk, SVALA, portal).
Initiala kontakter med skolorna.
Juridiska och etiska frågor.

2018

Provkörning av guidelines och verktyg inom projektgruppen, förbättringar, iterationer.
Översättning av metadata formulär
Initiering av uppsatsinsamling från skolor enligt den bestämda flöde, metadata formulär, inkl. översatta formulär

2019

Omfattande uppsatsinsamling
Initial annotering.
Underhåll av verktyg.
Vidareutveckling av verktyg och dess funktionaliteter i samråd med projektassistenter.

2020

Omfattande annotering (pseudonymisering, normalisering, korr-annotering).
(Minimal) sökfunktionalitet och visualisering via Korp (och ev Strix).
Import av datan från SweLL-portalen till Korp.
Nedladdning av of data från SweLL-portalen.
Uppladdning av nya data till SweLL-portalen.
Resease under vår 2021.

Framtid:

Vidareutveckla SVALA annoteringsverktyg för andra språk
Insamling av nya uppsatser via Lärka (inkl pseudonymisering "on-the-fly") för att förbigå steg med kiosk (transcription, pseudonymisering, metadata formulär)

Publikationer

2019

David Alfter, Lars Borin, Ildikó Pilán, Therese Lindström Tiedemann, Elena Volodina (2019): Lärka: From Language Learning Platform to Infrastructure for Research on Language Learning, i Linköping Electronic Conference Proceedings
Elena Volodina, Lena Granstedt, Arild Matsson, Beáta Megyesi, Ildikó Pilán, Julia Prentice, Dan Rosén, Lisa Rudebeck, Carl-Johan Schenström, Gunlög Sundberg, Mats Wirén (2019): The SweLL Language Learner Corpus: From Design to Annotation, i Northern European Journal of Language Technology, volym 6, sida 67-104
Elena Volodina, Arild Matsson, Dan Rosén, Mats Wirén (2019): SVALA: an Annotation Tool for Learner Corpora generating parallel texts, i Learner Corpus Research conference (LCR-2019), Warsaw, 12-14 September 2019, Book of abstracts

2018

Dan Rosén, Mats Wirén, Elena Volodina (2018): Error Coding of Second-Language Learner Texts Based on Mostly Automatic Alignment of Parallel Corpora, i Proceedings of CLARIN-2018 conference, 8-10 October 2018, Pisa, Italy
Beata Megyesi, Lena Granstedt, Sofia Johansson, Julia Prentice, Dan Rosén, Carl-Johan Schenström, Gunlög Sundberg, Mats Wirén, Elena Volodina (2018): Learner Corpus Anonymization in the Age of GDPR: Insights from the Creation of a Learner Corpus of Swedish, i Proceedings of the 7th Workshop on NLP for Computer Assisted Language Learning (NLP4CALL 2018) at SLTC, Stockholm, 7th November 2018 / edited by Ildikó Pilán, Elena Volodina, David Alfter and Lars Borin
Elena Volodina, Maarten Janssen, Therese Lindström Tiedemann, Nives Mikelic Preradovic, Silje Karin Ragnhildstveit, Kari Tenfjord, Koenraad de Smedt (2018): Interoperability of Second Language Resources and Tools, i Proceedings of CLARIN-2018 conference
David Alfter, Lars Borin, Ildikó Pilán, Therese Lindström Tiedemann, Elena Volodina (2018): From Language Learning Platform to Infrastructure for Research on Language Learning, i Proceedings of CLARIN-2018 conference, Pisa, Italy
Elena Volodina, Lena Granstedt, Beáta Megyesi, Julia Prentice, Dan Rosén, Carl-Johan Schenström, Gunlög Sundberg, Mats Wirén (2018): Annotation of learner corpora: first SweLL insights, i Proceedings of SLTC 2018, Stockholm, October 7-9, 2018
Ildikó Pilán, Elena Volodina (2018): Exploring word embeddings and phonological similarity for the unsupervised correction of language learner errors, i Proceedings of the Second Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature, COLING, Santa Fe, New Mexico, USA, August 25, 2018
Mats Wirén, Arild Matsson, Dan Rosén, Elena Volodina (2018): SVALA: Annotation of Second-Language Learner Text Based on Mostly Automatic Alignment of Parallel Corpora, i Selected papers from the CLARIN Annual Conference 2018, Pisa, 8-10 October 2018 / edited by Inguna Skadina, Maria Eskevich

2016

Elena Volodina, Beata Megyesi, Mats Wirén, Lena Granstedt, Julia Prentice, Monica Reichenberg, Gunlög Sundberg (2016): A Friend in Need? Research agenda for electronic Second Language infrastructure, i Proceedings of the Swedish Language Technology Conference

SweLL - Infrastruktur för L2 svenska

Paraplyprojekt

Den fullständiga titeln: SweLL - forskningsinfrastruktur för svenska som andraspråk, RJ, 2017-2019 (-2020)

Bakgrund

Allmän beskrivning

Institutioner/organisationer

Finansiering

Presentationer

Blogginlägg

Evenemang

Publikationer

Visioner och planer

Publikationer

2019

2018

2016

Projektlängd

Projektmedlemmar

Finansiering

Forskningsområden

Projekttyp

RJ press-release