Skip to main content

News archive

How native and non-native speakers talk to each other

We at Språkbanken Text have just released a new corpus of native (L1) and non-native (L2) speech in four languages: English, Spanish, French and Italian.
The corpus contains more than 170 million words produced by more than 97 thousand speakers (size varies a lot across the four languages, though). The corpus has been created by scraping WordReference forums, where users discuss various questions about languages. Importantly, every user has to provide their native language, and this information, alongside with the nickname, is … Fortsätt läsa ”How native and non-native speakers talk to each other”

Sparv 4 är släppt

En ny version av Språkbanken Texts korpuspipeline Sparv har nu släppts. I den här versionen har vi skrivit om Sparv från grunden och gjort verktyget mer användarvänligt. Sparv har även fått nya språkmodeller som leder till en bättre ordklasstaggning och dependensparsning. Dessutom kan Sparv nu producera fler exportformat såsom XML, CSV, CoNLL och ordfrekvenslistor. Läs mer om vad som är nytt på https://github.com/spraakbanken/sparv-pipeline/releases/tag/v4.0.0.

Dokumentationen samt installationsinstruktioner hittar du här: https://spraakbanken.gu.se/sparv/docs.

Källkoden är tillgänglig på https://github.com/spraakbanken/sparv-pipeline.

New diachronic word embeddings models trained on newspaper data

Yesterday, we have released word embedding models trained on our historical newspaper archive, Kubhist 2. Word embedding models represent words using vectors and place them in their semantic neighbourhood such that words that are similar are closer together. Thus they allow to easily look for semantic similarity between words as well as detect relations. We have released diachronic models, one for each 20-year period of Kubhist 2. The interesting feature of diachronic embeddings is that they allow to for the study of a word's semantics over time. The models are currently available on Zenodo, and will be available via the SBX page shortly. A thorough description is soon to appear in the Journal of Open Humanities Data.

New blog corpus in Korp

SIC2, a small corpus of blogs with gold part-of-speech, morphosyntactic and named-entity tags, as well as basic info about the authors, has been added to Korp.

Any corpus is a welcome addition to Korp, but gold corpora (those where the annotation quality has been manually controlled) are particularly valuable. We have now added SIC2, a slightly modified version of the Stockholm Internet Corpus, originally created by Robert Östling et al. SIC2 is a small corpus of blogs, but it has gold part-of-speech, morphosyntactic and named-entity tags (SUC-style). In addition, basic information about the authors is also available. The corpus is downloadable.

The integration of SIC2 into Korp served also as a test drive for the new version of our annotation pipeline Sparv, to be released very soon.

SLTC 2020

Den svenska språkteknologiska konferensen (SLTC) äger rum den 25–27 november med fyra workshopar onsdagen den 25 november och huvudkonferensen torsdag–fredag den 26–27 november. Det är den åttonde konferensen i raden och den hålls vartannat år. I år är det ett helt digitalt arrangemang med mer än 200 registrerade deltagare från hela världen.

Ta del av innehåll och program här: https://spraakbanken.gu.se/en/sltc2020

Organisatörer:

  • CLASP - Centrum för språkteori och sannolikhetsstudier (the Centre for Linguistic Theory and Studies in Probability) vid Institutionen för filosofi, lingvistik och vetenskapsteori,
  • Språkbanken Text vid Institutionen för svenska språket, och
  • Institutionen för data- och informationsteknik.

Pretrained model for lemmatization of Swedish

We have added a pretrained model for lemmatization of Swedish text to our model collection. The model was trained and tested on SUC3 using the Stanza package and achieves a very high accuracy of 99.18.

The drawback of this model is that SUC3 lemmatization and part-of-speech annotation does not exactly match that in Saldo, which is used by Sparv to annotate the resources available via Korp. The advantage, however, is that the model always produces a guess (and usually a correct one), while the current version of Sparv sometimes cannot do that. The new version of Sparv (coming soon) will probably combine the two approaches.

Using the model does not require deep knowledge of natural language processing or advanced programming skills.

More to come.

2nd International Workshop on Computational Approaches to Historical Language Change 2021 (LChange'21)

Språkbanken Text, and projektet Towards Computational Lexical Semantic Change Detection organiserar en andra workshop inom LChange-serien om beräkningsmodeller för historiska språkförändringar som är planerad till augusti 2021.

Workshopen bygger på den första LChange workshopen  som vill höll i 2019 i samband med ACL. Den var en överväldigande succé och lockade över 50 inskickade bidrag och 65 deltagare. Även LChange'21 organiseras i samband med ACL2021.

Vårt tema kommer att vara ungefär samma som förra gången: alla aspekter kring maskinella metoder och modeller för språkliga förändringar där textkorpusar används för utvinning. Deadline för bidrag kommer att annonseras inom kort på vår webbsida: https://languagechange.org/events/2021-acl-lchange/

LChange'21 kommer att ha två plenärtalare, en med fokus på beräkningsmodeller och en med fokus på applikationer eller teori kring språkliga förändringar. Goda förslag tas tacksamt emot!

Vi ser fram emot bidrag och deltagande, sprid gärna nyheten vidare!