Hoppa till huvudinnehåll

Alla nyheter

Pretrained model for lemmatization of Swedish

We have added a pretrained model for lemmatization of Swedish text to our model collection. The model was trained and tested on SUC3 using the Stanza package and achieves a very high accuracy of 99.18.

The drawback of this model is that SUC3 lemmatization and part-of-speech annotation does not exactly match that in Saldo, which is used by Sparv to annotate the resources available via Korp. The advantage, however, is that the model always produces a guess (and usually a correct one), while the current version of Sparv sometimes cannot do that. The new version of Sparv (coming soon) will probably combine the two approaches.

Using the model does not require deep knowledge of natural language processing or advanced programming skills.

More to come.

2nd International Workshop on Computational Approaches to Historical Language Change 2021 (LChange'21)

Språkbanken Text, and projektet Towards Computational Lexical Semantic Change Detection organiserar en andra workshop inom LChange-serien om beräkningsmodeller för historiska språkförändringar som är planerad till augusti 2021.

Workshopen bygger på den första LChange workshopen  som vill höll i 2019 i samband med ACL. Den var en överväldigande succé och lockade över 50 inskickade bidrag och 65 deltagare. Även LChange'21 organiseras i samband med ACL2021.

Vårt tema kommer att vara ungefär samma som förra gången: alla aspekter kring maskinella metoder och modeller för språkliga förändringar där textkorpusar används för utvinning. Deadline för bidrag kommer att annonseras inom kort på vår webbsida: https://languagechange.org/events/2021-acl-lchange/

LChange'21 kommer att ha två plenärtalare, en med fokus på beräkningsmodeller och en med fokus på applikationer eller teori kring språkliga förändringar. Goda förslag tas tacksamt emot!

Vi ser fram emot bidrag och deltagande, sprid gärna nyheten vidare!

Pseudonymization of learner essays as a way to meet GDPR requirements

This blog is based on joint research with Yousuf (Samir) Ali Mohammed, Arild Matsson, Beáta Megyesi and Sandra Derbring Access to language data is an obvious prerequisite for research in digital humanities in general, and for the development of NLP-based tools in particular.
However, accessible data becomes a challenging target where personal data is involved. This is very true of language learner data where tasks are often phrased so that they, directly or indirectly, elicit explicit personal information, e.g.”Describe your school” or … Fortsätt läsa ”Pseudonymization of learner essays as a way to meet GDPR requirements”

Flerordingar: ord som består av flera delar

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): ’huset’, ’superstor’, ’bloggade’. De flesta skulle nog säga att ’idag’ är ett ord, men hur är det om vi skriver det (också rättstavat) ’i dag’ då? ’Mont Blanc-tunneln’? ’Röda blodkroppar’? I det här blogginlägget tänkte jag prata om ord som innehåller mellanrum och flerordsuttryck, och hur man kan analysera dem i en korpus. Om vi ska annotera en text, alltså märka upp den med …  Fortsätt läsa ”Flerordingar: ord som består av flera delar”

How reliable is sense disambiguation in texts by native and non-native speakers?

A new blogpost is out.

(This blog is based on a joint research and publication in collaboration with David Alfter, Therese Lindström Tiedemann, Maisa Laurialla and Daniela Piipponen) At our department, and outside, we are used to search Korp corpora using the linguistic categories available there. Some of us know that these linguistic categories come as a result of automatic annotation by the Sparv-pipeline. The pipeline automatically splits raw text into tokens, sentences, finds a base form to each of the running (inflected) words, assigns word classes, …