SIC2, a small corpus of blogs with gold part-of-speech, morphosyntactic and named-entity tags, as well as basic info about the authors, has been added to Korp.
We have added a pretrained model for lemmatization of Swedish text to our model collection.
Språkbanken Text, and projektet Towards Computational Lexical Semantic Change Detection organiserar en andra workshop inom LChange-serien om beräkningsmodeller för historiska språkförändringar som är planerad till augusti 2021.
När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): ’huset’, ’superstor’, ’bloggade’. De flesta skulle nog säga att ’idag’ är ett ord, men hur är det om vi skriver det (också rättstavat) ’i dag’ då? ’Mont Blanc-tunneln’? ’Röda blodkroppar’?