News archive

New blog corpus in Korp

2020-11-27 Aleksandrs (Sasha) Berdicevskis

SIC2, a small corpus of blogs with gold part-of-speech, morphosyntactic and named-entity tags, as well as basic info about the authors, has been added to Korp.

Den svenska språkteknologiska konferensen (SLTC) äger rum den 25–27 november med fyra workshopar onsdagen den 25 november och huvudkonferensen torsdag–fredag den 26–27 november. Det är den åttonde konferensen i raden och den hålls vartannat år. I år är det ett helt digitalt arrangemang med mer än 200 registrerade deltagare från hela världen.

Pretrained model for lemmatization of Swedish

2020-11-20 Aleksandrs (Sasha) Berdicevskis

We have added a pretrained model for lemmatization of Swedish text to our model collection.

Miljoner till projekt om terrorismens historia

2020-11-13 Jenny Kierkemann

Det tvärvetenskapliga projektet SweTerror tilldelas drygt 22 miljoner kronor i årets utlysning av Digitalisering och kulturarv (DIGARV). Projektet förenar talteknologisk och humanistisk analys och är ett samarbete mellan Språkbanken Tal vid Kungliga tekniska högskolan (KTH), Centrum för digital humaniora (CDH) och Språkbanken Text vid Göteborgs universitet.

2nd International Workshop on Computational Approaches to Historical Language Change 2021 (LChange'21)

2020-11-12 Nina Tahmasebi

Språkbanken Text, and projektet Towards Computational Lexical Semantic Change Detection organiserar en andra workshop inom LChange-serien om beräkningsmodeller för historiska språkförändringar som är planerad till augusti 2021.

Digitalt seminarium: Maskinöversättning och öppna språkdata

2020-10-29 Jenny Kierkemann

Den 12 november 2020 arrangerar Isof och Språkbanken Sam ett digitalt seminarium om maskinöversättning och om behovet av att identifiera och samla in språkresurser från svenska myndigheter.

Pseudonymization of learner essays as a way to meet GDPR requirements

2020-10-27 Elena Volodina

This blog is based on joint research with Yousuf (Samir) Ali Mohammed, Arild Matsson, Beáta Megyesi and Sandra Derbring Access to language data is an obvious prerequisite for research in digital humanities in general, and for the development of NLP-based tools in particular.

Lär dig mer om crowdsourcing och maskintranskribering

2020-10-20 Jenny Kierkemann

Under oktober och november 2020 arrangerar Språkbanken Sam flera webbinarier om crowdsourcing och maskintranskribering.

Flerordingar: ord som består av flera delar

2020-10-15 Yvonne Adesam

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): ’huset’, ’superstor’, ’bloggade’. De flesta skulle nog säga att ’idag’ är ett ord, men hur är det om vi skriver det (också rättstavat) ’i dag’ då? ’Mont Blanc-tunneln’? ’Röda blodkroppar’?

Stort deltagade vid årskonferens inom CLARIN (Common Language Resources and Technology Infrastructure)

2020-10-12 Jenny Kierkemann

Språkbanken Text är ett CLARIN (auktoriserat) B-center och därför även en viktig komponent i den europeiska forskningsinfrastrukturen CLARIN ERIC. Förra veckan gick den årliga CLARIN-konferensen av stapeln virtuellt, vilket möjliggjorde att flera av oss på Språkbanken Text kunde delta.

Page manager: sb-webb