Hoppa till huvudinnehåll

Alla nyheter

Välkommen till Nationella språkbankens höstworkshop

Fredagen den 16 oktober arrangerar Nationella språkbanken sin årliga höstworkshop. Värdskapet cirkulerar och i år är det Språkbanken Text på Göteborgs universitet som står som arrangör. Workshoppen, som har arrangerats sedan 2011, är vid det här laget en väletablerad företeelse och det kommer bli en heldag med språkteknologisk och språkvetenskaplig forskning i fokus.

– Den första höstworkshoppen gick av stapeln 17 oktober 2011 i Göteborg, då Språkbanken gjorde en offentlig lansering av den första versionen av forskningsverktyget Korp. Sedan dess har vi arrangerat en höstworkshop i oktober månad varje år, säger Markus Forsberg, föreståndare på Språkbanken Text.

Nationella språkbanken arbetar för att möjliggöra och/eller stödja forskning på språklig data. Tanken bakom den årliga workshoppen är därför att informera om nyheter från verksamheten och samtidigt nå ut till forskare som skulle kunna ha nytta av Nationella språkbankens arbete.

– I år riktar vi oss särskilt till språkteknologiska och språkvetenskapliga forskare, men alla intresserade är förstås varmt välkomna, fortsätter Markus.
Programmet för workshoppen är redan klart. Bland annat kommer det att handla om crowdsourcing för transkribering av dialekter och folkminnen, om textens roll i talteknologin och om en svensk diakronisk korpus. Det kommer dessutom finnas möjlighet att få en förhandsvisning av Språkbanken Texts importkedja för korpusannotering – Sparv 4.

markus
Markus Forsberg, föreståndare för Språkbanken Text.

Helt digital workshop

Som så många andra tillställningar det här året så kommer årets version av höstworkshoppen att hållas helt digitalt. Markus ser både fördelar och nackdelar med formatet.

– De personliga mötena, som varit ett viktigt inslag i våra höstworkshoppar, kommer tyvärr inte kunna ske i samma utsträckning. Men samtidigt är en digital workshop mer lättillgänglig för någon som inte bor i staden där workshoppen hålls, så det finns både fördelar och nackdelar.
Värdskapet för workshoppen cirkulerar numera mellan Språkbanken Text, Språkbanken Tal och Språkbanken Sam, som tillsammans bildar Nationella språkbanken. 
 

Workshop i digitala metoder och digital text

I förra veckan gav Nina Tahmasebi, docent i språkteknologi vid Språkbanken Text, en workshop i digitala metoder och digital text inom ramen för forskarkursen i Digital Literacy för humaniora och samhällsvetenskap.

Videoinspelningar från de två sessionerna finns här:

Workshop on Digital Literacy, 2020 (på engelska):
https://play.gu.se/media/Tahmasebi-Digital-Literacy-part1/0_6zp88zs4
https://play.gu.se/media/Tahmasebi-Digital-Literacy-part2/0_ewa05dxa
 

Så kan språkteknologi stärka små språk

I slutet av augusti arrangerade Isof med hjälp av Språkbanken Sam en digital heldag med föreläsningar om språkteknologi och dess betydelse för de små språkens bevarande och utveckling. Lars Borin, föreståndare för Nationella språkbanken och professor vid Institutionen för svenska språket vid Göteborgs universitet, berättade om sitt arbete med korpusar och vilken betydelse de har för den språkteknologiska utvecklingen.

Språkbanken Text deltar i ett projekt om utvärdering av svenska språkmodeller

Språkbanken Text har tillsammans med Kungliga Biblioteket, forskningsinstitutet RISE och AI Innovation of Sweden beviljats projektmedel från Vinnova för projektet "SuperLim: en svensk testmängd för språkmodeller" (2020-2021).

Projektet ska lägga grunden för en testbädd för svenska språkmodeller liknande dem som redan existerar för engelska språket: GLUE och SuperGLUE. En sådan testbädd behövs för att vi ska kunna få bättre förståelse för hur väl de språkmodeller som vi utvecklar för svenska språket fungerar.

Hur väl en språkmodell fungerar handlar inte bara om korrekthet utan även om att kartlägga vilka snedvridningar modellerna ärver av den underliggande datan de har blivit tränade på. Säg exempelvis att en språkmodell är tränad på stora mängder text där det inte är ovanligt att uttrycka sig rasistiskt. Detta skulle kunna leda till att rasistiska strukturer kodas in i språkmodellen, vilket kan ge förödande konsekvenser om modellen senare används inom stödsystem för exempelvis vem en organisation ska anställa eller för hur en myndighet ska fatta ett beslut. 

Även om det förstås alltid är viktigt att förhålla sig kritisk till den datan man tränar en modell på, så räcker inte det på långa vägar för att få en förståelse för hur en specifik språkmodell fungerar. Dels för att datamängderna typiskt är så pass stora att de är omöjliga att överblicka, dels för att vad en språkmodell lär sig av datamängderna kan vara något som uttrycks ytterst subtilt i den underliggande datan. Så det finns helt enkelt ett stort behov för en väl genomarbetad testbädd för våra svenska språkmodeller, inte bara för forskningen inom språkteknologi och AI utan för hela vårt samhälle där språkmodeller alltmer börjar användas, och det här projektet syftar till att lägga en solid grund för en sådan testbädd.

Se även: Projekt om svenska språkmodeller får forskningsmedel
 

Pretrained models for tagging and parsing Swedish are released

Språkbanken releases pretrained models for POS tagging and dependency parsing of Swedish texts, as well as a list of available Swedish embeddings

We have added several pretrained Swedish models to our downloadable resources. If you want to add morphological or syntactic annotation to a Swedish text, but do not have time to a perform a full-scale investigation in order to find out which tools yield best results and what they have to be trained on, do not worry: we have done the work for you. With our models, state-of-the-art tagging and parsing should be easy.

If you need POS and MSD tags (SUC style), choose one of the six POS models (each with its own advantages). If you need dependency annotation (Mamba-Dep style), choose one of the two syntactic models. If you are looking for Swedish embeddings (which may serve many useful purposes), have a look at the list we compiled.

Using the models does not require deep knowledge of natural language processing or advanced programming skills.

More to come.

2nd Workshop on Computational Detection of Language Change @SLTC2020 Gothenburg, Sweden

Språkbanken Text organiserar en workshop om språkförändringar under årets SLTC2020 i Göteborg, i november.

För två år sedan höll vi en allra första workshop om beräkningsmodeller för språkförändringar i Stockholm, med Susanne Vejdemo och Lena Rogström som våra plenartalare. Det blev ett mycket lyckat event som sammanförde metodutvecklare med metodanvändare och forskare som på ett eller annat sätt studerar eller behöver handskas med språkförändringar i sitt arbete. Årets uppföljning är hos oss i Göteborg och ni är varmt välkomna att delta, även utan egen presentation, eller föreslå en presentation. Vi är inkluderande av all typ av forskning som tangerar språkförändringar, och som har ett behov, eller skulle dra nytta, av digitala metoder.

Mer information finns här: https://languagechange.org/events/2020-sltc-lcworkshop/

Korp searches in Second Language data

Korp offers a lot of different corpus collections for various types of search (and research). Swedish as a Second Language (L2) is one of the subcategories of the language that can be studied with the help of Korp. At the moment, Korp provides access to five L2 corpora through its interface. Read more in this blog post by NLP researcher Elena Volodina.

Språkbanksbloggen

A blogpost about the history of Talbanken

Read our new blogpost about five different versions of Talbanken, one of the most important Swedish corpora, and about how not to confuse them

A new blogpost is out, and it is about Talbanken, one of the most widely used and important Swedish corpora. There exist at least five versions of this treebank, and the purpose of the post is to reduce ambiguity of the name ”Talbanken”, which sometimes leads to confusion. The post lists the five versions, explains the basic differences between them and suggests unambiguous version names.