Meny

Nyheter

Sida 1
I förra veckan gav Nina Tahmasebi, docent i språkteknologi vid Språkbanken Text, en workshop i digitala metoder och digital text inom ramen för forskarkursen i Digital Literacy för humaniora och samhällsvetenskap.

Videoinspelningar från de två sessionerna finns här:

Workshop on Digital Literacy, 2020 (på engelska):
https://play.gu.se/media/Tahmasebi-Digital-Literacy-part1/0_6zp88zs4
https://play.gu.se/media/Tahmasebi-Digital-Literacy-part2/0_ewa05dxa
 

Kontakt: Nina Tahmasebi

I slutet av augusti arrangerade Isof med hjälp av Språkbanken Sam en digital heldag med föreläsningar om språkteknologi och dess betydelse för de små språkens bevarande och utveckling. Lars Borin, föreståndare för Nationella språkbanken och professor vid Institutionen för svenska språket vid Göteborgs universitet, berättade om sitt arbete med korpusar och vilken betydelse de har för den språkteknologiska utvecklingen.

Läs mer på Nationella språkbankens webbsida.
Språkbanken Text har tillsammans med Kungliga Biblioteket, forskningsinstitutet RISE och AI Innovation of Sweden beviljats projektmedel från Vinnova för projektet "SuperLim: en svensk testmängd för språkmodeller" (2020-2021).

Projektet ska lägga grunden för en testbädd för svenska språkmodeller liknande dem som redan existerar för engelska språket: GLUE och SuperGLUE. En sådan testbädd behövs för att vi ska kunna få bättre förståelse för hur väl de språkmodeller som vi utvecklar för svenska språket fungerar.

Hur väl en språkmodell fungerar handlar inte bara om korrekthet utan även om att kartlägga vilka snedvridningar modellerna ärver av den underliggande datan de har blivit tränade på. Säg exempelvis att en språkmodell är tränad på stora mängder text där det inte är ovanligt att uttrycka sig rasistiskt. Detta skulle kunna leda till att rasistiska strukturer kodas in i språkmodellen, vilket kan ge förödande konsekvenser om modellen senare används inom stödsystem för exempelvis vem en organisation ska anställa eller för hur en myndighet ska fatta ett beslut. 

Även om det förstås alltid är viktigt att förhålla sig kritisk till den datan man tränar en modell på, så räcker inte det på långa vägar för att få en förståelse för hur en specifik språkmodell fungerar. Dels för att datamängderna typiskt är så pass stora att de är omöjliga att överblicka, dels för att vad en språkmodell lär sig av datamängderna kan vara något som uttrycks ytterst subtilt i den underliggande datan. Så det finns helt enkelt ett stort behov för en väl genomarbetad testbädd för våra svenska språkmodeller, inte bara för forskningen inom språkteknologi och AI utan för hela vårt samhälle där språkmodeller alltmer börjar användas, och det här projektet syftar till att lägga en solid grund för en sådan testbädd.

Se även: Projekt om svenska språkmodeller får forskningsmedel
 

Språkbanken releases pretrained models for POS tagging and dependency parsing of Swedish texts, as well as a list of available Swedish embeddings

We have added several pretrained Swedish models to our downloadable resources. If you want to add morphological or syntactic annotation to a Swedish text, but do not have time to a perform a full-scale investigation in order to find out which tools yield best results and what they have to be trained on, do not worry: we have done the work for you. With our models, state-of-the-art tagging and parsing should be easy.

If you need POS and MSD tags (SUC style), choose one of the six POS models (each with its own advantages). If you need dependency annotation (Mamba-Dep style), choose one of the two syntactic models. If you are looking for Swedish embeddings (which may serve many useful purposes), have a look at the list we compiled.

Using the models does not require deep knowledge of natural language processing or advanced programming skills.

More to come.

Läs i vår blogg om en syntaktisk beskrivningsmodell för modern svensk text.

Till Språkbanksbloggen

Språkbanken Text organiserar en workshop om språkförändringar under årets SLTC2020 i Göteborg, i november.

För två år sedan höll vi en allra första workshop om beräkningsmodeller för språkförändringar i Stockholm, med Susanne Vejdemo och Lena Rogström som våra plenartalare. Det blev ett mycket lyckat event som sammanförde metodutvecklare med metodanvändare och forskare som på ett eller annat sätt studerar eller behöver handskas med språkförändringar i sitt arbete. Årets uppföljning är hos oss i Göteborg och ni är varmt välkomna att delta, även utan egen presentation, eller föreslå en presentation. Vi är inkluderande av all typ av forskning som tangerar språkförändringar, och som har ett behov, eller skulle dra nytta, av digitala metoder.

Mer information finns här: https://languagechange.org/events/2020-sltc-lcworkshop/

Korp offers a lot of different corpus collections for various types of search (and research). Swedish as a Second Language (L2) is one of the subcategories of the language that can be studied with the help of Korp. At the moment, Korp provides access to five L2 corpora through its interface. Read more in this blog post by NLP researcher Elena Volodina.

Språkbanksbloggen

An example sentence from TalbankenSBX
Read our new blogpost about five different versions of Talbanken, one of the most important Swedish corpora, and about how not to confuse them

A new blogpost is out, and it is about Talbanken, one of the most widely used and important Swedish corpora. There exist at least five versions of this treebank, and the purpose of the post is to reduce ambiguity of the name ”Talbanken”, which sometimes leads to confusion. The post lists the five versions, explains the basic differences between them and suggests unambiguous version names.

- Kan artificiell intelligens ändra lagstiftningen? Det var en av forskningsfrågorna som presenterades vid Språkbanken Texts interna workshop den 8/6.

Sedan i höstas anordnar Språkbanken en workshop i slutet av varje termin där alla medarbetare får tillfälle att visa varandra vad de har arbetat med under det gångna halvåret. Måndagens workshop var innehållsrik och bjöd på 20 presentationer. Till exempel fick vi höra Peter berätta om arbetet med Twitterdata, Anne och Martin gav oss en förhandsvisning av nyheter i Sparvs Pipeline, David beskrev ett experiment han utövat med hjälp av crowdsourcing och Johan demonstrerade den Västsvenska litteraturkartan.

Här hittar du alla ämnena som presenterades. Är du intresserad av att veta mer, välkommen att höra av dig till Språkbanken! 

På vår personalsida hittar du kontaktuppgifterna.
 

Sida 1