Meny

Nyheter

Sida 1
Språkbanken Text har tillsammans med Kungliga Biblioteket, forskningsinstitutet RISE och AI Innovation of Sweden beviljats projektmedel från Vinnova för projektet "SuperLim: en svensk testmängd för språkmodeller" (2020-2021).

Projektet ska lägga grunden för en testbädd för svenska språkmodeller liknande dem som redan existerar för engelska språket: GLUE och SuperGLUE. En sådan testbädd behövs för att vi ska kunna få bättre förståelse för hur väl de språkmodeller som vi utvecklar för svenska språket fungerar.

Hur väl en språkmodell fungerar handlar inte bara om korrekthet utan även om att kartlägga vilka snedvridningar modellerna ärver av den underliggande datan de har blivit tränade på. Säg exempelvis att en språkmodell är tränad på stora mängder text där det inte är ovanligt att uttrycka sig rasistiskt. Detta skulle kunna leda till att rasistiska strukturer kodas in i språkmodellen, vilket kan ge förödande konsekvenser om modellen senare används inom stödsystem för exempelvis vem en organisation ska anställa eller för hur en myndighet ska fatta ett beslut. 

Även om det förstås alltid är viktigt att förhålla sig kritisk till den datan man tränar en modell på, så räcker inte det på långa vägar för att få en förståelse för hur en specifik språkmodell fungerar. Dels för att datamängderna typiskt är så pass stora att de är omöjliga att överblicka, dels för att vad en språkmodell lär sig av datamängderna kan vara något som uttrycks ytterst subtilt i den underliggande datan. Så det finns helt enkelt ett stort behov för en väl genomarbetad testbädd för våra svenska språkmodeller, inte bara för forskningen inom språkteknologi och AI utan för hela vårt samhälle där språkmodeller alltmer börjar användas, och det här projektet syftar till att lägga en solid grund för en sådan testbädd.

Se även: Projekt om svenska språkmodeller får forskningsmedel
 

Språkbanken releases pretrained models for POS tagging and dependency parsing of Swedish texts, as well as a list of available Swedish embeddings

We have added several pretrained Swedish models to our downloadable resources. If you want to add morphological or syntactic annotation to a Swedish text, but do not have time to a perform a full-scale investigation in order to find out which tools yield best results and what they have to be trained on, do not worry: we have done the work for you. With our models, state-of-the-art tagging and parsing should be easy.

If you need POS and MSD tags (SUC style), choose one of the six POS models (each with its own advantages). If you need dependency annotation (Mamba-Dep style), choose one of the two syntactic models. If you are looking for Swedish embeddings (which may serve many useful purposes), have a look at the list we compiled.

Using the models does not require deep knowledge of natural language processing or advanced programming skills.

More to come.

Läs i vår blogg om en syntaktisk beskrivningsmodell för modern svensk text.

Till Språkbanksbloggen

Språkbanken Text organiserar en workshop om språkförändringar under årets SLTC2020 i Göteborg, i november.

För två år sedan höll vi en allra första workshop om beräkningsmodeller för språkförändringar i Stockholm, med Susanne Vejdemo och Lena Rogström som våra plenartalare. Det blev ett mycket lyckat event som sammanförde metodutvecklare med metodanvändare och forskare som på ett eller annat sätt studerar eller behöver handskas med språkförändringar i sitt arbete. Årets uppföljning är hos oss i Göteborg och ni är varmt välkomna att delta, även utan egen presentation, eller föreslå en presentation. Vi är inkluderande av all typ av forskning som tangerar språkförändringar, och som har ett behov, eller skulle dra nytta, av digitala metoder.

Mer information finns här: https://languagechange.org/events/2020-sltc-lcworkshop/

Korp offers a lot of different corpus collections for various types of search (and research). Swedish as a Second Language (L2) is one of the subcategories of the language that can be studied with the help of Korp. At the moment, Korp provides access to five L2 corpora through its interface. Read more in this blog post by NLP researcher Elena Volodina.

Språkbanksbloggen

An example sentence from TalbankenSBX
Read our new blogpost about five different versions of Talbanken, one of the most important Swedish corpora, and about how not to confuse them

A new blogpost is out, and it is about Talbanken, one of the most widely used and important Swedish corpora. There exist at least five versions of this treebank, and the purpose of the post is to reduce ambiguity of the name ”Talbanken”, which sometimes leads to confusion. The post lists the five versions, explains the basic differences between them and suggests unambiguous version names.

- Kan artificiell intelligens ändra lagstiftningen? Det var en av forskningsfrågorna som presenterades vid Språkbanken Texts interna workshop den 8/6.

Sedan i höstas anordnar Språkbanken en workshop i slutet av varje termin där alla medarbetare får tillfälle att visa varandra vad de har arbetat med under det gångna halvåret. Måndagens workshop var innehållsrik och bjöd på 20 presentationer. Till exempel fick vi höra Peter berätta om arbetet med Twitterdata, Anne och Martin gav oss en förhandsvisning av nyheter i Sparvs Pipeline, David beskrev ett experiment han utövat med hjälp av crowdsourcing och Johan demonstrerade den Västsvenska litteraturkartan.

Här hittar du alla ämnena som presenterades. Är du intresserad av att veta mer, välkommen att höra av dig till Språkbanken! 

På vår personalsida hittar du kontaktuppgifterna.
 

Svenskan har länge saknat en diakronisk korpus, det vill säga en digitaliserad samling texter som sträcker sig över lång tid. Men nu arbetar Eva Pettersson, datorlingvist vid Uppsala universitet, med att ta fram en textsamling på flera miljarder ord som kommer röra sig från fornsvenska till nutid.
Eva-Petterson_500
Eva Pettersson, datorlingvist vid Uppsala universitet.
Fotograf: Mikael Wallerstedt

Korpusar är stora textsamlingar eller transkriptioner av taldata. De är sammanställda för att ge en representativ bild av exempelvis ett visst språk, och med hjälp av en korpus kan en forskare använda autentiska exempel för att undersöka språket.

– En diakronisk korpus innehåller texter över en lång tidsperiod. Då kan till exempel språkhistoriker få bättre överblick över hur språkutvecklingen sett ut för svenskan ur ett historiskt perspektiv och de kan även lättare jämföra med andra språk. Vi tror att det är värdefullt att ta fram den här korpusen just för att möjliggöra forskning i stor skala på svenskans utveckling, berättar Eva Pettersson.

Diakroniska korpusar finns redan för många andra språk men är en lucka just när det gäller svenskan. Idag får den som vill titta på språkutvecklingen på ett övergripande plan eller inom en viss genre som till exempel prosa, leta på många olika ställen.
– Det är krångligt och tidskrävande och texterna finns ofta i många olika format. Vi vill göra det betydligt enklare.

Projektet startade på initiativ av Lars Borin, föreståndare för Nationella språkbanken och professor i språkvetenskaplig databehandling, och är även en del av Swe-Clarin, vars syfte är att göra digitala språkresurser tillgängliga för forskare inom alla discipliner, särskilt inom humaniora och samhällsvetenskap. 

– Målgruppen är som sagt i första hand språkhistoriker, men även andra forskare som exempelvis litteraturvetare eller historiker kan ha stor användning av detta. Textsamlingen kommer även vara till nytta för datorlingvister och språkteknologer som behöver träna olika program på en stor mängd data, säger Eva Pettersson.

I ett första steg tittade hon på hur diakroniska korpusar ser ut för andra språk för att ha något att utgå ifrån. Efter det gick hon vidare och undersökte vad det finns för genrer inom svenskan som var lämpliga att använda.
– Jag intervjuade också språkhistoriker för att få en bild av vad som är viktigt och vilken typ av texter som skulle finnas med i korpusen. I första hand har vi valt att ha med genrer som finns representerade för hela tidsperioden, till exempel religion, prosa, domprotokoll, lagar och viss vetenskaplig text.

Andra frågor som hon ställts inför handlar också om format, hur korpusen ska se ut och hur man får in texter.
– Kriterierna är att alla texterna ska kunna delas vidare fritt utan förbehåll, det gör det hela lite krångligare och kan vara problematiskt med nutida text, berättar Eva Pettersson och tillägger att korpusen är tänkt att kunna växa med tiden.

Planen är att släppa en första fritt tillgänglig version av korpusen innan 2020 är slut. Textsamlingen kommer att finnas tillgänglig på en webbsida där man ska kunna ladda ner texter exempelvis efter årtal och genre. 

– I ett första steg kommer visst material att vara taggat, det vill säga märkt med lingvistisk information som ordklass, morfologi och betydelse. Senare kommer vi att släppa nya versioner och slutmålet är att hela korpusen ska vara taggad. På sikt kommer man också att kunna komma åt korpusen genom Språkbanken Texts sökverktyg Korp, säger hon.

Den svenska trädbanken Eukalyptus består av en samling av moderna svenska texter från fem olika genrer om sammanlagt nära 100 000 ord. Eukalyptus har nu släppts i en ny version.

Texterna har märkts upp med ordklasser, morfologi och betydelse, samt syntaktisk analys. I den nya versionen har vi gått igenom och rättat uppmärkningen av ordklasser och morfologi. Ytterligare en ny version planeras inom en snar framtid med uppdaterad syntaktiska uppmärkning.

Den nya versionen av Eukalyptus-korpusen finns här.

Läs mer i Språkbanksbloggen.

Temamodeller är vanliga inom digitala studier av stora textmängder och används flitigt inom digital humaniora, i detta tredje avsnitt om en data-intensiv forskningsmetodologi diskuterar vi möjligheterna och begränsningarna med denna metod som forskningsverktyg.

Till Språkbanksbloggen

Sida 1