Menu

News

Page 1
Språkbanken releases pretrained models for POS tagging and dependency parsing of Swedish texts, as well as a list of available Swedish embeddings

We have added several pretrained Swedish models to our downloadable resources. If you want to add morphological or syntactic annotation to a Swedish text, but do not have time to a perform a full-scale investigation in order to find out which tools yield best results and what they have to be trained on, do not worry: we have done the work for you. With our models, state-of-the-art tagging and parsing should be easy.

If you need POS and MSD tags (SUC style), choose one of the six POS models (each with its own advantages). If you need dependency annotation (Mamba-Dep style), choose one of the two syntactic models. If you are looking for Swedish embeddings (which may serve many useful purposes), have a look at the list we compiled.

Using the models does not require deep knowledge of natural language processing or advanced programming skills.

More to come.

Läs i vår blogg om en syntaktisk beskrivningsmodell för modern svensk text.

Till Språkbanksbloggen

Språkbanken Text is organizing a workshop on computational detection of language change @SLTC2020, Gothenburg, in November.

After a successful event at STLC 2018, we are happy to announce the 2nd Workshop on Computational Detection of Language Change. Following our 2018 workshop, we invite presentations but no full papers, to encourage participants from a wide range of fields. Presentation of previously published work is possible.

Find more information at https://languagechange.org/events/2020-sltc-lcworkshop/ , and our last event at https://languagechange.org/events/2018-sltc-lcworkshop/.

 

Welcome!

Korp offers a lot of different corpus collections for various types of search (and research). Swedish as a Second Language (L2) is one of the subcategories of the language that can be studied with the help of Korp. At the moment, Korp provides access to five L2 corpora through its interface. Read more in this blog post by NLP researcher Elena Volodina.

Språkbanksbloggen

An example sentence from TalbankenSBX
Read our new blogpost about five different versions of Talbanken, one of the most important Swedish corpora, and about how not to confuse them

A new blogpost is out, and it is about Talbanken, one of the most widely used and important Swedish corpora. There exist at least five versions of this treebank, and the purpose of the post is to reduce ambiguity of the name ”Talbanken”, which sometimes leads to confusion. The post lists the five versions, explains the basic differences between them and suggests unambiguous version names.

- Kan artificiell intelligens ändra lagstiftningen? Det var en av forskningsfrågorna som presenterades vid Språkbanken Texts interna workshop den 8/6.

Sedan i höstas anordnar Språkbanken en workshop i slutet av varje termin där alla medarbetare får tillfälle att visa varandra vad de har arbetat med under det gångna halvåret. Måndagens workshop var innehållsrik och bjöd på 20 presentationer. Till exempel fick vi höra Peter berätta om arbetet med Twitterdata, Anne och Martin gav oss en förhandsvisning av nyheter i Sparvs Pipeline, David beskrev ett experiment han utövat med hjälp av crowdsourcing och Johan demonstrerade den Västsvenska litteraturkartan.

Här hittar du alla ämnena som presenterades. Är du intresserad av att veta mer, välkommen att höra av dig till Språkbanken! 

På vår personalsida hittar du kontaktuppgifterna.
 

Svenskan har länge saknat en diakronisk korpus, det vill säga en digitaliserad samling texter som sträcker sig över lång tid. Men nu arbetar Eva Pettersson, datorlingvist vid Uppsala universitet, med att ta fram en textsamling på flera miljarder ord som kommer röra sig från fornsvenska till nutid.
Eva-Petterson_500
Eva Pettersson, datorlingvist vid Uppsala universitet.
Fotograf: Mikael Wallerstedt

Korpusar är stora textsamlingar eller transkriptioner av taldata. De är sammanställda för att ge en representativ bild av exempelvis ett visst språk, och med hjälp av en korpus kan en forskare använda autentiska exempel för att undersöka språket.

– En diakronisk korpus innehåller texter över en lång tidsperiod. Då kan till exempel språkhistoriker få bättre överblick över hur språkutvecklingen sett ut för svenskan ur ett historiskt perspektiv och de kan även lättare jämföra med andra språk. Vi tror att det är värdefullt att ta fram den här korpusen just för att möjliggöra forskning i stor skala på svenskans utveckling, berättar Eva Pettersson.

Diakroniska korpusar finns redan för många andra språk men är en lucka just när det gäller svenskan. Idag får den som vill titta på språkutvecklingen på ett övergripande plan eller inom en viss genre som till exempel prosa, leta på många olika ställen.
– Det är krångligt och tidskrävande och texterna finns ofta i många olika format. Vi vill göra det betydligt enklare.

Projektet startade på initiativ av Lars Borin, föreståndare för Nationella språkbanken och professor i språkvetenskaplig databehandling, och är även en del av Swe-Clarin, vars syfte är att göra digitala språkresurser tillgängliga för forskare inom alla discipliner, särskilt inom humaniora och samhällsvetenskap. 

– Målgruppen är som sagt i första hand språkhistoriker, men även andra forskare som exempelvis litteraturvetare eller historiker kan ha stor användning av detta. Textsamlingen kommer även vara till nytta för datorlingvister och språkteknologer som behöver träna olika program på en stor mängd data, säger Eva Pettersson.

I ett första steg tittade hon på hur diakroniska korpusar ser ut för andra språk för att ha något att utgå ifrån. Efter det gick hon vidare och undersökte vad det finns för genrer inom svenskan som var lämpliga att använda.
– Jag intervjuade också språkhistoriker för att få en bild av vad som är viktigt och vilken typ av texter som skulle finnas med i korpusen. I första hand har vi valt att ha med genrer som finns representerade för hela tidsperioden, till exempel religion, prosa, domprotokoll, lagar och viss vetenskaplig text.

Andra frågor som hon ställts inför handlar också om format, hur korpusen ska se ut och hur man får in texter.
– Kriterierna är att alla texterna ska kunna delas vidare fritt utan förbehåll, det gör det hela lite krångligare och kan vara problematiskt med nutida text, berättar Eva Pettersson och tillägger att korpusen är tänkt att kunna växa med tiden.

Planen är att släppa en första fritt tillgänglig version av korpusen innan 2020 är slut. Textsamlingen kommer att finnas tillgänglig på en webbsida där man ska kunna ladda ner texter exempelvis efter årtal och genre. 

– I ett första steg kommer visst material att vara taggat, det vill säga märkt med lingvistisk information som ordklass, morfologi och betydelse. Senare kommer vi att släppa nya versioner och slutmålet är att hela korpusen ska vara taggad. På sikt kommer man också att kunna komma åt korpusen genom Språkbanken Texts sökverktyg Korp, säger hon.

The Swedish treebank Eukalyptus consists of a collection of contemporary Swedish texts from five different genres of close to 100 000 Words. Eukalyptus has now been released in a new version.

The texts have been annotated with parts of speech, morphology, and senses, as well as syntactic structure. In the new version we have corrected the part-of-speech and morphological annotation. Another new version is planned for the near future, with updated syntactic annotation.

The Eukalyptus-corpus can be downloaded here.

Read more in the Språkbanken blog.

Temamodeller är vanliga inom digitala studier av stora textmängder och används flitigt inom digital humaniora, i detta tredje avsnitt om en data-intensiv forskningsmetodologi diskuterar vi möjligheterna och begränsningarna med denna metod som forskningsverktyg.

Till Språkbanksbloggen

Två nya resurser för utvärdering av OCR finns nu tillgängliga för nedladdning hos Språkbanken Text.

Två nya resurser för utvärdering av OCR finns nu tillgängliga för nedladdning:
(1) Svensk fraktur 1626–1816 innehåller ett urval av digitaliserade versioner av äldre frakturtryck. Materialet digitaliserades av Göteborgs universitetsbibliotek (UB) och består av 44 titlar. En lista över de tillgängliga titlarna med motsvarande libris-id och publiceringslänk finns här.
(2) Svenska tidningar 1818–1870 innehåller 106 sidor från 53 slumpmässigt valda svenska tidningar som digitaliserades av Kungliga biblioteket (KB). Tidningslistan finns här.

Resurserna kan laddas ner från resurssidan.

Page 1