Hoppa till huvudinnehåll

Nyheter

Samarbetsavtal mellan SLS och språkbankerna i Sverige och Finland

Svenska litteratursällskapet i Finland (SLS) har som syfte att samla, bearbeta och offentliggöra kunskapen om den svenska kulturens uppkomst och utveckling i Finland och att främja forskning rörande svenska språket och litteraturen i Finland.

Ett betydande resultat av SLS verksamhet är digitalt svenskt språkmaterial (text, ljud och video). 
För SLS är det viktigt att detta material blir så brett och så öppet tillgängligt som möjligt för ny forskning, vilket idag är synonymt med att det går att finna och hämta över internet, men SLS har inte ambitionen att själva bygga upp och underhålla den e-infrastruktur som detta skulle kräva.

Nationella språkbanken i Sverige, Språkbanken i Finland och SLS har därför slutit ett samarbetsavtal som innebär att de två språkbankerna åtar sig att tillgängliggöra delar av SLS digitala svenska språkmaterial för forskning och utbildning och möjligaste mån även för den intresserade allmänheten.

För de båda språkbankerna kommer avtalet att innebära ett betydande tillskott till deras finlandssvenska resurser. Materialet kommer från:
- SLS arkiv, som i sin verksamhet kontinuerligt insamlar nytt språkmaterial i digital form och digitaliserar äldre språkmaterial ur arkivets samlingar,
- SLS forskningsverksamhet som finansierar forskare och forskningsprojekt med villkor om att det material som uppkommer i forskningen ska tillgängliggöras och kunna användas av senare forskning och
- SLS utgivning som publicerar digitala utgåvor av författarskap eller andra materialhelheter och som digitaliserar SLS tryckta utgivning.
 

Synchronic and Diachronic Aspects of Kanashi

Boken Synchronic and Diachronic Aspects of Kanashi som kom ut i mars är ett resultat av två projektsamarbeten mellan Språkbanken Text, Uppsala universitet och University of California Santa Barbara.

Boken finns fritt tillgänglig att ladda ner på nätet (open access): 
https://doi.org/10.1515/9783110703245
Författare: Anju Saxena, Uppsala universitet och Lars Borin, Göteborgs universitet

Kanashi är ett sinotibetanskt språk som talas av knappt 2000 personer i en enda by, Malana i Kullu-distriktet i delstaten Himachal Pradesh i norra Indiens bergsområden. Byn är omgiven av byar där olika indoariska språk talas. Forskare har länge spekulerat om Kanashis historia: hur kommer det sig att språket talas i enbart en enda by, helt avskuret från sina närmaste språkliga släktingar?

Synchronic and Diachronic Aspects of Kanashi presenterar resultaten av synkroniska och diakroniska studier av Kanashi samt dess besläktade språk och kontaktspråk. Forskningsresultaten bygger till en del på automatisk bearbetning av fältarbetesdata som har samlats in i projekten.

mage book Synchronic and Diachronic Aspects of Kanashi
Kubord-samlingen

Språkbanken Text och KB-labb lanserar ny datasamling: Kubord

Språkbanken Text och KB-labb samarbetar runt att skapa nya forskningsdata för humanistisk och samhällsvetenskaplig forskning. Som ett första resultat av samarbetet lanserar vi nu datasamlingen Kubord, som består av strax under en miljard ord från det senaste decenniet av moderna dagstidningar. Dessa har tagits fram hos KB-labb genom att mata in tidningstexter i Språkbanken Texts språkteknologiska analyskedja Sparv. På så sätt har texterna delats upp i ord, så kallad tokenisering, och utökats med lingvistiska särdrag såsom ordklasser, betydelser och sammansättningsinformation.

Kubord innehåller upphovsrättsskyddat material och därför är orden inte försedda med kontextuell information, till skillnad från många andra datasamlingar inom Språkbanken. Trots detta är den här samlingen av stort värde för forskare som vill studera ordens förändring över modern tid. Kubord används bland annat i ordboksarbetet som pågår på Institutionen för svenska, flerspråkighet och språkteknologi. För ordboksredaktionen är det viktigt att kunna ta reda på hur vanliga orden är i modernt språk för att lättare kunna identifiera nyord och ord som inte används längre.

Kubord innehåller idag ord från Dagens Nyheter, Göteborgs-Posten och Svenska Dagbladet från åren 2010-2020, men samlingen kommer utökas löpande med nya tidningar och årgångar.

Kubord finns fritt tillgänglig för nedladdning från Språkbanken Texts hemsida och kan även utforskas i Språkbanken Texts forskningsverktyg Korp.

PRAO at the Department of Swedish

Hi!  Our names are Ebba and Anastasia.  We are fourteen years old and go to Montessoriskolan Kvarnhjulet in 8th grade.
Over the past three days we have had a chance to do an internship (=PRAO) at Gothenburg university with a researcher from Språkbanken, Elena Volodina, who is working on automatic support for Swedish as a second language. During these three days we have been doing many different things, but the first day was more of an introduction to what we were going to … Fortsätt läsa ”PRAO at the Department of Swedish”
https://unsplash.com/photos/fbCtFV3FkfE?utm_source=unsplash&utm_medium=referral&utm_content=creditShareLink

SuperLim 2.0 is on its way!

Last year, Språkbanken Text together with KB-Lab at the National Library of Sweden, RISE and AI Sweden created SuperLim, a collection of thirteen Swedish test sets for natural language understanding tasks, from sentiment analysis and semantic similarity estimation to coreference resolution and gender bias detection. SuperLim, inspired by the English collection(s) (Super)Glue, can be used to evaluate Swedish language models.

At the end 2021, the Vinnova agency, which funded the development of SuperLim, announced that it will also fund the subsequent project, SuperLim 2.0! The goal of the project is to complement the existing SuperLim with three important components which are currently missing:

  • training data for all the test sets that lack it
  • a baseline (a reference implementation with results, which the models can be compared against)
  • a leaderboard (a system where the evaluation results for different models can be continuously published and compared in a convenient way).

The work is expected to be completed by the end of 2022.

 

Photo by Florian Schmetz on Unsplash