Meny

Nyheter

Sida 1
I förra blogginlägget fick vi läsa om korsord, en populär sysselsättning så här under sommarmånaderna.

En relaterad hobby om man vill vara lite mer social är förstås att spela Scrabble – även känt under det svenska namnet Alfapet, samt i olika digitala versioner, bland annat Wordfeud. För den som mot förmodan inte känner till spelet går det ut på att lägga ut bokstäver för att forma ord på en spelplan i ett korsordsliknande rutmönster. Olika bokstäver ger olika poäng, och vissa rutor …
Fortsätt läsa ”Vilket ord är bäst?”

Till Språkbanksbloggen
Nu släpper Språkbanken Text SuperLim 1.0, en datasamling som kan användas för testning och utvärdering av svenska språkmodeller. Släppet är en del i projektet SuperLim, ett samarbete med aktörer inom språkteknologi och artificiell intelligens.

Det saknades länge stora språkmodeller för svenska. Nyligen har dock flera språkmodeller utvecklats, bland annat av KB-labb, och fler är under utveckling där och på annat håll. Modellerna tränas på stora mängder text för att kunna analysera och strukturera texter och förstå språk. Modellerna kan till exempel sammanfatta texter, mäta hur lika de är eller göra analys av vilken attityd som uttrycks i delar av texten. Språkmodeller kan förbättra alla typer av språkteknologiska tillämpningar för svenska texter och vara till användning både inom forskningen och den privata och offentliga sektorn. 

–  Det är jättebra att vi äntligen har språkmodeller på svenska, däremot är det svårt att utvärdera dem. Därför har vi tagit fram en samling med tretton utvärderingsmängder som vi kallar SuperLim. Alla aktörer kan använda samlingen för att testa modellerna och se hur bra de är på att förstå språket, berättar Aleksandrs Berdicevskis som är forskare på Språkbanken Text och en av deltagarna i projektet.

Projektet är ett samarbete mellan Språkbanken Text, KB-labb, forskningsinstitutet RISE och AI Sweden och använder en strategi för utvärdering som delvis följer den engelska förlagan (Super)Glue.

En viktig del i utvärderingen är att ta reda på om modellerna har statistiska skevheter, exempelvis att modellerna kodar in fördomar, för att i så fall kunna hantera dem på lämpligt sätt.

–  Tidigare studier visar att språkmodellerna är känsliga för vilken data de tränas på och de speglar ofta de fördomar som vi människor har och som funnits med i träningsdata. Det kan till exempel handla om rasistiska fördomar eller att en språkmodell antar att en läkare är en man och en sjuksköterska är en kvinna. Det är viktigt att utvärdera och förbättra språkmodellerna så att vi kan motverka de fördomar som blir inbyggda i modellerna, säger projektdeltagaren Yvonne Adesam, Språkbanken Text.

Läs mer på projektsidan >>

Datasamlingen SuperLim 1.0 >>

Snart är det semester, och då är korsord en klassiker.

Särskilt nu i isoleringstider när vi ändå inte bör umgås, vad är då bättre än att sitta i hammocken med en välvässad blyertspenna, ett bra sudd, SAOL-appen, och ett korsord? Det finns många tidningar att köpa med korsord av olika svårighetsgrader, för dig som tycker om att lösa korsord. Men det är lite svårare om du skulle vilja tillverka ditt alldeles egna korsord. Tills nu – som ett led i Språkbankens service …
Fortsätt läsa ”Gör ditt eget korsord!”

Till Språkbanksbloggen
Mänskliga språk förändras hela tiden, men vad är det som ligger bakom utvecklingen? I juli drar projektet Cassandra igång där en grupp forskare från Språkbanken Text vill se om det går att förutsäga språkliga förändringar.

Språk och språkliga förändringar intresserar både forskare och allmänhet. Ett exempel på hur språket förändrats i nutid är ordet grymt som utvecklat en ny positiv betydelse som nästan blivit dominerande och dessutom i princip är motsatsen till ordets ursprungliga betydelse. Ett annat exempel är att man idag allt oftare säger starkare än dig istället för starkare än du.

– Vi vet att språket förändras hela tiden, det kan till exempel handla om att vi som användare förenklar språket eller att det utvecklas i kontakt med andra språk. Vi vill förklara förändringar som redan skett och samtidigt se om det går att förutspå vad som sker med språket framåt, berättar Aleksandrs Berdicevskis, projektledare för Cassandra och fortsätter:

– Den här frågan har fått lite uppmärksamhet inom språkvetenskapen. Men vi behöver försöka besvara den för att se hur troligt det är att de existerande förklaringarna stämmer. I Cassandra kommer vi också undersöka det som blivit felaktigt.

Gruppen kommer att använda sig av stora textmängder, så kallade korpusar, både för den kvantitativa undersökningen och för utvärderingen av de förklaringsmodeller som redan finns.

– Vi kommer att använda den data som finns i våra korpusar som kommer från inlägg på sociala medier de senaste tjugo åren, till exempel Flashback, Familjeliv och Twitter, säger Aleksandrs Berdicevskis och berättar att de kommer studera materialet för de första femton åren och låtsas som att de inte vet vad som händer de följande fem åren.

– Vi samlar all information och alla teorier och så förutspår vi vad som ska hända med språket kommande år. Det kommer inte att bli ett hundraprocentigt resultat, alla förändringar beror inte på språket utan kan handla om saker som sker i samhället som till exempel att vi nu har många ord kopplade till Coronapandemin. Det är svårt att förutspå.

– Förhoppningen och målet är att vi kommer kunna förutsäga en del och att vi kan formalisera förutsägningarna, säger Aleksandrs Berdicevskis och tillägger att gruppen parallellt kommer att titta på interaktionen i sociala medier och vilka sociala faktorer som påverkar språklig förändring.

Målet för projektet Cassandra är att ge både teoretiska resultat, nya språkresurser där korpusarna berikas med information både om språkförändringar och om sociala nätverk och dess strukturer, och metoder.

– Metoderna kan förhoppningsvis komma till nytta för alla forskare som är intresserade av förändringar i samhället, säger Aleksandrs Berdicevskis.

Läs mer på projektets webbplats >>

Aleksandrs Berdicevskis, forskare vid Språkbanken Text
Aleksandrs (Sasha) Berdicevskis, forskare vid Språkbanken Text
Foto: Sven Lindström
 
Om Cassandra
Pågår
1 juli 2021 – 30 juni 2024
Projektdeltagare
Aleksandrs Berdicevskis (projektledare)
Evie Coussé 
Yvonne Adesam
Nina Tahmasebi
Finansiering
Marcus and Amalia Wallenberg Foundation (anslag dnr MAW 2020.0060)
Lövet
Nationella språkbanken bjuder in till höstworkshop måndag 18 oktober 2021 i Stockholm. Temat för årets workshop är historia, i vid bemärkelse. Vi kommer att ta upp hur språk- och talteknologi används för att belysa historiska perspektiv, oavsett om det är inom mer traditionella historiska frågeställningar, diakronisk språkvetenskap, etologi och talets utveckling, eller samhällsutveckling.

Läs mer på språkbanken.se

This post is based on joint work with Gerlof Bouma. Illustrations by Jan and Julija.

Here’s a sad story (it’s fictional, but sad nonetheless). Matthias, Pernilla and Ingvar were working as computational linguists, and within a certain project painstakingly created a ingenious dataset. The community, however, did not show much interest in the dataset and it was largely forgotten. Years went. Matthias died. Pernilla invented a clever algorithm and became a multi-billionaire. Ingvar moved to USA, happened to see a crime and …
Fortsätt läsa ”Documentation: a (fictional) sad story with a (real) happy ending”

Till Språkbanksbloggen
Nu kan du snart göra sökningar i sammanlagt 36 olika bibelöversättningar på en och samma gång. Fredagen 28 maj offentliggörs en digital textsamling där bland annat forskare från Göteborgs universitet har samlat och digitaliserat bibeltexter från 1300-talet till idag. Samlingen är unik i sitt slag och kan användas för att göra automatiserade jämförelser mellan olika tidsepoker och språk.

– Idén att koppla ihop bibeltexter är inte ny – det har gjorts tidigare – men de flesta samlingar är inte offentligt tillgängliga. Vi hoppas på att det arbeta vi lagt på upphovsrättsfrågor ska göra att fler kan använda den här resursen, säger Evie Coussé, forskare på institutionen för språk och litteraturer vid Göteborgs universitet som leder arbetet.

Bibeltexterna har samlats in inom ramen för forskningsprojektet Uppkomsten av komplexa verbkonstruktioner i germanska språk och täcker sammanlagt fyra olika språk: engelska, nederländska, svenska och tyska. Gerlof Bouma på Språkbanken Text vid Göteborgs universitet har varit med och byggt den digitala textsamlingen.

Läs hela nyheten på gu.se >>

UPDATED DEADLINE: the deadline for submission has been extended to May 3rd, 23:59 AoE.

Språkbanken Text, and the project Towards Computational Lexical Semantic Change Detection are organizing a second LChange workshop on Computational Approaches to Historical Language Change in August, 2021.

The workshop builds upon its first iteration in 2019, where we received over 50 submissions and had over 65 attendees. Just like the first one, the second LChange workshop will be co-located with ACL (2021).

The call for papers will be similar to last time: all aspects around computational approaches to historical language change with the focus on digital text corpora.  

Like LChange'19, this edition will host two keynotes.

We are looking forward to your submission and participation!

More information on: https://languagechange.org/events/2021-acl-lchange/

Sparv logo
Nu finns det en ny version av Språkbankens textanalysverktyg Sparv. En ny funktion som har tillkommit i denna version är den så kallade preloadern.

Den nya preloadern i Sparv snabbar upp annoteringsprocessen om man annoterar många små filer. Utöver det har vi fixat många buggar samt jobbat på att förbättra användarupplevelsen, t.ex. genom att ge bättre återkoppling när någonting går snett och genom att förtydliga dokumentationen. För en komplett översikt över alla nya funktioner, förbättringar och buggfixar, se changeloggen här.

All information om hur man installerar och använder Sparv finns på https://spraakbanken.gu.se/sparv.

This blog is based on a joint work by Elena Volodina, Therese Lindström Tiedemann and Yousuf Ali Mohammed within the RJ-funded project L2 profiles.

Three annotators have contributed to this work: Stellan Petersson (University of Gothenburg), Beatrice Silén (Helsinki university) and Maisa Lauriala (Helsinki university). Do you know how many prefixes or suffixes Swedish language has? Which ones? Different sources state different numbers, e.g Thorell (1984) lists approx. 90 derivational suffixes and about 50 derivatonal prefixes; Hultman (2003) names 200 derivationa affixes …
Fortsätt läsa ”Swedish derivational morphology with CoDeRooMor”

Till Språkbanksbloggen
Sida 1