Meny

Alla nyheter

Sida 1
I förra blogginlägget fick vi läsa om korsord, en populär sysselsättning så här under sommarmånaderna.

En relaterad hobby om man vill vara lite mer social är förstås att spela Scrabble – även känt under det svenska namnet Alfapet, samt i olika digitala versioner, bland annat Wordfeud. För den som mot förmodan inte känner till spelet går det ut på att lägga ut bokstäver för att forma ord på en spelplan i ett korsordsliknande rutmönster. Olika bokstäver ger olika poäng, och vissa rutor …
Fortsätt läsa ”Vilket ord är bäst?”

Till Språkbanksbloggen
Nu släpper Språkbanken Text SuperLim 1.0, en datasamling som kan användas för testning och utvärdering av svenska språkmodeller. Släppet är en del i projektet SuperLim, ett samarbete med aktörer inom språkteknologi och artificiell intelligens.

Det saknades länge stora språkmodeller för svenska. Nyligen har dock flera språkmodeller utvecklats, bland annat av KB-labb, och fler är under utveckling där och på annat håll. Modellerna tränas på stora mängder text för att kunna analysera och strukturera texter och förstå språk. Modellerna kan till exempel sammanfatta texter, mäta hur lika de är eller göra analys av vilken attityd som uttrycks i delar av texten. Språkmodeller kan förbättra alla typer av språkteknologiska tillämpningar för svenska texter och vara till användning både inom forskningen och den privata och offentliga sektorn. 

–  Det är jättebra att vi äntligen har språkmodeller på svenska, däremot är det svårt att utvärdera dem. Därför har vi tagit fram en samling med tretton utvärderingsmängder som vi kallar SuperLim. Alla aktörer kan använda samlingen för att testa modellerna och se hur bra de är på att förstå språket, berättar Aleksandrs Berdicevskis som är forskare på Språkbanken Text och en av deltagarna i projektet.

Projektet är ett samarbete mellan Språkbanken Text, KB-labb, forskningsinstitutet RISE och AI Sweden och använder en strategi för utvärdering som delvis följer den engelska förlagan (Super)Glue.

En viktig del i utvärderingen är att ta reda på om modellerna har statistiska skevheter, exempelvis att modellerna kodar in fördomar, för att i så fall kunna hantera dem på lämpligt sätt.

–  Tidigare studier visar att språkmodellerna är känsliga för vilken data de tränas på och de speglar ofta de fördomar som vi människor har och som funnits med i träningsdata. Det kan till exempel handla om rasistiska fördomar eller att en språkmodell antar att en läkare är en man och en sjuksköterska är en kvinna. Det är viktigt att utvärdera och förbättra språkmodellerna så att vi kan motverka de fördomar som blir inbyggda i modellerna, säger projektdeltagaren Yvonne Adesam, Språkbanken Text.

Läs mer på projektsidan >>

Datasamlingen SuperLim 1.0 >>

Snart är det semester, och då är korsord en klassiker.

Särskilt nu i isoleringstider när vi ändå inte bör umgås, vad är då bättre än att sitta i hammocken med en välvässad blyertspenna, ett bra sudd, SAOL-appen, och ett korsord? Det finns många tidningar att köpa med korsord av olika svårighetsgrader, för dig som tycker om att lösa korsord. Men det är lite svårare om du skulle vilja tillverka ditt alldeles egna korsord. Tills nu – som ett led i Språkbankens service …
Fortsätt läsa ”Gör ditt eget korsord!”

Till Språkbanksbloggen
Mänskliga språk förändras hela tiden, men vad är det som ligger bakom utvecklingen? I juli drar projektet Cassandra igång där en grupp forskare från Språkbanken Text vill se om det går att förutsäga språkliga förändringar.

Språk och språkliga förändringar intresserar både forskare och allmänhet. Ett exempel på hur språket förändrats i nutid är ordet grymt som utvecklat en ny positiv betydelse som nästan blivit dominerande och dessutom i princip är motsatsen till ordets ursprungliga betydelse. Ett annat exempel är att man idag allt oftare säger starkare än dig istället för starkare än du.

– Vi vet att språket förändras hela tiden, det kan till exempel handla om att vi som användare förenklar språket eller att det utvecklas i kontakt med andra språk. Vi vill förklara förändringar som redan skett och samtidigt se om det går att förutspå vad som sker med språket framåt, berättar Aleksandrs Berdicevskis, projektledare för Cassandra och fortsätter:

– Den här frågan har fått lite uppmärksamhet inom språkvetenskapen. Men vi behöver försöka besvara den för att se hur troligt det är att de existerande förklaringarna stämmer. I Cassandra kommer vi också undersöka det som blivit felaktigt.

Gruppen kommer att använda sig av stora textmängder, så kallade korpusar, både för den kvantitativa undersökningen och för utvärderingen av de förklaringsmodeller som redan finns.

– Vi kommer att använda den data som finns i våra korpusar som kommer från inlägg på sociala medier de senaste tjugo åren, till exempel Flashback, Familjeliv och Twitter, säger Aleksandrs Berdicevskis och berättar att de kommer studera materialet för de första femton åren och låtsas som att de inte vet vad som händer de följande fem åren.

– Vi samlar all information och alla teorier och så förutspår vi vad som ska hända med språket kommande år. Det kommer inte att bli ett hundraprocentigt resultat, alla förändringar beror inte på språket utan kan handla om saker som sker i samhället som till exempel att vi nu har många ord kopplade till Coronapandemin. Det är svårt att förutspå.

– Förhoppningen och målet är att vi kommer kunna förutsäga en del och att vi kan formalisera förutsägningarna, säger Aleksandrs Berdicevskis och tillägger att gruppen parallellt kommer att titta på interaktionen i sociala medier och vilka sociala faktorer som påverkar språklig förändring.

Målet för projektet Cassandra är att ge både teoretiska resultat, nya språkresurser där korpusarna berikas med information både om språkförändringar och om sociala nätverk och dess strukturer, och metoder.

– Metoderna kan förhoppningsvis komma till nytta för alla forskare som är intresserade av förändringar i samhället, säger Aleksandrs Berdicevskis.

Läs mer på projektets webbplats >>

Aleksandrs Berdicevskis, forskare vid Språkbanken Text
Aleksandrs (Sasha) Berdicevskis, forskare vid Språkbanken Text
Foto: Sven Lindström
 
Om Cassandra
Pågår
1 juli 2021 – 30 juni 2024
Projektdeltagare
Aleksandrs Berdicevskis (projektledare)
Evie Coussé 
Yvonne Adesam
Nina Tahmasebi
Finansiering
Marcus and Amalia Wallenberg Foundation (anslag dnr MAW 2020.0060)
Lövet
Nationella språkbanken bjuder in till höstworkshop måndag 18 oktober 2021 i Stockholm. Temat för årets workshop är historia, i vid bemärkelse. Vi kommer att ta upp hur språk- och talteknologi används för att belysa historiska perspektiv, oavsett om det är inom mer traditionella historiska frågeställningar, diakronisk språkvetenskap, etologi och talets utveckling, eller samhällsutveckling.

Läs mer på språkbanken.se

Språkbanken Text is organizing two of the workshops at NoDaLiDa 2021: Sustainable language representations for a changing world and NLP4CALL.

NLP4CALL
In the past 10 years, NLP4CALL workshop has been a meeting place for researchers and company representatives working on automatic solutions for language learning and for research on language learning. This year, the workshop attracted more than 200 registrations. We enjoyed an invited talk by Cambridge Assessment researchers, Mark Brenchley and Kevin Cheung; and another invited talk by professor Johanna Monti. We celebrated the 10th anniversary by introducing a new session on Research Notes for those who want to discuss their projects/ideas without a publication - a format that turned out to be a success.

For further information, see the workshop website:
<https://spraakbanken.gu.se/en/research/themes/icall/nlp4call-workshop-series/nlp4call2021>
 

Sustainable language representations for a changing world
In this workshop we discussed how language representations or language models can be built to be sustainable, in a very general sense. The topics ranged from how to adapt to minority languages and language varieties, to ethical and legal concerns about privacy, copyright and questions of liability. We had 75 participants who followed and actively took part in the discussions, as well as invited talks by Linda Mannila (Digismart, Finland), Elisabet Lobo (Chalmers University) and Stanley Greenstein and Peter Wahlgren (Stockholm University).

For further information, see the workshop website:
<https://spraakbanken.gu.se/aktuellt/konferenser-och-workshopar/sustainable-language-representations>

This post is based on joint work with Gerlof Bouma. Illustrations by Jan and Julija.

Here’s a sad story (it’s fictional, but sad nonetheless). Matthias, Pernilla and Ingvar were working as computational linguists, and within a certain project painstakingly created a ingenious dataset. The community, however, did not show much interest in the dataset and it was largely forgotten. Years went. Matthias died. Pernilla invented a clever algorithm and became a multi-billionaire. Ingvar moved to USA, happened to see a crime and …
Fortsätt läsa ”Documentation: a (fictional) sad story with a (real) happy ending”

Till Språkbanksbloggen
Nu kan du snart göra sökningar i sammanlagt 36 olika bibelöversättningar på en och samma gång. Fredagen 28 maj offentliggörs en digital textsamling där bland annat forskare från Göteborgs universitet har samlat och digitaliserat bibeltexter från 1300-talet till idag. Samlingen är unik i sitt slag och kan användas för att göra automatiserade jämförelser mellan olika tidsepoker och språk.

– Idén att koppla ihop bibeltexter är inte ny – det har gjorts tidigare – men de flesta samlingar är inte offentligt tillgängliga. Vi hoppas på att det arbeta vi lagt på upphovsrättsfrågor ska göra att fler kan använda den här resursen, säger Evie Coussé, forskare på institutionen för språk och litteraturer vid Göteborgs universitet som leder arbetet.

Bibeltexterna har samlats in inom ramen för forskningsprojektet Uppkomsten av komplexa verbkonstruktioner i germanska språk och täcker sammanlagt fyra olika språk: engelska, nederländska, svenska och tyska. Gerlof Bouma på Språkbanken Text vid Göteborgs universitet har varit med och byggt den digitala textsamlingen.

Läs hela nyheten på gu.se >>

May 26, 14:00–15:30 Magnus Sahlgren at RISE; Aleksandrs Berdicevskis, Yvonne Adesam, Gerlof Bouma, Dana Dannélls at Språkbanken Text, Gothenburg University. This seminar presents the outcome of the SuperLim project, which provides the first General Language Understanding Benchmark (GLUE) for Swedish.

More information and registration >>

Den 28 maj kl. 14.00–15.00 offentliggörs en helt ny korpus baserad på historiska bibelöversättningar i engelska, nederländska, tyska och svenska – från trettonhundratalet till idag.

Gerlof Bouma på Språkbanken Text har tillsammans med Evié Coussé och Nicoline van der Sijs sammanställt korpusen EDGeS Diachronic Bible Corpus inom ramen för forskningsprojektet Uppkomsten av komplexa verbkonstruktioner i germanska språk. Under presentationen får du veta mer om hur korpusen går att använda och vad som blir nästa steg.

Mer information och program för webinariet >>

Sida 1