Skip to main content

News archive

Nu finns boken om automatiska metoder för att studera semantiska språkförändringar ute!

Boken har elva kapitel, varav en stor översiktsartikel som täcker olika typer av metoder och utvärderingsmodeller för semantiska språkförändringar. Boken är ett resultat av LChange'19, en bredare internationella workshop på ämnet automatiska metoder för alla typer av språkförändringar som kan hitta med hjälp av texter. Bland författarna finns bland annat Nina Tahmasebi, Lars Borin och Simon Hengchen från Språkbanken Text.

Samtliga kapitel finns att ladda ner gratis på
https://langsci-press.org/catalog/book/303
 

Månadens profil: Dana Dannélls

Dana Dannélls är forskare i språkteknologi på Språkbanken Text. Hon jobbar bland annat med att utveckla, förbättra och utvärdera språkteknologiska verktyg och resurser för att göra dem tillgängliga för språkteknologiska applikationer men också för forskare och den intresserade allmänheten.

Just nu ägnar Dana en stor det av sin tid åt ett projekt som heter Utvärdering och anpassning av en förbättrad OCR-process vid massdigitalisering. Det är ett samarbetsprojekt mellan Språkbanken Text och Kungliga biblioteket, KB, som handlar om att förbättra processen vid massdigitalisering av text. 

Läs hela intervjun med Dana på språkbanken.se

Under vinjetten Månadens profil på språkbanken.se presenteras personer vars arbete har anknytning till Nationella språkbanken.

Textdatabas erbjuder nya sätt att studera andraspråksinlärning

Den 26 augusti lanseras en ny digital textsamling där Språkbanken Text vid Göteborgs universitet tillgängliggör cirka 1000 studentuppsatser. Uppsatserna är skrivna av studenter med ett annat modersmål än svenska och samlingen gör det möjligt att studera andraspråksutveckling på nya och enklare sätt.

Textsamlingen, den så kallade korpusen, har sammanställts i projektet SweLL – Swedish Learner Language som har engagerat forskare från universiteten i Göteborg, Stockholm, Umeå och Uppsala. Elena Volodina, forskare i Språkteknologi på Språkbanken Text vid Göteborgs universitet, har lett arbetet:

– Det har varit ett omfattande arbete att bygga korpusen och infrastrukturen för den manuella annoteringen, och vi har gjort långt mer än vad planerade. Nu ser jag fram emot att samlingen blir offentlig och kommer till användning!

Läs hela nyheten på gu.se >>

Programmet för lanseringen av SweLL

Anmäl dig till lanseringen av SweLL

Läs mer om projektet

Vilket ord är bäst?

I förra blogginlägget fick vi läsa om korsord, en populär sysselsättning så här under sommarmånaderna.
En relaterad hobby om man vill vara lite mer social är förstås att spela Scrabble – även känt under det svenska namnet Alfapet, samt i olika digitala versioner, bland annat Wordfeud. För den som mot förmodan inte känner till spelet går det ut på att lägga ut bokstäver för att forma ord på en spelplan i ett korsordsliknande rutmönster. Olika bokstäver ger olika poäng, och vissa rutor … Fortsätt läsa ”Vilket ord är bäst?”

SuperLim ska förbättra svenska språkmodeller

Nu släpper Språkbanken Text SuperLim 1.0, en datasamling som kan användas för testning och utvärdering av svenska språkmodeller. Släppet är en del i projektet SuperLim, ett samarbete med aktörer inom språkteknologi och artificiell intelligens.

Det saknades länge stora språkmodeller för svenska. Nyligen har dock flera språkmodeller utvecklats, bland annat av KB-labb, och fler är under utveckling där och på annat håll. Modellerna tränas på stora mängder text för att kunna analysera och strukturera texter och förstå språk. Modellerna kan till exempel sammanfatta texter, mäta hur lika de är eller göra analys av vilken attityd som uttrycks i delar av texten. Språkmodeller kan förbättra alla typer av språkteknologiska tillämpningar för svenska texter och vara till användning både inom forskningen och den privata och offentliga sektorn. 

–  Det är jättebra att vi äntligen har språkmodeller på svenska, däremot är det svårt att utvärdera dem. Därför har vi tagit fram en samling med tretton utvärderingsmängder som vi kallar SuperLim. Alla aktörer kan använda samlingen för att testa modellerna och se hur bra de är på att förstå språket, berättar Aleksandrs Berdicevskis som är forskare på Språkbanken Text och en av deltagarna i projektet.

Projektet är ett samarbete mellan Språkbanken Text, KB-labb, forskningsinstitutet RISE och AI Sweden och använder en strategi för utvärdering som delvis följer den engelska förlagan (Super)Glue.

En viktig del i utvärderingen är att ta reda på om modellerna har statistiska skevheter, exempelvis att modellerna kodar in fördomar, för att i så fall kunna hantera dem på lämpligt sätt.

–  Tidigare studier visar att språkmodellerna är känsliga för vilken data de tränas på och de speglar ofta de fördomar som vi människor har och som funnits med i träningsdata. Det kan till exempel handla om rasistiska fördomar eller att en språkmodell antar att en läkare är en man och en sjuksköterska är en kvinna. Det är viktigt att utvärdera och förbättra språkmodellerna så att vi kan motverka de fördomar som blir inbyggda i modellerna, säger projektdeltagaren Yvonne Adesam, Språkbanken Text.

Läs mer på projektsidan >>

Datasamlingen SuperLim 1.0 >>

Gör ditt eget korsord!

Snart är det semester, och då är korsord en klassiker.
Särskilt nu i isoleringstider när vi ändå inte bör umgås, vad är då bättre än att sitta i hammocken med en välvässad blyertspenna, ett bra sudd, SAOL-appen, och ett korsord? Det finns många tidningar att köpa med korsord av olika svårighetsgrader, för dig som tycker om att lösa korsord. Men det är lite svårare om du skulle vilja tillverka ditt alldeles egna korsord. Tills nu – som ett led i Språkbankens service … Fortsätt läsa ”Gör ditt eget korsord!”

Går det att förutsäga språkliga förändringar?

Mänskliga språk förändras hela tiden, men vad är det som ligger bakom utvecklingen? I juli drar projektet Cassandra igång där en grupp forskare från Språkbanken Text vill se om det går att förutsäga språkliga förändringar.

Språk och språkliga förändringar intresserar både forskare och allmänhet. Ett exempel på hur språket förändrats i nutid är ordet grymt som utvecklat en ny positiv betydelse som nästan blivit dominerande och dessutom i princip är motsatsen till ordets ursprungliga betydelse. Ett annat exempel är att man idag allt oftare säger starkare än dig istället för starkare än du.

– Vi vet att språket förändras hela tiden, det kan till exempel handla om att vi som användare förenklar språket eller att det utvecklas i kontakt med andra språk. Vi vill förklara förändringar som redan skett och samtidigt se om det går att förutspå vad som sker med språket framåt, berättar Aleksandrs Berdicevskis, projektledare för Cassandra och fortsätter:

– Den här frågan har fått lite uppmärksamhet inom språkvetenskapen. Men vi behöver försöka besvara den för att se hur troligt det är att de existerande förklaringarna stämmer. I Cassandra kommer vi också undersöka det som blivit felaktigt.

Gruppen kommer att använda sig av stora textmängder, så kallade korpusar, både för den kvantitativa undersökningen och för utvärderingen av de förklaringsmodeller som redan finns.

– Vi kommer att använda den data som finns i våra korpusar som kommer från inlägg på sociala medier de senaste tjugo åren, till exempel Flashback, Familjeliv och Twitter, säger Aleksandrs Berdicevskis och berättar att de kommer studera materialet för de första femton åren och låtsas som att de inte vet vad som händer de följande fem åren.

– Vi samlar all information och alla teorier och så förutspår vi vad som ska hända med språket kommande år. Det kommer inte att bli ett hundraprocentigt resultat, alla förändringar beror inte på språket utan kan handla om saker som sker i samhället som till exempel att vi nu har många ord kopplade till Coronapandemin. Det är svårt att förutspå.

– Förhoppningen och målet är att vi kommer kunna förutsäga en del och att vi kan formalisera förutsägningarna, säger Aleksandrs Berdicevskis och tillägger att gruppen parallellt kommer att titta på interaktionen i sociala medier och vilka sociala faktorer som påverkar språklig förändring.

Målet för projektet Cassandra är att ge både teoretiska resultat, nya språkresurser där korpusarna berikas med information både om språkförändringar och om sociala nätverk och dess strukturer, och metoder.

– Metoderna kan förhoppningsvis komma till nytta för alla forskare som är intresserade av förändringar i samhället, säger Aleksandrs Berdicevskis.

Läs mer på projektets webbplats >>

Aleksandrs (Sasha) Berdicevskis, forskare vid Språkbanken Text
Foto: Sven Lindström
 
Om Cassandra
Pågår
1 juli 2021 – 30 juni 2024
Projektdeltagare
Aleksandrs Berdicevskis (projektledare)
Evie Coussé 
Yvonne Adesam
Nina Tahmasebi
Finansiering
Marcus and Amalia Wallenberg Foundation (anslag dnr MAW 2020.0060)

Höstworkshop med tema historia!

Nationella språkbanken bjuder in till höstworkshop måndag 18 oktober 2021 i Stockholm. Temat för årets workshop är historia, i vid bemärkelse. Vi kommer att ta upp hur språk- och talteknologi används för att belysa historiska perspektiv, oavsett om det är inom mer traditionella historiska frågeställningar, diakronisk språkvetenskap, etologi och talets utveckling, eller samhällsutveckling.

Läs mer på språkbanken.se

Språkbanken Text at NoDaLiDa 2021

Språkbanken Text is organizing two of the workshops at NoDaLiDa 2021: Sustainable language representations for a changing world and NLP4CALL.

NLP4CALL
In the past 10 years, NLP4CALL workshop has been a meeting place for researchers and company representatives working on automatic solutions for language learning and for research on language learning. This year, the workshop attracted more than 200 registrations. We enjoyed an invited talk by Cambridge Assessment researchers, Mark Brenchley and Kevin Cheung; and another invited talk by professor Johanna Monti. We celebrated the 10th anniversary by introducing a new session on Research Notes for those who want to discuss their projects/ideas without a publication - a format that turned out to be a success.

For further information, see the workshop website:
<https://spraakbanken.gu.se/en/research/themes/icall/nlp4call-workshop-series/nlp4call2021>
 

Sustainable language representations for a changing world
In this workshop we discussed how language representations or language models can be built to be sustainable, in a very general sense. The topics ranged from how to adapt to minority languages and language varieties, to ethical and legal concerns about privacy, copyright and questions of liability. We had 75 participants who followed and actively took part in the discussions, as well as invited talks by Linda Mannila (Digismart, Finland), Elisabet Lobo (Chalmers University) and Stanley Greenstein and Peter Wahlgren (Stockholm University).

For further information, see the workshop website:
<https://spraakbanken.gu.se/aktuellt/konferenser-och-workshopar/sustainable-language-representations>

Documentation: a (fictional) sad story with a (real) happy ending

This post is based on joint work with Gerlof Bouma. Illustrations by Jan and Julija.
Here’s a sad story (it’s fictional, but sad nonetheless). Matthias, Pernilla and Ingvar were working as computational linguists, and within a certain project painstakingly created a ingenious dataset. The community, however, did not show much interest in the dataset and it was largely forgotten. Years went. Matthias died. Pernilla invented a clever algorithm and became a multi-billionaire. Ingvar moved to USA, happened to see a crime and … Fortsätt läsa ”Documentation: a (fictional) sad story with a (real) happy ending”