Skip to main content

News archive

Valmanifest 2022 – En språkteknologisk snabbanalys

En dryg vecka innan valet var äntligen alla riksdagspartiernas valmanifest på plats.
Vi tänkte det vore intressant att göra några enkla analyser av texten och se vad vi kan ta reda på med språkteknologiska verktyg. Det första vi gjorde var att köra dokumenten genom Språkbankens annotationsverktyg Sparv. Detta gav oss bland annat läsbarhetsvärden och attitydanalys. Genomsnittslängden på manifesten är ca 6.000 ord, men varierar en hel del, från Kristdemokraternas 1.623 ord till Moderaternas 11.139. Antal ord LIX NK OVIX POS NEG C … Fortsätt läsa ”Valmanifest 2022 – En språkteknologisk snabbanalys”

Den 8 september är det dags för en kick-off för forskningsprogrammet Change is Key!

I januari fick Språkbanken Text 33,5 miljoner kronor till ett nytt forskningsprogram, Change is Key! Den 8 september är det dags för en kick-off med föredrag av medlemmar i programmet som är forskare inom språkteknologi, lingvistik, humaniora och samhällsvetenskap.

Syftet med programmet Change is key! The study of contemporary and historical societies using methods for synchronic semantic variation and diachronic semantic change! är att bygga datoriserade beräkningsmodeller för att se hur språk förändras över tid, för att på så sätt kunna studera språkliga fenomen och samhällskulturella förändringar.

– I dag saknas verktyg för att storskaligt och automatiskt hantera språkliga förändringar över tid, något som har varit efterlängtat inom textbaserad humaniora och samhällsvetenskap, säger Nina Tahmasebi, docent i språkteknologi på Språkbanken Text.

Forskningsprogrammet som finansieras av Riksbankens Jubileumsfond är placerat vid forskningsenheten Språkbanken Text på institutionen för svenska, flerspråkighet och språkteknologi. Forskare från samhälls-, genus- och litteraturvetenskap är också involverade för att svara på sina forskningsfrågor och samtidigt bidra till att utveckla verktyg, evalueringsdata och forskningsmetodologi för de aktuella ämnenas specifika behov.

– En del av programmet handlar om att ta fram språkteknologiska modeller som kan hantera stora och mindre språk och som kan användas för att studera hur språk förändras ur ett betydelseperspektiv. Den andra delen är att försöka svara på humanistiska och samhällsvetenskapliga frågeställningar med hjälp av beräkningsmodeller. Hur kan språket användas som en nyckel för att förstå förändringar i samhället, till exempel människors inställning till migrantgrupper? Hur förändras människans språk av samhällsförändringar, till exempel rösträtt? Tänker vi annorlunda med nya ord som ”hen”? Eller hur har samhället förändrats på grund av stora teknologiska uppfinningar? Målet är också att bygga smarta verktyg för att förenkla vardagen för lexikografer, berättar Nina Tahmasebi.

Förhoppningen är att programmet i förlängningen ska avancera forskningen inom språkteknologi, förenkla arbetet för forskare som studerar förändring över tid och för alla forskare som behöver tolka historiska texter.

Läs mer om programmets kick-off  den 8 september >>

Doktorandplats i språkvetenskaplig databehandling hos Språkbanken Text, Göteborgs universitet

Språkbanken Text, Göteborgs universitet, utlyser nu en doktorandplats i språkvetenskaplig databehandling. Sista ansökningsdag är torsdagen den 29 september 2022.

Utlysning och instruktion om hur du söker hittar du här:

Svenska: Göteborgs universitet | Doktorandplats i språkvetenskaplig databehandling (reachmee.com)

English: Göteborgs universitet | Doctoral student in Natural Language Processing (reachmee.com)

Månadens profil: Maria Skeppstedt

Maria Skeppstedt är forskare inom språkteknologi. På Språkbanken Sam arbetar hon med teknisk infrastruktur för att samla in och tillgängliggöra termer för forskning och utveckling, till exempel via Eurotermbank. Hon har även tagit fram annoterings- och textminingverktyg, till exempel Topics2Themes som nu används i ett forskningsprojekt om klimatdiskussioner.

Läs intervjun med Maria Skeppstedt på språkbanken.se

Under vinjetten Månadens profil på språkbanken.se presenteras personer vars arbete har anknytning till Nationella språkbanken.

Nu digitaliserar vi hela det svenska trycket: men hur, när och varför?

Under Bokmässan 2022 kan du lyssna på Nina Tahmasebi, docent i språkteknologi, Språkbanken Text, Göteborgs universitet prata om varför man skulle vilja och behöva digitalisera det svenska trycket.

Torsdag 22 september kl. 15:15-15:45 
Forskartorget i B-hallen, monter B05:72

Nu digitaliserar vi hela det svenska trycket: men hur, när och varför?

Kungliga biblioteket och de fem stora universitetsbiblioteken har tagit på sig uppdraget att digitalisera allt som har tryckts i Sverige ända från 1400-talet och fram till i dag. Men hur ska det gå till, när blir det klart och vem ska betala kalaset?
Medverkande: Nina Tahmasebi, docent i språkteknologi, Göteborgs universitet, Lars Burman, överbibliotekarie, Uppsala universitetsbibliotek, Karin Byström, Uppsala universitetsbibliotek och Lars Ilshammar, biträdande riksbibliotekarie, KB.
Arrangör: Kungliga biblioteket
--
Göteborgs universitet medverkar med flertalet programpunkter på Forskartorget under Bokmässan 2022. Du finner Forskartorget vid den lugna oasen i B-hallen, monter B05:72. Läs mer här.
 

Sparv 5 är släppt

Nu finns det en sprillans ny version av Språkbankens textanalysverktyg Sparv med efterlängtade nya funktioner och många förbättringar!

Nytt är bland annat att man kan mata in dokument från ordbehandlingsprogram som Word (.docx och .odt-filer) och att det finns stöd för att analysera texter skrivna på fornsvenska och svenska från 1800-talet. Ytterligare två nya funktioner som har efterfrågats av våra användare är att Sparv nu stödjer XML-filer som innehåller namnrymder (namespaces) och en mer flexibel korpusstatistik-export.

Sparv har också blivit bättre på att ge återkoppling till användaren och verktyget har nu en mycket snabbare uppstartstid. Dessutom har Sparv blivit snällare mot ens hårddisk eftersom arbetsfiler komprimeras och tar upp mindre plats än förut.

För en komplett översikt över alla nya funktioner, förbättringar och buggfixar, se changeloggen här.

All information om hur man installerar och använder Sparv finns på https://spraakbanken.gu.se/sparv.

Månadens profil: Marie Mattson

Marie Mattson, språkvetare på Språkbanken Sam, har precis börjat en tjänst som samordnare för minoritetsspråk och språkteknologi i Norden. Tanken är att bidra till projekten European Language Equality (ELE) och Små språk i Norden, vars mål är att alla språk inom EU ska vara digitalt jämlika på nätet 2030.

Läs intervjun med Marie Mattson på språkbanken.se

 

Under vinjetten Månadens profil på språkbanken.se presenteras personer vars arbete har anknytning till Nationella språkbanken.

RaPID-2022: en workshop för forskare som arbetar med bearbetning, analys och tolkning av olika slags data, t.ex. text, tal, ögonrörelse- och sensormätningar...

Den 25 juni 2022 organiserar Språkbanken Text i samarbete med AgeCap, RaPID-4, som är en heldagsworkshop för forskare som arbetar med kognitiva funktionsförmågor. Det är den fjärde upplagan av workshopen och i år hålls den i Marseille inom ramen för den internationella konferensen LREC (the Language Resources and Evaluation Conference).

RaPID-4 är en heldagsworkshop för forskare som arbetar med bearbetning, analys och tolkning av olika slags data (t.ex. text, tal, ögonrörelse- och sensormätningar osv.) producerad av personer med olika former av mentala, kognitiva, neuropsykiatriska eller neurodegenerativa funktionsnedsättningar, såsom afasi, demens, autism, Parkinsons sjukdom eller schizofreni.  

Bearbetning och analys av sådana data kan användas för att identifiera, utvinna, korrelera och utvärdera olika språkliga eller multimodala fenotyper och mätningar, som kan användas för att underlätta diagnos, övervaka utvecklingen eller identifiera individer i riskzonen för olika typer av kognitiva, psykiatriska eller neurologiska sjukdomar. Ett centralt syfte är att studera samband mellan olika nivåer av språkliga, paralingvistiska och extralingvistiska observationer. 

I samband med RaPID-4 organiseras också en vetenskaplig tävling, s.k. challenge "Post-Stroke Speech Transcription" (PSST Challenge). Tävlingen är i samarbete med Oregon Health and Science University and Portland State University, USA. 
 
Mer information om LREC, RaPID-4, PSST och AgeCap finns här: 
 LREC: https://lrec2022.lrec-conf.org/en/ 
 RaPID-4: https://spraakbanken.gu.se/en/rapid-2022 
 PSST: https://psst.study/ 
 AgeCap: https://www.gu.se/en/agecap/ 

 

RaPID - Resources and ProcessIng of linguistic, para-linguistic and extra-linguistic Data from people with various forms of cognitive/psychiatric/developmental impairments

AgeCap - Centrum för åldrande och hälsa

LREC - the Language Resources and Evaluation Conference