Skip to main content

Alla nyheter

https://unsplash.com/photos/fbCtFV3FkfE?utm_source=unsplash&utm_medium=referral&utm_content=creditShareLink

SuperLim 2.0 is on its way!

Last year, Språkbanken Text together with KB-Lab at the National Library of Sweden, RISE and AI Sweden created SuperLim, a collection of thirteen Swedish test sets for natural language understanding tasks, from sentiment analysis and semantic similarity estimation to coreference resolution and gender bias detection. SuperLim, inspired by the English collection(s) (Super)Glue, can be used to evaluate Swedish language models.

At the end 2021, the Vinnova agency, which funded the development of SuperLim, announced that it will also fund the subsequent project, SuperLim 2.0! The goal of the project is to complement the existing SuperLim with three important components which are currently missing:

  • training data for all the test sets that lack it
  • a baseline (a reference implementation with results, which the models can be compared against)
  • a leaderboard (a system where the evaluation results for different models can be continuously published and compared in a convenient way).

The work is expected to be completed by the end of 2022.

 

Photo by Florian Schmetz on Unsplash

God Jul with the Swedish Word Family

Lexical resources for Natural Language Processing (NLP),  Second Language Acquisition (SLA) and other applied disciplines differ in the choice of the lexical units they use as their main entry.

Most widely-spread is use of a lemma, i.e. base form of a word, or a lemgram, i.e. base form + its part of speech (POS), cf François et al. (2016) and Kilgarriff et al. (2014). This is possibly due to the ease of creation of such resources using automatic annotation pipelines and the …
Fortsätt läsa ”God Jul with the Swedish Word Family”

Ny bok om Svenskt frasnät++ (SweFN++)

Vi är glada att meddela att vår bok med titeln: "The Swedish FrameNet++ Harmonization, integration, method development and practical language technology applications" finns ute!

Boken "The Swedish FrameNet++ Harmonization, integration, method development and practical language technology applications" är fritt tillgänglig under CC BY-NC-ND licens och kan laddas ner här: <https://www.jbe-platform.com/content/books/9789027258489>.

Svenskt frasnät++ (SweFN++) är en långsiktig satsning med syfte att bygga en omfattande och mångsidig lexikal infrastruktur för svensk språkteknologi. Det initierades 2008 och har tack vore olika forskningsbidrag växt under åren. SweFN++ har genererat över 60 publikationer som har kommit ut över en lång tid och på många olika ställen. I boken har vi samlat ihop en del av dem med syftet av att förmedla ett mer övergripande perspektiv på hela projektet och dess kontext. Med boken hoppas vi nå fram till flera läsare som har bland annat intresse för lexikografi, lexikaltypologi, lexikal semantik, lingvistik och närliggande områden.   

Läs mer projektet Svenskt frasnät++ (SweFN++) här.

bok om Svenskt frasnät++ (SweFN++)

 

Ny lista med förändringsord på Zenodo

Nu finns det en ny lista med förändringsord ute på Zenodo: https://zenodo.org/record/5711030 

Vi tar gärna emot fler förändringsord, eller om någon vill fylla i saknade värden i den existerande listan. 

Listan innehåller svenska ord vars betydelse har förändrats under de senaste århundradena och finns öppet tillgänglig för nedladdning. Listan är en del av projektet Mot automatiska metoder för att upptäcka språkförändring finansierat av Vetenskapsrådet. Läs mer om projektet här: https://languagechange.org/

 

Change is key! 6-year RJ Program funded!

In the RJ-funded program Change is Key!, we will develop tools to turn text into a story of our language, our societies, and our cultures, and how these have changed over time.

The program spans six years (2022-2027) and has 11 participating researchers. Read more here!

Ny forskningsdata med nyhetstexter från SVT möjliggör storskaliga textanalyser

Forskningsingenjörer på Språkbanken Text vid Göteborgs universitet har för första gången samlat alla nyhetstexter på SVT:s webbplats i ett sökbart format. Textsamlingen, eller korpusen, gör det möjligt att göra större automatiska textanalyser på forskningsdatan. – Det är många som är intresserade av materialet eftersom det gör det möjligt att analysera modernt vårdat språk, säger Anne Schumacher som är huvudansvarig för arbetet.

Behovet av att samla in materialet uppstod i arbetet med Svensk ordbok (SO) och Svenska akademiens ordlista (SAOL) som bedrivs vid institutionen för svenska språket. Redaktionsgruppen ville ha ett referensmaterial för att veta vilka nya ord som uppstår, hur frekventa orden är och hur de används. Då är modern nyhetstext lämplig.

– Korpusen innehåller alla nyhetstexter som finns på SVT:s webbplats sedan 2004 fram till september 2021 och ger ett rikt underlag för modern vårdad svenska. Det här kan man jämföra med att några av våra andra korpusar består av texter från exempelvis Flashback eller Familjeliv där det finns en helt annan språkanvändning – som inte klassificeras som vårdad text – men som är intressant på sitt sätt, säger Anne.

SVT:s nyhetstexter intressanta för många

Eftersom SVT:s texter ligger fritt tillgängliga på internet har arbetet med att samla in materialet varit relativt enkelt.

– Vi tog fram ett script som hämtade ut alla artiklar från SVT:s API, alltså deras nättjänst som hämtar informationen från deras databas. Det var väl den svåraste delen av arbetet eftersom den inte är avsedd att användas av någon annan än deras egna webbsida. Vi fick testa och gissa lite innan vi kom fram till hur vi skulle göra.

Textsamlingen har sedan omarbetats för att kunna bli till en sökbar textsamling i korpusverktyget Korp. Eftersom texterna från SVT är i ett välstrukturerad digitalt format med rik metadata – dvs att man tydligt kan se vad som är en avgränsad artikel, vilken författaren är, när den har skapats och vilket ämne den handlar om – har materialet varit tacksamt att arbeta med.

Korp korpus SVT Nyheter
Korpusen finns sökbar i sökverktyget Korp men hela materialet, med ordfrekvenser och automatiskt framtagna textanalyser, finns också nedladdningsbart om du vill använda det utanför Korp.

– Bra metadata gör en textsamling mer värdefull eftersom den delvis styr hur man kan använda resursen. Detta gör också att korpusen inte bara kommer att vara användbar för vår ordboksredaktion, förklarar Anne och fortsätter:

– Det är många som är intresserade av materialet eftersom det gör det möjligt att analysera modernt vårdat språk över tid. Sedan tidigare erbjuder Språkbanken Text Göteborgs-Postens samlade texter men de sträcker sig bara fram till 2013 vilket gör att man inte har kunnat analysera användningen av ord efter det. SVT:s texter blir en fortsättning och ett bra komplement till det materialet.

Uppdateras två gånger per år

Planen är att korpusen nu ska uppdateras två gånger om året. Varje halvår ska man lägga till de texter som tillkommit och dessutom kommer korpusen att delas upp årsvis.

– Just nu ligger allt material samlat i en enda korpus men det är egentligen lite opraktiskt. Med en årsvis uppdelning går den snabbare att uppdatera och det går att göra bättre sökningar i materialet. Exempelvis skulle man med den nya uppdelningen kunna göra sökningar för att se hur ett särskilt ord används ett år i jämförelse med andra år – det tror jag är väldigt värdefullt!

Text: Sven Lindström

 

Fakta om korpusen
Korpusen SVT Nyheter består av 200 miljoner tokens. En token är ungefär att likställa med ett ord men en token också kan innebära exempelvis skiljetecken. Korpusen finns sökbar i sökverktyget Korp men hela materialet, med ordfrekvenser och automatiskt framtagna textanalyser, finns också nedladdningsbart om du vill använda det utanför Korp. Ladda ner korpusen här.

Korp är Språkbanken Texts korpusverktyg där du kan söka i stora mängder text från bland annat dagstidningar, skönlitteratur och sociala medier. Läs mer och använd verktyget Korp här.

33,5 miljoner till språkteknologiskt forskningsprogram om språkförändring

Riksbankens Jubileumsfond beviljar 33,5 miljoner till ett nytt språkteknologiskt forskningsprogram vid Språkbanken Text, Göteborgs universitet. Under sex år kommer forskare vid Språkbanken Text att studera språkliga förändringar över tid, inom olika grupper och i olika medietyper. – Detta är ett kvitto på att den forskning vi bedriver på Språkbanken Text håller hög internationell kvalité, säger Nina Tahmasebi som är huvudsökande till programmet.

Läs hela nyheten på gu.se

 

Nina-T-sbtext
Nina Tahmasebi är docent vid Språkbanken Text på institutionen för svenska språket vid Göteborgs universitet.

 

Ny korpus i Korp: SVT Nyheter

Nu finns det en ny korpus i Korp som innehåller nyhetsartiklar från svt.se. Artiklarna är från 2004 till september 2021.
Korpusen innehåller omkring 200 miljoner tokens, vilket är ett ganska stort material, och den är rik på metadata. Det finns bland annat information om publiceringsdatum, kategori, nyckelord och en länk till artikeln på svt.se.

Materialet är efterlängtat då det både är aktuellt och innehåller modernt och vårdat språk. Planen är att korpusen ska uppdateras två gånger per år. Vid nästa uppdatering kommer korpusen att delas upp årsvis, för att förenkla vissa typer av sökningar.

Korpusen heter SVT Nyheter och finns här: 
https://spraakbanken.gu.se/korp/#?cqp=%5B%5D&corpus=svt

Materialet är nedladdningsbart dels som meningsmängder och dels som ordfrekvenser:


Korp är Språkbanken Texts korpusverktyg med vilket man kan söka i stora mängder text från bland annat dagstidningar, skönlitteratur och sociala medier. Läs mer om verktyget Korp här: https://spraakbanken.gu.se/verktyg/korp

 

Korp korpus SVT Nyheter