Skip to main content

News

Kubord-samlingen

Språkbanken Text och KB-labb lanserar ny datasamling: Kubord

Språkbanken Text och KB-labb samarbetar runt att skapa nya forskningsdata för humanistisk och samhällsvetenskaplig forskning. Som ett första resultat av samarbetet lanserar vi nu datasamlingen Kubord, som består av strax under en miljard ord från det senaste decenniet av moderna dagstidningar. Dessa har tagits fram hos KB-labb genom att mata in tidningstexter i Språkbanken Texts språkteknologiska analyskedja Sparv. På så sätt har texterna delats upp i ord, så kallad tokenisering, och utökats med lingvistiska särdrag såsom ordklasser, betydelser och sammansättningsinformation.

Kubord innehåller upphovsrättsskyddat material och därför är orden inte försedda med kontextuell information, till skillnad från många andra datasamlingar inom Språkbanken. Trots detta är den här samlingen av stort värde för forskare som vill studera ordens förändring över modern tid. Kubord används bland annat i ordboksarbetet som pågår på Institutionen för svenska, flerspråkighet och språkteknologi. För ordboksredaktionen är det viktigt att kunna ta reda på hur vanliga orden är i modernt språk för att lättare kunna identifiera nyord och ord som inte används längre.

Kubord innehåller idag ord från Dagens Nyheter, Göteborgs-Posten och Svenska Dagbladet från åren 2010-2020, men samlingen kommer utökas löpande med nya tidningar och årgångar.

Kubord finns fritt tillgänglig för nedladdning från Språkbanken Texts hemsida och kan även utforskas i Språkbanken Texts forskningsverktyg Korp.

PRAO at the Department of Swedish

Hi!  Our names are Ebba and Anastasia.  We are fourteen years old and go to Montessoriskolan Kvarnhjulet in 8th grade.
Over the past three days we have had a chance to do an internship (=PRAO) at Gothenburg university with a researcher from Språkbanken, Elena Volodina, who is working on automatic support for Swedish as a second language. During these three days we have been doing many different things, but the first day was more of an introduction to what we were going to … Fortsätt läsa ”PRAO at the Department of Swedish”
https://unsplash.com/photos/fbCtFV3FkfE?utm_source=unsplash&utm_medium=referral&utm_content=creditShareLink

SuperLim 2.0 is on its way!

Last year, Språkbanken Text together with KB-Lab at the National Library of Sweden, RISE and AI Sweden created SuperLim, a collection of thirteen Swedish test sets for natural language understanding tasks, from sentiment analysis and semantic similarity estimation to coreference resolution and gender bias detection. SuperLim, inspired by the English collection(s) (Super)Glue, can be used to evaluate Swedish language models.

At the end 2021, the Vinnova agency, which funded the development of SuperLim, announced that it will also fund the subsequent project, SuperLim 2.0! The goal of the project is to complement the existing SuperLim with three important components which are currently missing:

  • training data for all the test sets that lack it
  • a baseline (a reference implementation with results, which the models can be compared against)
  • a leaderboard (a system where the evaluation results for different models can be continuously published and compared in a convenient way).

The work is expected to be completed by the end of 2022.

 

Photo by Florian Schmetz on Unsplash

God Jul with the Swedish Word Family

Lexical resources for Natural Language Processing (NLP),  Second Language Acquisition (SLA) and other applied disciplines differ in the choice of the lexical units they use as their main entry.
Most widely-spread is use of a lemma, i.e. base form of a word, or a lemgram, i.e. base form + its part of speech (POS), cf François et al. (2016) and Kilgarriff et al. (2014). This is possibly due to the ease of creation of such resources using automatic annotation pipelines and the … Fortsätt läsa ”God Jul with the Swedish Word Family”

Ny bok om Svenskt frasnät++ (SweFN++)

Vi är glada att meddela att vår bok med titeln: "The Swedish FrameNet++ Harmonization, integration, method development and practical language technology applications" finns ute!

Boken "The Swedish FrameNet++ Harmonization, integration, method development and practical language technology applications" är fritt tillgänglig under CC BY-NC-ND licens och kan laddas ner här: <https://www.jbe-platform.com/content/books/9789027258489>.

Svenskt frasnät++ (SweFN++) är en långsiktig satsning med syfte att bygga en omfattande och mångsidig lexikal infrastruktur för svensk språkteknologi. Det initierades 2008 och har tack vore olika forskningsbidrag växt under åren. SweFN++ har genererat över 60 publikationer som har kommit ut över en lång tid och på många olika ställen. I boken har vi samlat ihop en del av dem med syftet av att förmedla ett mer övergripande perspektiv på hela projektet och dess kontext. Med boken hoppas vi nå fram till flera läsare som har bland annat intresse för lexikografi, lexikaltypologi, lexikal semantik, lingvistik och närliggande områden.   

Läs mer projektet Svenskt frasnät++ (SweFN++) här.

bok om Svenskt frasnät++ (SweFN++)