News archive | Språkbanken Text

Språkbanken bidrar till nya sätt att tillgängliggöra KB:s samlingar

22 April 2020

Tillsammans med Kungliga bibliotekets (KB) nystartade datalabb kommer Språkbanken Text att bidra till att tillgängliggöra delar av KB:s samlingar. – Samarbetet innebär mycket goda nyheter för digital humaniora och samhällsforskning i Sverige, säger Love Börjesson, verksamhetsledare för KB-labb.

KB_Love_Borjesson_bild — *Love Börjesson, verksamhetsledare KB-labb. Fotograf: Jann Lipka*

– Våra målsättningar går hand i hand. Vi på Språkbanken Text behöver forskningsdata samtidigt som KB vill hitta sätt att göra material tillgängligt. KB har en guldgruva med material som de inte kan dela med sig av på grund av upphovsrättsliga skäl, säger Markus Forsberg, föreståndare för Språkbanken Text.

KB-labb är Kungliga bibliotekets (KB) nystartade labb för datadriven forskning inom humaniora och samhällsvetenskap. Verksamhetsledare Love Börjesson säger att samarbetet med Språkbanken Text skapar fantastiska möjligheter att lyfta och tillgängliggöra KB:s samlingar på helt nya sätt.
- Nu kan vi implementera Språkbankens svenska NLP-tunnel Sparv, vilket ger forskare som använder KB-labb möjlighet att analysera och strukturera data på ett sätt som tidigare var omöjligt. Genom det här samarbetet får vi också en mycket högre utväxling på vår egen infrastruktur än vad som annars hade varit fallet.

Anne Schumacher, forskningsingenjör på Språkbanken Text, var nyligen på plats på KB-labb för att installera Sparv, Språkbankens annoteringsverktyg, på deras maskiner.
– KB har texter som vi är intresserade av men som de inte kan ge till oss. Nu kan KB-labb analysera texterna med hjälp av Sparv och sen extrahera alla ord, till exempel med en viss egenskap, och ge listor till oss. På så sätt får vi ut data från samlingarna utan att göra intrång i upphovsrätten, säger hon och tillägger att Språkbanken Text i sin tur kan analysera datan och även fritt dela med sig av listorna, så att vem som helst kan använda dem.

Språkbankens Markus Forsberg säger att samarbetet hittills gått otroligt smidigt.
– Vi har precis kommit igång, men det här känns som ett samarbete som vi kan bygga vidare på, där vi kan fokusera på analysen och de kan fokusera på att göra material tillgängliga, säger han.

Love Börjesson håller med och menar att samarbetet mellan KB-labb och Språkbanken Text innebär mycket goda nyheter för digital humaniora och samhällsforskning i Sverige. Han tillägger att det dessutom skapar ett intressant intellektuellt sammanhang där de olika verksamheterna berikar varandra på flera sätt utöver det specifika verktyg de delar och utvecklar.

Blogginlägg om data-intensiv forskningsmetodologi

20 April 2020

Nu finns det ett nytt inlägg på Språkbanksbloggen om data-intensiv forskningsmetodologi.

Blogginlägget är tänkt att vara första delen i en serie där olika aspekter av den data-intensiva processen tas upp och följer samma struktur som studiecirkeln i text-mining för humaniora.

Till Språkbanksbloggen

A multilingual corpus of the world's language descriptions

8 April 2020

Language descriptions are documents containing valuable information on the world's natural languages and their diversity. In this blog, we report a multilingual corpus of thousands of such documents annotated with a number of meta, lexical, and syntactical attributes.

Språkbanksbloggen>>

Fula ordboken i Karp

24 March 2020

Nu finns Bengt G Dagrins "Fula ordboken" sökbar hos Språkbanken.

Nu finns Bengt G Dagrins "Fula ordboken" sökbar i Språkbankens lexikonverktyg Karp. Lexikonet finns än så länge här, i en förhandsvisning av nästa version av Karp.

"Fula Ordboken är ett försök att presentera ofta försummade och baktalade ord, sådana ord som det stått strid om, som omskrivits eller uteslutits, som stämplats som vulgära, obscena och fula och som därför få ordforskare velat befatta sig med." (fulaordboken.se)

Nytt inlägg på bloggen

24 March 2020

Zipfs lag, uppkallad efter den amerikanske lingvisten George Kingsley Zipf, säger att ett ords frekvens är omvänt proportionellt mot dess plats i en frekvenslista. Vad innebär det?

Niklas Zechner skriver i senaste inlägget i Språkbanksbloggen under rubriken "Zipfs lag på svenska".

Till bloggen

Can we bring meaning to words using only the information stored in text?

4 March 2020

Nina Tahmasebi, associate Professor at Språkbanken at the University of Gothenburg, writes about "Meaning through sensory data" on Språkbanksbloggen:

https://spraakbanken.gu.se/blogg/index.php/2020/03/04/meaning-through-sensory-data/

Ny version av SKBL (Svenskt kvinnobiografiskt lexikon)

2 March 2020

En ny version har släppts av Svenskt kvinnobiografiskt lexikon.

https://skbl.se/sv

Det som är nytt är följande:

Cirka 240 nya kvinnor i databasen
Ny interaktiv karta som visar var olika kvinnor har befunnit sig under sina liv
Ny kronologi som ger en bättre överblick över vilka kvinnor som har levt under en viss tidsperiod
Det finns nu tre olika quiz där man kan testa sina kvinnohistoriska kunskaper

Läs mer om SKBL.

Databasen har utvecklats av Språkbanken och den förvaltas av Swe-Clarin.

The Gothenburg H70 birth cohort studies and the digital assessment of neuropsychological tests

26 February 2020

Read Dimitrios Kokkinakis' blog post on Språkbanksbloggen

https://spraakbanken.gu.se/blogg/index.php/2020/02/03/the-gothenburg-h70-birth-cohort-studies-and-the-digital-assessment-of-neuropsychological-tests/

Automatiska metoder för att studera språkförändringar - pågående shared task

21 February 2020

Automatisk identifiering av lexikosemantiska förändringar, alltså möjligheten att med datorers hjälp hitta när ord förändrar sina betydelser över tid, är ett aktivt forskningsfält inom språkteknologi. Towards Computational Lexical Semantic Change Detection är ett forskningsprojekt som knyter an till fältet. Projektet, som startade i januari 2019, finansieras av Vetenskapsrådet och leds av Nina Tahmasebi, docent vid Språkbanken Text, Institutionen för svenska språket på Göteborgs universitet.

Ett av de stora problemen inom fältet rör bristen på öppna testdata av god kvalité som bidrar till jämförbara metoder. Språkbanken är med i en shared task (forskningstävling) som syftar till att jämföra modeller på öppna data med en gemensamt satt standard med hjälp av hög-kvalitativa, manuellt annoterade datamängder för engelska, svenska, tyska och latin. Tävlingen, som organiseras under SemEval2020-flagg, drog igång den 19 februari 2020 och kör i ytterligare en månad.

I nu läget har vi släppt testdata för samtliga språk (de svenska delkorpusarna bygger på Kubhist2 och finnas att hitta här: https://zenodo.org/record/3672950), samt ett gäng med testord som skall klassificeras. Efter tävlingens slut kommer vi även att släppa ground truth (alltså resultaten baserat på den manuella uppmärkning som gjorts under hösten och vintern) för vidare utveckling och andra uppgifter.

Den som vill delta i tävlingen, eller ladda ner data för de andra språken, kan hitta mer information på SemEval 2020 Task 1: Unsupervised Lexical Semantic Change Detection. De officiella resultaten presenteras på SemEval2020 workshopen under Coling2020 i Barcelona i år.

Mer information om projektet Towards Computational Lexical Semantic Change Detection finns på https://languagechange.org/.

Postdoktor i språkvetenskaplig databehandling med koppling till forskningsinfrastrukturen Swe-Clarin

20 December 2019

Humlab söker en postdoktor för forskning inom infrastrukturprojekt kopplat till Swe-Clarin.

Humlab är en enhet och en forskningsinfrastruktur vid Humanistisk fakultet på Umeå universitet. Humlab söker nu en postdoktor för forskning inom infrastrukturprojekt kopplat till Swe-Clarin som är en nationell nod i europeiska CLARIN (Common Language Resources and Technology Infrastructure) – ett ESFRI-initiativ för att bygga upp en infrastruktur för e-vetenskap inom humaniora och samhällsvetenskap.