Den svenska trädbanken Eukalyptus består av en samling av moderna svenska texter från fem olika genrer om sammanlagt nära 100 000 ord. Eukalyptus har nu släppts i en ny version.
Temamodeller är vanliga inom digitala studier av stora textmängder och används flitigt inom digital humaniora, i detta tredje avsnitt om en data-intensiv forskningsmetodologi diskuterar vi möjligheterna och begränsningarna med denna metod som forskningsverktyg.
Nu finns det ett nytt blogginlägg om text som forskningsdata – En data-intensiv forskningsmetodologi 2.
I förra avsnittet pratade vi om den data-intensiva forskningsmetodologin. I detta avsnitt fortsätter vi med att prata om stora textmängder som ligger till grund för kunskapsutvinning.
Dimitrios Kokkinakis, forskare vid Språkbanken, institutionen för svenska språket har tilldelats ett stipendium på 80 000 SEK från Demensförbundet. Stipendiet ska användas till att segmentera och transkribera flera hundra ljudinspelningar. Resultatet kommer att vara underlag för att studera hur man i språket kan upptäcka tidiga tecken på demens. Nu ska ett antal sommarjobbare rekryteras för att genomföra transkriptionerna.
Tillsammans med Kungliga bibliotekets (KB) nystartade datalabb kommer Språkbanken Text att
bidra till att tillgängliggöra delar av KB:s samlingar.
– Samarbetet innebär mycket goda nyheter för digital humaniora och samhällsforskning i Sverige, säger Love Börjesson, verksamhetsledare för KB-labb.
Language descriptions are documents containing valuable information on the world's natural languages and their diversity. In this blog, we report a multilingual corpus of thousands of such documents annotated with a number of meta, lexical, and syntactical attributes.