Svenskan har länge saknat en diakronisk korpus, det vill säga en digitaliserad samling texter som sträcker sig över lång tid. Men nu arbetar Eva Pettersson, datorlingvist vid Uppsala universitet, med att ta fram en textsamling på flera miljarder ord som kommer röra sig från fornsvenska till nutid.
Den svenska trädbanken Eukalyptus består av en samling av moderna svenska texter från fem olika genrer om sammanlagt nära 100 000 ord. Eukalyptus har nu släppts i en ny version.
Temamodeller är vanliga inom digitala studier av stora textmängder och används flitigt inom digital humaniora, i detta tredje avsnitt om en data-intensiv forskningsmetodologi diskuterar vi möjligheterna och begränsningarna med denna metod som forskningsverktyg.
Nu finns det ett nytt blogginlägg om text som forskningsdata – En data-intensiv forskningsmetodologi 2.
I förra avsnittet pratade vi om den data-intensiva forskningsmetodologin. I detta avsnitt fortsätter vi med att prata om stora textmängder som ligger till grund för kunskapsutvinning.
Dimitrios Kokkinakis, forskare vid Språkbanken, institutionen för svenska språket har tilldelats ett stipendium på 80 000 SEK från Demensförbundet. Stipendiet ska användas till att segmentera och transkribera flera hundra ljudinspelningar. Resultatet kommer att vara underlag för att studera hur man i språket kan upptäcka tidiga tecken på demens. Nu ska ett antal sommarjobbare rekryteras för att genomföra transkriptionerna.
Tillsammans med Kungliga bibliotekets (KB) nystartade datalabb kommer Språkbanken Text att
bidra till att tillgängliggöra delar av KB:s samlingar.
– Samarbetet innebär mycket goda nyheter för digital humaniora och samhällsforskning i Sverige, säger Love Börjesson, verksamhetsledare för KB-labb.