Korp offers a lot of different corpus collections for various types of search (and research). Swedish as a Second Language (L2) is one of the subcategories of the language that can be studied with the help of Korp. At the moment, Korp provides access to five L2 corpora through its interface. Read more in this blog post by NLP researcher Elena Volodina.
Svenskan har länge saknat en diakronisk korpus, det vill säga en digitaliserad samling texter som sträcker sig över lång tid. Men nu arbetar Eva Pettersson, datorlingvist vid Uppsala universitet, med att ta fram en textsamling på flera miljarder ord som kommer röra sig från fornsvenska till nutid.
Den svenska trädbanken Eukalyptus består av en samling av moderna svenska texter från fem olika genrer om sammanlagt nära 100 000 ord. Eukalyptus har nu släppts i en ny version.
Temamodeller är vanliga inom digitala studier av stora textmängder och används flitigt inom digital humaniora, i detta tredje avsnitt om en data-intensiv forskningsmetodologi diskuterar vi möjligheterna och begränsningarna med denna metod som forskningsverktyg.
Nu finns det ett nytt blogginlägg om text som forskningsdata – En data-intensiv forskningsmetodologi 2.
I förra avsnittet pratade vi om den data-intensiva forskningsmetodologin. I detta avsnitt fortsätter vi med att prata om stora textmängder som ligger till grund för kunskapsutvinning.