(This blog is based on a joint research and publication in collaboration with David Alfter, Therese Lindström Tiedemann, Maisa Lauriala and Daniela Piipponen)
Lars Borin, Anju Saxena, Shafqat Mumtaz Virk, Bernard Comrie
South Asia – comprising the seven countries Pakistan, India, Nepal, Bhutan, Bangladesh, Sri Lanka, and the Maldives, as well as immediately adjacent areas of neighboring countries (parts of Afghan
Sverige har en relativt lång tradition av att skapa en typ av korpus som brukar kallas trädbank. En trädbank är en samling texter som har annoterats (märkts upp) med ordklasser och syntaktisk struktur. Den syntaktiska strukturen för en mening kan ritas upp så att den liknar ett träd.
Korp offers a lot of different corpus collections for various types of search (and research). Swedish as a Second Language (L2) is one of the subcategories of the language that can be studied with the help of Korp. At the moment, Korp provides access to five L2 corpora through its interface:
This post is about Talbanken, one of the most widely used and important Swedish corpora. There exist at least five versions of this treebank, and the purpose of this post is to reduce ambiguity of the name "Talbanken", which sometimes leads to confusion. I am going to list the five versions, explain the basic differences between them and suggest unambiguous version names.
Ordklassindelning används i många språkteknologiska verktyg därför att det är ett sätt att skilja mellan olika användningar av ett ord. Genom ordklasserna kan man enklare söka efter liknande ord och uttryck i stora textmängder, eller skapa en ny text med liknande form.
Temamodeller är vanliga inom digitala studier av stora textmängder och används flitigt inom digital humaniora, i detta avsnitt diskuterar vi möjligheterna och begränsningarna med denna metod.
I detta avsnitt pratar vi om stora textmängder som ligger till grund för kunskapsutvinning och vad för typer av frågor som kan besvaras med hjälp av stora digitala textmängder.
This blog is a piece of opinion where I sketch the process of developing NLP-based applications for second language learning and look at the process from the point of view of typical (mis)conceptions and challenges, as I have experienced them. Are we over-trusting the potential of NLP? Are teachers by definition reluctant to use NLP-based solutions in classrooms?
I en värld där AI tar en allt större plats har datadriven forskning blivit orden på allas läppar. I det här blogginlägget tänkte jag prata lite om vad det innebär att forska med hjälp av stora mängder textdata, primärt inom humaniora. Detta inlägg är det första i en serie om de olika delarna av en data-intensiv forskningsmetodologi.