Blogg

Bloggen listas i omvänd datumordning. Du kan även visa alla etiketter för att på så sätt få fram alla inlägg av den typen.

Grierson’s “Linguistic Survey of India” as open-access digital data resource for studying languages of South Asia

2020-09-01 - Lars Borin

Lars Borin, Anju Saxena, Shafqat Mumtaz Virk, Bernard Comrie South Asia – comprising the seven countries Pakistan, India, Nepal, Bhutan, Bangladesh, Sri Lanka, and the Maldives, as well as immediately adjacent areas of neighboring countries (parts of Afghan

En syntaktisk beskrivningsmodell för modern svensk text

2020-06-18 - Yvonne Adesam

Sverige har en relativt lång tradition av att skapa en typ av korpus som brukar kallas trädbank. En trädbank är en samling texter som har annoterats (märkts upp) med ordklasser och syntaktisk struktur. Den syntaktiska strukturen för en mening kan ritas upp så att den liknar ett träd.

Korp searches in Second Language data

2020-06-17 - Elena Volodina

Korp offers a lot of different corpus collections for various types of search (and research). Swedish as a Second Language (L2) is one of the subcategories of the language that can be studied with the help of Korp. At the moment, Korp provides access to five L2 corpora through its interface:

The five lives of Talbanken

2020-06-09 - Aleksandrs (Sasha) Berdicevskis

This post is about Talbanken, one of the most widely used and important Swedish corpora. There exist at least five versions of this treebank, and the purpose of this post is to reduce ambiguity of the name "Talbanken", which sometimes leads to confusion. I am going to list the five versions, explain the basic differences between them and suggest unambiguous version names.

Om ordklasser för svenska språket

2020-05-29 - Yvonne Adesam

Ordklassindelning används i många språkteknologiska verktyg därför att det är ett sätt att skilja mellan olika användningar av ett ord. Genom ordklasserna kan man enklare söka efter liknande ord och uttryck i stora textmängder, eller skapa en ny text med liknande form.

En topic modell bland andra – En data-intensiv forskningsmetodologi 3

2020-05-28 - Nina Tahmasebi

Temamodeller är vanliga inom digitala studier av stora textmängder och används flitigt inom digital humaniora, i detta avsnitt diskuterar vi möjligheterna och begränsningarna med denna metod.

Text som forskningsdata – En data-intensiv forskningsmetodologi 2

2020-05-07 - Nina Tahmasebi

I detta avsnitt pratar vi om stora textmängder som ligger till grund för kunskapsutvinning och vad för typer av frågor som kan besvaras med hjälp av stora digitala textmängder.

Common Pitfalls in the Development of ICALL Applications

2020-04-30 - Elena Volodina

This blog is a piece of opinion where I sketch the process of developing NLP-based applications for second language learning and look at the process from the point of view of typical (mis)conceptions and challenges, as I have experienced them. Are we over-trusting the potential of NLP? Are teachers by definition reluctant to use NLP-based solutions in classrooms?

En data-intensiv forskningsmetodologi 1

2020-04-20 - Nina Tahmasebi

I en värld där AI tar en allt större plats har datadriven forskning blivit orden på allas läppar. I det här blogginlägget tänkte jag prata lite om vad det innebär att forska med hjälp av stora mängder textdata, primärt inom humaniora. Detta inlägg är det första i en serie om de olika delarna av en data-intensiv forskningsmetodologi.

A multilingual annotated corpus of world's natural language descriptions

2020-04-07 - Shafqat Virk

Shafqat Mumtaz Virk, Harald Hammarström, Markus Forsberg, Søren Wichmann

Sidansvarig: sb-webb