Hoppa till huvudinnehåll

Blogg

Bloggen listas i omvänd datumordning. Du kan även visa alla etiketter för att på så sätt få fram alla inlägg av den typen.

Pseudonymization of learner essays as a way to meet GDPR requirements

- Elena Volodina

This blog is based on the author's (Elena Volodina's) joint research with Yousuf (Samir) Ali Mohammed, Arild Matsson, Beáta Megyesi and Sandra Derbring

Flerordingar: ord som består av flera delar

- Yvonne Adesam

När vi tänker på ord så tänker vi oftast på enheter som i text omges av blanksteg (mellanrum): 'huset', 'superstor', 'bloggade'. De flesta skulle nog säga att 'idag' är ett ord, men hur är det om vi skriver det (också rättstavat) 'i dag' då? 'Mont Blanc-tunneln'? 'Röda blodkroppar'? I det här blogginlägget tänkte jag prata om ord som innehåller mellanrum och flerordsuttryck, och hur man kan analysera dem i en korpus.

How reliable is sense disambiguation in texts by native and non-native speakers?

- Elena Volodina

(This blog is based on a joint research and publication in collaboration with David Alfter, Therese Lindström Tiedemann, Maisa Lauriala and Daniela Piipponen)

Grierson’s “Linguistic Survey of India” as open-access digital data resource for studying languages of South Asia

- Lars Borin

Lars Borin, Anju Saxena, Shafqat Mumtaz Virk, Bernard Comrie

South Asia – comprising the seven countries Pakistan, India, Nepal, Bhutan, Bangladesh, Sri Lanka, and the Maldives, as well as immediately adjacent areas of neighboring countries (parts of Afghanistan, China, and Myanmar) – is the home of hundreds of languages belonging to several unrelated language families.

En syntaktisk beskrivningsmodell för modern svensk text

- Yvonne Adesam

Sverige har en relativt lång tradition av att skapa en typ av korpus som brukar kallas trädbank. En trädbank är en samling texter som har annoterats (märkts upp) med ordklasser och syntaktisk struktur. Den syntaktiska strukturen för en mening kan ritas upp så att den liknar ett träd. Trädbanken Talbanken skapades redan på 70-talet (Teleman, 1974) och texterna (och delar av annoteringen) har återanvänts i flera trädbanker sedan dess.

Korp searches in Second Language data

- Elena Volodina

Korp offers a lot of different corpus collections for various types of search (and research). Swedish as a Second Language (L2) is one of the subcategories of the language that can be studied with the help of Korp. At the moment, Korp provides access to five L2 corpora through its interface:

The five lives of Talbanken

- Aleksandrs (Sasha) Berdicevskis
This post is about Talbanken, one of the most widely used and important Swedish corpora. There exist at least five versions of this treebank, and the purpose of this post is to reduce ambiguity of the name "Talbanken", which sometimes leads to confusion. I am going to list the five versions, explain the basic differences between them and suggest unambiguous version names.

Om ordklasser för svenska språket

- Yvonne Adesam

Ordklassindelning används i många språkteknologiska verktyg därför att det är ett sätt att skilja mellan olika användningar av ett ord. Genom ordklasserna kan man enklare söka efter liknande ord och uttryck i stora textmängder, eller skapa en ny text med liknande form. Att automatiskt dela in orden i texter i ordklasser är därmed en av de grundläggande metoderna inom artificiell intelligens, för att få datorn att förstå mänskligt språk.

En topic modell bland andra – En data-intensiv forskningsmetodologi 3

- Nina Tahmasebi
Temamodeller är vanliga inom digitala studier av stora textmängder och används flitigt inom digital humaniora, i detta avsnitt diskuterar vi möjligheterna och begränsningarna med denna metod.

Text som forskningsdata – En data-intensiv forskningsmetodologi 2

- Nina Tahmasebi
I detta avsnitt pratar vi om stora textmängder som ligger till grund för kunskapsutvinning och vad för typer av frågor som kan besvaras med hjälp av stora digitala textmängder.