Hoppa till huvudinnehåll

Nina Tahmasebi

 
  • Docent i Språkteknologi
  • Fil. Dr i Datavetenskap
  • Master of Science i Tekniskt matematik
  • Bachelor of Science i Matematik

Vi har fått ett RJ program Change is Key! som startar 2022 och löper under sex år! I programmet kommer vi att utveckla korpusbaserade språkteknologiska metoder för att hitta semantiska förändringar (över tid) och lexikal variation (mellan grupper och mediatyper). Avsikten är att skapa verktyg för att upptäcka och studera språkliga förändringar i stor skala, vilket kommer att vara till direkt nytta för historisk lingvistik och lexikografi samt för t.ex. begreppshistoriker. Dessutom samarbetar vi med forskare från samhälls-, genus- och litteraturvetenskap för att besvara deras forskningsfrågor och tillsammans utveckla verktyg, utvärderingsdata och forskningsmetodologi för deras specifika behov. Genom att identifiera och hantera förändringar automatiskt och storskaligt, kan vi öppna upp stora mängder av texter, både historiska och moderna och därmed möjliggöra mer ingående och mångfacetterade studier av våra samtida och historiska samhällen.

 

Vårt projekt Towards Automatic Detection of Language Change (2019 - 2022) med Simon Hengchen, Dominik Schlechtweg, och Maria Koptjevskaja Tamm har pågått sedan 2019. Än så länge har vi hunnit med att publicera i ACL, organiserat den två nationella och tre internationella workshopar (computational methods for historical language change (LChange'22)), gett flertalet presentationer, samt några lokala workshops, den senaste på Alan Turing Institute. Vår stora översiktsartikel Computational Approaches to Lexical Semantic Change är nu publicerad. Vi har också hunnit med att köra SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection. Håll er uppdaterade om projektet via vår nyhetslista.

Material till studiecirkeln om digitala metoder för DH finns att hitta på GU Play.

 

 

Forskningsintressen

  • förändringar i ords betydelse över tid
  • lexikala ersättningar
  • data science för humaniora
  • algoritmer och metoder för temporala förändringar

Kulturella förändringar, nya uppfinningar och stora händelser förändrar vårt språk. Vi uppfinner nya ord, lägger till eller ändrar existerande ords betydelser och byter namn på saker och koncept. Denna process resulterar i ett dynamiskt språk som ändras efter våra behov och ger oss möjligheten att uttrycka oss själva och beskriva världen runt oss. Fenomenet kallas språklig förändring.

Jag jobbar med datorstödda metoder för att automatiskt hitta språklig förändring.  Detta dels för att hjälpa användare att hitta information i historiska arkiv och dels för att de skall kunna tolka den. När saker, platser och människor har andra namn i arkiven än de vi är vana vid går det inte att hitta relevanta dokument genom att använda sig av standard metoder som strängmatchning. Strängarna för de moderna namnen matchar inte de namn som finns i arkiven och gör det svårt att hitta dokument där den sökta informationen kan finnas. Och även om vi skulle kunna hitta relevanta dokument så finns det inga garantier att vi kan förstå innehållet. Våra ord och uttryck reflekterar vår kultur och ändras över tid. Om vi inte känner till dessa förändringar riskerar vi att använda oss av moderna, och därmed felaktiga, tolkningar.

Fokus för min forskning är ordbetydelseförändringar samt lexikala ersättningar. Ordbetydelseförändring innebär att orden är samma över tid men deras betydelser varierar, antigen genom tillägg av en eller flera nya betydelser, ändra en existerande betydelse eller genom att förlora en betydelse. I denna klass av förändringar ingår även nyord som introducerar en ny betydelse. Ett exempel är följande citat ur The Times från 27 april, 1787:

“Sebastini's benenefit last night at the Opera-House was overflowing with the
fashionable and gay

Översatt blir uttrycket något i stil med “Sebastini’s gala på Operahuset igår kväll var fylld av de ståtliga och …”. Det sista ordet skulle idag ersättas med homosexuella  men den korrekta översättningen skulle vara glada helt enkelt därför att ordet gay inte fick betydelsen av homosexuell förrän tidigt 2000-tal.

Ord-till-ord förändringar rör klassen av förändring där konceptet är samma över tid men orden som används för att representera konceptet förändrats. Det generella problemet är mycket svårt att lösa men det finns ett delproblem som är mindre komplicerat, nämligen namnförändring som innebär att saker, platser och människor byter namn. Ett exempel är följande citat publicerat i The Times, 18 juli 1942:

“The Germans are brought nearer to Stalingrad and the command of the lower Volga.”

Citatet nämner tyskarna som drar närmre Stalingrad, en rysk stad som ofta nämns i kontexten av andra världskriget men som inte återfinns på en modern karta. 1961 bytte Stalingrad namn till Volgograd och har sedan dess ersatts på kartor och i moderna resurser. Känner man inte till namnbytet så innebär följande problem; Känner man bara till Volgograd kan man inte hitta information om stadens rika historia eftersom historiska dokument inte använder okända, moderna namn.  Känner man istället bara till Stalingrad, eller Tsaritsyn som staden hette innan 1925, så kan man inte hitta information om dess plats eller befolkning idag.

Generellt intresserar jag mig av förändringar av all sort information över tid, från åsikter, värdeladdningar och topics till grafer, samt informationsextraktion ur text. Under 2016 har jag varit delaktig i att bygga en datamängd med 1 miljard svenska ord som en representation av modern, skriven svenska, mer information och själva datamängden går att hitta på Billion word corpus, samt i uppbyggandet av Svenskt sentimentlexikon.

Professional Duties

Keynote

Synergies conference, 2020 (September, 2020, Odense)
Literary studies and DH

Synergies conference presentation på YouTube

Workshop on Digital Literacy, 2020

Keynote
6th Estonian Digital Humanities ConferenceChair local organizing committee
21st Nordic Conference on Computational Linguistics (NoDaLiDa 2017)
http://nodalida2017.se/

Programme committee
Digital Humanities in the Nordic Countries 2nd Conference (DHN2017)
http://dhn2017.eu/

Local organizing committee
14th Conference of the European Chapter of the Association for Computational Linguistics (EACL2014)
http://eacl2014.org/

Workshop chair
1st International Workshop on Computational Approaches to Historical Language Change (LChange'19)
https://languagechange.org/events/2019-acl-lcworkshop/


2nd International Workshop on Computational Approaches to Historical Language Change (LChange'21)
https://languagechange.org/events/2021-acl-lcworkshop/


3rd International Workshop on Computational Approaches to Historical Language Change (LChange'22)
https://languagechange.org/events/2022-acl-lcworkshop/

Workshop on Automatic Detection of Language Change
workshop-automatic-detection-language-change

 

 

Test set / datasets

DWUG SV: Diachronic Word Usage Graphs for Swedish
Schlechtweg, Dominik; Tahmasebi, Nina; Hengchen, Simon; Dubossarsky, Haim; McGillivray, Barbara
DWUG: A large Resource of Diachronic Word Usage Graphs in Four Languages.

SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection
Schlechtweg, Dominik; McGillivray, Barbara; Hengchen, Simon; Dubossarsky, Haim; Tahmasebi, Nina
SemEval-2020 Task description paper

Swedish Test Data for SemEval 2020 Task 1:Unsupervised Lexical Semantic Change Detection
Tahmasebi, Nina; Hengchen, Simon; Schlechtweg, Dominik; McGillivray, Barbara; Dubossarsky, Haim
Word Sense Change Test Set
Tahmasebi and Risse: Finding Individual Word Sense Changes and their Delay in Appearance. RANLP 2017

Named Entity Evolution Dataset
Tahmasebi, Gossen, Kanhabua, Holzmann and Risse: NEER: An Unsupervised Method for Named Entity Evolution Recognition Coling 2012

 

 

Publikationer BibTeX

2022 BibTeX

2021 BibTeX

2020 BibTeX

2019 BibTeX

2018 BibTeX

2017 BibTeX

2016 BibTeX

2015 BibTeX

2014 BibTeX

2013 BibTeX

Profile picture for user xtahni@gu.se
Docent
Forskare

Telefonnummer