Meny

Nina Tahmasebi

 
  • Docent i Språkteknologi
  • Fil. Dr i Datavetenskap
  • Master of Science i Tekniskt matematik
  • Bachelor of Science i Matematik

 

Vårt projekt Towards Automatic Detection of Language Change (2019 - 2022) med Susanne Vejdemo, Richard Johansson, och Maria Koptjevskaja Tamm har pågått ett år. Än så länge har vi hunnit med att publicera i ACL, organiserat den första internationella workshopen för  computational methods for historical language change (LChange'19), givit flertalet presentationer, samt några lokala workshops, den senaste på Alan Turing Institute. Vår stora översiktsartikel Computational Approaches to Lexical Semantic Change finns nu på ArXiV. Håll er uppdaterade om projektet via vår nyhetslista.

Material till studiecirkeln om digitala metoder för DH finns att hitta på GU Play.

 

 

Forskningsintressen

  • förändringar i ords betydelse över tid
  • lexikala ersättningar
  • data science för humaniora
  • algoritmer och metoder för temporala förändringar

Kulturella förändringar, nya uppfinningar och stora händelser förändrar vårt språk. Vi uppfinner nya ord, lägger till eller ändrar existerande ords betydelser och byter namn på saker och koncept. Denna process resulterar i ett dynamiskt språk som ändras efter våra behov och ger oss möjligheten att uttrycka oss själva och beskriva världen runt oss. Fenomenet kallas språklig förändring.

Jag jobbar med datorstödda metoder för att automatiskt hitta språklig förändring.  Detta dels för att hjälpa användare att hitta information i historiska arkiv och dels för att de skall kunna tolka den. När saker, platser och människor har andra namn i arkiven än de vi är vana vid går det inte att hitta relevanta dokument genom att använda sig av standard metoder som strängmatchning. Strängarna för de moderna namnen matchar inte de namn som finns i arkiven och gör det svårt att hitta dokument där den sökta informationen kan finnas. Och även om vi skulle kunna hitta relevanta dokument så finns det inga garantier att vi kan förstå innehållet. Våra ord och uttryck reflekterar vår kultur och ändras över tid. Om vi inte känner till dessa förändringar riskerar vi att använda oss av moderna, och därmed felaktiga, tolkningar.

Fokus för min forskning är ordbetydelseförändringar samt lexikala ersättningar. Ordbetydelseförändring innebär att orden är samma över tid men deras betydelser varierar, antigen genom tillägg av en eller flera nya betydelser, ändra en existerande betydelse eller genom att förlora en betydelse. I denna klass av förändringar ingår även nyord som introducerar en ny betydelse. Ett exempel är följande citat ur The Times från 27 april, 1787:

“Sebastini's benenefit last night at the Opera-House was overflowing with the
fashionable and gay

Översatt blir uttrycket något i stil med “Sebastini’s gala på Operahuset igår kväll var fylld av de ståtliga och …”. Det sista ordet skulle idag ersättas med homosexuella  men den korrekta översättningen skulle vara glada helt enkelt därför att ordet gay inte fick betydelsen av homosexuell förrän tidigt 2000-tal.

Ord-till-ord förändringar rör klassen av förändring där konceptet är samma över tid men orden som används för att representera konceptet förändrats. Det generella problemet är mycket svårt att lösa men det finns ett delproblem som är mindre komplicerat, nämligen namnförändring som innebär att saker, platser och människor byter namn. Ett exempel är följande citat publicerat i The Times, 18 juli 1942:

“The Germans are brought nearer to Stalingrad and the command of the lower Volga.”

Citatet nämner tyskarna som drar närmre Stalingrad, en rysk stad som ofta nämns i kontexten av andra världskriget men som inte återfinns på en modern karta. 1961 bytte Stalingrad namn till Volgograd och har sedan dess ersatts på kartor och i moderna resurser. Känner man inte till namnbytet så innebär följande problem; Känner man bara till Volgograd kan man inte hitta information om stadens rika historia eftersom historiska dokument inte använder okända, moderna namn.  Känner man istället bara till Stalingrad, eller Tsaritsyn som staden hette innan 1925, så kan man inte hitta information om dess plats eller befolkning idag.

Generellt intresserar jag mig av förändringar av all sort information över tid, från åsikter, värdeladdningar och topics till grafer, samt informationsextraktion ur text. Under 2016 har jag varit delaktig i att bygga en datamängd med 1 miljard svenska ord som en representation av modern, skriven svenska, mer information och själva datamängden går att hitta på Billion word corpus, samt i uppbyggandet av Svenskt sentimentlexikon.

Professional Duties

Planerade keynotes

Synergies conference, 2020 (May 2020, Odense)
Literary studies and DH

Keynote
6th Estonian Digital Humanities Conference



Chair local organizing committee
21st Nordic Conference on Computational Linguistics (NoDaLiDa 2017)
http://nodalida2017.se/

Programme committee
Digital Humanities in the Nordic Countries 2nd Conference (DHN2017)
http://dhn2017.eu/

Local organizing committee
14th Conference of the European Chapter of the Association for Computational Linguistics (EACL2014)
http://eacl2014.org/

1st International Workshop on Computational Approaches to Historical Language Change (LChange'19)
https://languagechange.org/events/2019-acl-lcworkshop/

Workshop on Automatic Detection of Language Change
workshop-automatic-detection-language-change

The first Swedish national SWE-CLARIN workshop
https://sweclarin.se/swe/lt-based-e-hss-sweden--taking-stock-and-looking-ahead

Semantic technologies for research in the humanities and social sciences (STRiX)
http://spraakbanken.gu.se/eng/strix2014

 

Test set

Word Sense Change Test Set
Tahmasebi and Risse: Finding Individual Word Sense Changes and their Delay in Appearance. RANLP 2017
WSC test set

Named Entity Evolution Dataset
Tahmasebi, Gossen, Kanhabua, Holzmann and Risse: NEER: An Unsupervised Method for Named Entity Evolution Recognition Coling 2012
NEER test set

 

 

Publikationer

Laddar...
Nina Tahmasebi
Docent
Forskare

E-post

nina.tahmasebi@gu.se

Telefon

  • +46-31786 6953