Ett av de stora problemen inom fältet rör bristen på öppna testdata av god kvalité som bidrar till jämförbara metoder. Språkbanken är med i en shared task (forskningstävling) som syftar till att jämföra modeller på öppna data med en gemensamt satt standard med hjälp av hög-kvalitativa, manuellt annoterade datamängder för engelska, svenska, tyska och latin. Tävlingen, som organiseras under SemEval2020-flagg, drog igång den 19 februari 2020 och kör i ytterligare en månad.
I nu läget har vi släppt testdata för samtliga språk (de svenska delkorpusarna bygger på Kubhist2 och finnas att hitta här: https://zenodo.org/record/3672950), samt ett gäng med testord som skall klassificeras. Efter tävlingens slut kommer vi även att släppa ground truth (alltså resultaten baserat på den manuella uppmärkning som gjorts under hösten och vintern) för vidare utveckling och andra uppgifter.
Den som vill delta i tävlingen, eller ladda ner data för de andra språken, kan hitta mer information på SemEval 2020 Task 1: Unsupervised Lexical Semantic Change Detection. De officiella resultaten presenteras på SemEval2020 workshopen under Coling2020 i Barcelona i år.
Mer information om projektet Towards Computational Lexical Semantic Change Detection finns på https://languagechange.org/.