En ny version av Språkbanken Texts korpuspipeline Sparv har nu släppts. I den här versionen har vi skrivit om Sparv från grunden och gjort verktyget mer användarvänligt. Sparv har även fått nya språkmodeller som leder till en bättre ordklasstaggning och dependensparsning. Dessutom kan Sparv nu producera fler exportformat såsom XML, CSV, CoNLL och ordfrekvenslistor.
Göteborgs universitet ledigförklarar intermittent anställning som projektassistent (en eller flera) med placering vid Språkbanken Text, institutionen för svenska språket. Läs mer här:
Yesterday, we have released word embedding models trained on our historical newspaper archive, Kubhist 2. Word embedding models represent words using vectors and place them in their semantic neighbourhood such that words that are similar are closer together. Thus they allow to easily look for semantic similarity between words as well as detect relations.