En ny version av Språkbanken Texts korpuspipeline Sparv har nu släppts. I den här versionen har vi skrivit om Sparv från grunden och gjort verktyget mer användarvänligt. Sparv har även fått nya språkmodeller som leder till en bättre ordklasstaggning och dependensparsning. Dessutom kan Sparv nu producera fler exportformat såsom XML, CSV, CoNLL och ordfrekvenslistor. Läs mer om vad som är nytt på https://github.com/spraakbanken/sparv-pipeline/releases/tag/v4.0.0.
Dokumentationen samt installationsinstruktioner hittar du här: https://spraakbanken.gu.se/sparv/docs.
Källkoden är tillgänglig på https://github.com/spraakbanken/sparv-pipeline.
Göteborgs universitet ledigförklarar intermittent anställning som projektassistent (en eller flera) med placering vid Språkbanken Text, institutionen för svenska språket. Läs mer här:
Projektassistent - Intermittent timanställning (en eller flera)>>
Yesterday, we have released word embedding models trained on our historical newspaper archive, Kubhist 2. Word embedding models represent words using vectors and place them in their semantic neighbourhood such that words that are similar are closer together. Thus they allow to easily look for semantic similarity between words as well as detect relations. We have released diachronic models, one for each 20-year period of Kubhist 2. The interesting feature of diachronic embeddings is that they allow to for the study of a word's semantics over time. The models are currently available on Zenodo, and will be available via the SBX page shortly. A thorough description is soon to appear in the Journal of Open Humanities Data.
Any corpus is a welcome addition to Korp, but gold corpora (those where the annotation quality has been manually controlled) are particularly valuable. We have now added SIC2, a slightly modified version of the Stockholm Internet Corpus, originally created by Robert Östling et al. SIC2 is a small corpus of blogs, but it has gold part-of-speech, morphosyntactic and named-entity tags (SUC-style). In addition, basic information about the authors is also available. The corpus is downloadable.
The integration of SIC2 into Korp served also as a test drive for the new version of our annotation pipeline Sparv, to be released very soon.
Ta del av innehåll och program här: https://spraakbanken.gu.se/en/sltc2020
Organisatörer:
We have added a pretrained model for lemmatization of Swedish text to our model collection. The model was trained and tested on SUC3 using the Stanza package and achieves a very high accuracy of 99.18.
The drawback of this model is that SUC3 lemmatization and part-of-speech annotation does not exactly match that in Saldo, which is used by Sparv to annotate the resources available via Korp. The advantage, however, is that the model always produces a guess (and usually a correct one), while the current version of Sparv sometimes cannot do that. The new version of Sparv (coming soon) will probably combine the two approaches.
Using the model does not require deep knowledge of natural language processing or advanced programming skills.
More to come.
Språkbanken Text, and projektet Towards Computational Lexical Semantic Change Detection organiserar en andra workshop inom LChange-serien om beräkningsmodeller för historiska språkförändringar som är planerad till augusti 2021.
Workshopen bygger på den första LChange workshopen som vill höll i 2019 i samband med ACL. Den var en överväldigande succé och lockade över 50 inskickade bidrag och 65 deltagare. Även LChange'21 organiseras i samband med ACL2021.
Vårt tema kommer att vara ungefär samma som förra gången: alla aspekter kring maskinella metoder och modeller för språkliga förändringar där textkorpusar används för utvinning. Deadline för bidrag kommer att annonseras inom kort på vår webbsida: https://languagechange.org/events/2021-acl-lchange/
LChange'21 kommer att ha två plenärtalare, en med fokus på beräkningsmodeller och en med fokus på applikationer eller teori kring språkliga förändringar. Goda förslag tas tacksamt emot!
Vi ser fram emot bidrag och deltagande, sprid gärna nyheten vidare!